multimodal fusionslag

Et neuralt netværkslag der kombinerer repræsentationer fra flere datatyper (modaliteter) som tekst, billede og lyd til en fælles repræsentation.

Kort fortalt

Et lag der samler information fra forskellige slags data (f.eks. billeder og tekst) til én forståelse.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    Et lag i et neuralt netværk, der integrerer information fra forskellige modaliteter (f.eks. tekst, billede, lyd) til en fælles repræsentation, typisk ved at kombinere deres embeddings via operationer som sammenkædning, addering eller opmærksomhedsmekanismer.

    • I en multimodal model for billedtekst-genfinding bruges et fusionslag til at kombinere billed- og tekst-embeddings inden klassifikation.Eksempelkonstruktion
    • Det multimodale fusionslag i transformer-baserede modeller anvender ofte krydsopmærksomhed mellem modaliteterne.Eksempelkonstruktion

Hvornår bruges det

Multimodale fusionslag anvendes i arkitekturer, der skal behandle flere inputtyper samtidigt, f.eks. i spørgsmål-besvarelse med billeder (visual question answering) eller videoanalyse. Fusionslaget kan udføre simpel sammenkædning (concat) eller mere avancerede mekanismer som opmærksomhed (attention) over modaliteter.

Kodeeksempel

class MultimodalFusionLayer(nn.Module):
    def __init__(self, d_text, d_image, d_out):
        super().__init__()
        self.fc = nn.Linear(d_text + d_image, d_out)
    def forward(self, text_emb, image_emb):
        return self.fc(torch.cat([text_emb, image_emb], dim=-1))

Et simpelt fusionslag der sammenkæder tekst- og billed-embeddings og projicerer til en fælles dimension.

Oprindelse

'Multimodal' kommer af latin 'multi-' (mange) og 'modus' (måde), 'fusion' fra latin 'fusio' (sammensmeltning), og 'lag' fra dansk/engelsk for et niveau i en netværksarkitektur.

Afledte ord

1

Kilder

2
  • ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations
  • Multimodal Machine Learning: A Survey and Taxonomy