multimodal fusionslag
Et neuralt netværkslag der kombinerer repræsentationer fra flere datatyper (modaliteter) som tekst, billede og lyd til en fælles repræsentation.
Kort fortalt
Et lag der samler information fra forskellige slags data (f.eks. billeder og tekst) til én forståelse.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
Et lag i et neuralt netværk, der integrerer information fra forskellige modaliteter (f.eks. tekst, billede, lyd) til en fælles repræsentation, typisk ved at kombinere deres embeddings via operationer som sammenkædning, addering eller opmærksomhedsmekanismer.
- I en multimodal model for billedtekst-genfinding bruges et fusionslag til at kombinere billed- og tekst-embeddings inden klassifikation. — Eksempelkonstruktion
- Det multimodale fusionslag i transformer-baserede modeller anvender ofte krydsopmærksomhed mellem modaliteterne. — Eksempelkonstruktion
Hvornår bruges det
Multimodale fusionslag anvendes i arkitekturer, der skal behandle flere inputtyper samtidigt, f.eks. i spørgsmål-besvarelse med billeder (visual question answering) eller videoanalyse. Fusionslaget kan udføre simpel sammenkædning (concat) eller mere avancerede mekanismer som opmærksomhed (attention) over modaliteter.
Kodeeksempel
class MultimodalFusionLayer(nn.Module):
def __init__(self, d_text, d_image, d_out):
super().__init__()
self.fc = nn.Linear(d_text + d_image, d_out)
def forward(self, text_emb, image_emb):
return self.fc(torch.cat([text_emb, image_emb], dim=-1))Et simpelt fusionslag der sammenkæder tekst- og billed-embeddings og projicerer til en fælles dimension.
Oprindelse
'Multimodal' kommer af latin 'multi-' (mange) og 'modus' (måde), 'fusion' fra latin 'fusio' (sammensmeltning), og 'lag' fra dansk/engelsk for et niveau i en netværksarkitektur.
Afledte ord
1Kilder
2- ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations
- Multimodal Machine Learning: A Survey and Taxonomy