multimodal fusion
Multimodal fusion er processen med at kombinere information fra flere forskellige datatyper (modaliteter) som tekst, billede og lyd for at skabe en samlet repræsentation.
Kort fortalt
Multimodal fusion handler om at smelte forskellige slags data som tekst, billeder og lyd sammen, så en AI-model kan forstå dem under ét.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˌmʌltiˈmoʊdəl ˈfjuːʒən/
Betydninger
2- 1
Generel teknik til at kombinere data fra forskellige modaliteter til en fælles repræsentation, ofte ved hjælp af neurale netværk.
- I en multimodal fusionsmodel kan billeder og tekst kombineres ved at konkatene deres embeddings. — Forskningsartikel om multimodal læring, 2021
- Sen fusion anvender separate klassifikatorer for hver modalitet og kombinerer deres output.
- 2
Specifik arkitektur i dyb læring, der anvender opmærksomhedsmekanismer til at flette modaliteter.
- Transformer-baserede modeller som ViLBERT udfører multimodal fusion via tvær-modal opmærksomhed. — ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations, 2019
Hvornår bruges det
Multimodal fusion anvendes i systemer som f.eks. visuel spørgsmålsbesvarelse (VQA) og tekst-til-billede generering. Teknikkerne omfatter tidlig fusion (konkatenering af repræsentationer) og sen fusion (beslutning på modalitetsniveau). Det kræver ofte justering af repræsentationer på tværs af modaliteter.
Kodeeksempel
import torch
# Example: early fusion by concatenating image and text embeddings
image_embed = torch.randn(batch_size, 512) # from image encoder
text_embed = torch.randn(batch_size, 768) # from text encoder
fused = torch.cat([image_embed, text_embed], dim=-1) # shape (batch, 1280)
# Then pass fused to a classifierSimpelt eksempel på tidlig fusion, hvor embeddings konkateneres.
Oprindelse
Fra latin 'multi' (mange), 'modalis' (måde) og 'fusio' (sammensmeltning).
Afledte ord
3Kilder
2- Multimodal Deep Learning (Ngiam et al., 2011)
- ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations (Lu et al., 2019)