multimodal fusion

Multimodal fusion er processen med at kombinere information fra flere forskellige datatyper (modaliteter) som tekst, billede og lyd for at skabe en samlet repræsentation.

Kort fortalt

Multimodal fusion handler om at smelte forskellige slags data som tekst, billeder og lyd sammen, så en AI-model kan forstå dem under ét.

Kategori
teknik
Niveau
øvet
Udtale
/ˌmʌltiˈmoʊdəl ˈfjuːʒən/

Betydninger

2
  1. 1

    Generel teknik til at kombinere data fra forskellige modaliteter til en fælles repræsentation, ofte ved hjælp af neurale netværk.

    • I en multimodal fusionsmodel kan billeder og tekst kombineres ved at konkatene deres embeddings.Forskningsartikel om multimodal læring, 2021
    • Sen fusion anvender separate klassifikatorer for hver modalitet og kombinerer deres output.
  2. 2

    Specifik arkitektur i dyb læring, der anvender opmærksomhedsmekanismer til at flette modaliteter.

    • Transformer-baserede modeller som ViLBERT udfører multimodal fusion via tvær-modal opmærksomhed.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations, 2019

Hvornår bruges det

Multimodal fusion anvendes i systemer som f.eks. visuel spørgsmålsbesvarelse (VQA) og tekst-til-billede generering. Teknikkerne omfatter tidlig fusion (konkatenering af repræsentationer) og sen fusion (beslutning på modalitetsniveau). Det kræver ofte justering af repræsentationer på tværs af modaliteter.

Kodeeksempel

import torch

# Example: early fusion by concatenating image and text embeddings
image_embed = torch.randn(batch_size, 512)  # from image encoder
text_embed = torch.randn(batch_size, 768)   # from text encoder
fused = torch.cat([image_embed, text_embed], dim=-1)  # shape (batch, 1280)

# Then pass fused to a classifier

Simpelt eksempel på tidlig fusion, hvor embeddings konkateneres.

Oprindelse

Fra latin 'multi' (mange), 'modalis' (måde) og 'fusio' (sammensmeltning).

Afledte ord

3

Kilder

2
  • Multimodal Deep Learning (Ngiam et al., 2011)
  • ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations (Lu et al., 2019)