tidlig fusion

En fusionsteknik hvor data fra flere modaliteter kombineres på inputniveau, før de behandles af en model.

Kort fortalt

Tidlig fusion betyder at man blander forskellige typer data (fx billede og tekst) helt i starten af processen, så modellen ser én samlet input.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Kombination af flere datakilder på inputniveau, inden dataene behandles af en maskinlæringsmodel.

    • I vores multimodale system anvender vi tidlig fusion ved at konkatenere billed- og tekst-embeddings.Forskningsartikel, 2023
    • Tidlig fusion kan føre til overfitting, hvis modaliteterne ikke er godt synkroniserede.Lærebog i multimodal machine learning, 2022

Hvornår bruges det

Tidlig fusion bruges typisk i multimodale modeller, hvor man ønsker at udnytte korrelationer mellem modaliteter direkte i inputlaget. Det er enkelt at implementere, men kan være mindre fleksibelt end sen fusion, da det kræver, at modaliteterne har samme repræsentation eller kan transformeres til et fælles rum.

Kodeeksempel

import torch
# image features shape (batch, 512), text features shape (batch, 256)
combined = torch.cat([image_feats, text_feats], dim=1)
# combined shape (batch, 768)

Simpel konkatenation af billed- og tekst-embeddings til tidlig fusion.

Oprindelse

Udtrykket 'tidlig fusion' kommer fra engelsk 'early fusion', hvor 'early' henviser til det tidlige stadie i modelarkitekturen (inputniveau) og 'fusion' betyder sammenkobling af information.

Afledte ord

1

Kilder

1
  • Multimodal Machine Learning: A Survey and Taxonomy, Baltrušaitis et al., 2019