tidlig fusion
En fusionsteknik hvor data fra flere modaliteter kombineres på inputniveau, før de behandles af en model.
Kort fortalt
Tidlig fusion betyder at man blander forskellige typer data (fx billede og tekst) helt i starten af processen, så modellen ser én samlet input.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Kombination af flere datakilder på inputniveau, inden dataene behandles af en maskinlæringsmodel.
- I vores multimodale system anvender vi tidlig fusion ved at konkatenere billed- og tekst-embeddings. — Forskningsartikel, 2023
- Tidlig fusion kan føre til overfitting, hvis modaliteterne ikke er godt synkroniserede. — Lærebog i multimodal machine learning, 2022
Hvornår bruges det
Tidlig fusion bruges typisk i multimodale modeller, hvor man ønsker at udnytte korrelationer mellem modaliteter direkte i inputlaget. Det er enkelt at implementere, men kan være mindre fleksibelt end sen fusion, da det kræver, at modaliteterne har samme repræsentation eller kan transformeres til et fælles rum.
Kodeeksempel
import torch
# image features shape (batch, 512), text features shape (batch, 256)
combined = torch.cat([image_feats, text_feats], dim=1)
# combined shape (batch, 768)Simpel konkatenation af billed- og tekst-embeddings til tidlig fusion.
Oprindelse
Udtrykket 'tidlig fusion' kommer fra engelsk 'early fusion', hvor 'early' henviser til det tidlige stadie i modelarkitekturen (inputniveau) og 'fusion' betyder sammenkobling af information.
Afledte ord
1Kilder
1- Multimodal Machine Learning: A Survey and Taxonomy, Baltrušaitis et al., 2019