cross-modal representation
En repræsentation, der fanger information på tværs af forskellige modaliteter (fx tekst, billede, lyd) i et fælles latent rum.
Kort fortalt
En måde at lade en model forstå sammenhængen mellem forskellige typer data, som tekst og billeder, ved at oversætte dem til et fælles sprog.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En vektoriseret fremstilling af data, der muliggør sammenligning og interaktion mellem forskellige modaliteter ved at projicere dem ind i et fælles repræsentationsrum.
- CLIP-modellen lærer cross-modal representationer af billeder og tekst ved hjælp af kontrastiv læring. — Radford et al., 2021
- Cross-modal representationer muliggør zero-shot overførsel mellem modaliteter, som når en model genkender objekter i billeder baseret på tekstbeskrivelser.
Hvornår bruges det
Cross-modal representationer er centrale i multimodale modeller som CLIP, der lærer at kortlægge billeder og tekst til samme repræsentationsrum. De bruges til opgaver som billedtekstsøgning, zero-shot-klassifikation og multimodal generative modeller.
Oprindelse
Udtrykket kommer af 'cross-' (tværs) og 'modalitet' (sanseform) og 'repræsentation'; begrebet opstod i maskinlæringsforskning omkring 2010'erne.
Afledte ord
3Kilder
1- Radford, A., Kim, J.W., Hallacy, C., et al. Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML, 2021.