cross-modal representation

En repræsentation, der fanger information på tværs af forskellige modaliteter (fx tekst, billede, lyd) i et fælles latent rum.

Kort fortalt

En måde at lade en model forstå sammenhængen mellem forskellige typer data, som tekst og billeder, ved at oversætte dem til et fælles sprog.

Kategori: begreb
Niveau: øvet

Betydninger

1
En vektoriseret fremstilling af data, der muliggør sammenligning og interaktion mellem forskellige modaliteter ved at projicere dem ind i et fælles repræsentationsrum.
- CLIP-modellen lærer cross-modal representationer af billeder og tekst ved hjælp af kontrastiv læring. — Radford et al., 2021
- Cross-modal representationer muliggør zero-shot overførsel mellem modaliteter, som når en model genkender objekter i billeder baseret på tekstbeskrivelser.

Hvornår bruges det

Cross-modal representationer er centrale i multimodale modeller som CLIP, der lærer at kortlægge billeder og tekst til samme repræsentationsrum. De bruges til opgaver som billedtekstsøgning, zero-shot-klassifikation og multimodal generative modeller.

Oprindelse

Udtrykket kommer af 'cross-' (tværs) og 'modalitet' (sanseform) og 'repræsentation'; begrebet opstod i maskinlæringsforskning omkring 2010'erne.

Afledte ord

cross-modal embedding cross-modal alignment cross-modal retrieval

Kilder

Radford, A., Kim, J.W., Hallacy, C., et al. Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML, 2021.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →