cross-modal representation

En repræsentation, der fanger information på tværs af forskellige modaliteter (fx tekst, billede, lyd) i et fælles latent rum.

Kort fortalt

En måde at lade en model forstå sammenhængen mellem forskellige typer data, som tekst og billeder, ved at oversætte dem til et fælles sprog.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En vektoriseret fremstilling af data, der muliggør sammenligning og interaktion mellem forskellige modaliteter ved at projicere dem ind i et fælles repræsentationsrum.

    • CLIP-modellen lærer cross-modal representationer af billeder og tekst ved hjælp af kontrastiv læring.Radford et al., 2021
    • Cross-modal representationer muliggør zero-shot overførsel mellem modaliteter, som når en model genkender objekter i billeder baseret på tekstbeskrivelser.

Hvornår bruges det

Cross-modal representationer er centrale i multimodale modeller som CLIP, der lærer at kortlægge billeder og tekst til samme repræsentationsrum. De bruges til opgaver som billedtekstsøgning, zero-shot-klassifikation og multimodal generative modeller.

Oprindelse

Udtrykket kommer af 'cross-' (tværs) og 'modalitet' (sanseform) og 'repræsentation'; begrebet opstod i maskinlæringsforskning omkring 2010'erne.

Afledte ord

3

Kilder

1
  • Radford, A., Kim, J.W., Hallacy, C., et al. Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML, 2021.