cross-modal learning

Læring på tværs af forskellige datatyper som tekst, billede og lyd.

Kort fortalt

En metode hvor en AI lærer at forstå sammenhængen mellem forskellige slags data, fx at koble en billedtekst til et foto.

Kategori: teknik
Niveau: øvet

Betydninger

1
En læringsmetode hvor en model lærer at forbinde og overføre information mellem forskellige modaliteter såsom tekst, billeder, lyd eller video.
- CLIP er et eksempel på cross-modal learning mellem tekst og billede.
- Cross-modal learning muliggør tekst-til-billede-søgning ved at indlejre begge modaliteter i et fælles repræsentationsrum.

Hvornår bruges det

Bruges i multimodale systemer som CLIP, hvor modellen lærer fælles repræsentationer på tværs af modaliteter. Anvendes til søgning, oversættelse mellem modaliteter og generering.

Oprindelse

Dannet af 'cross-' (på tværs) og 'modal' (vedrørende sansekanal eller datatype) og 'learning' (læring).

Afledte ord

cross-modal retrieval cross-modal generation

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →