cross-modal learning
Læring på tværs af forskellige datatyper som tekst, billede og lyd.
Kort fortalt
En metode hvor en AI lærer at forstå sammenhængen mellem forskellige slags data, fx at koble en billedtekst til et foto.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En læringsmetode hvor en model lærer at forbinde og overføre information mellem forskellige modaliteter såsom tekst, billeder, lyd eller video.
- CLIP er et eksempel på cross-modal learning mellem tekst og billede.
- Cross-modal learning muliggør tekst-til-billede-søgning ved at indlejre begge modaliteter i et fælles repræsentationsrum.
Hvornår bruges det
Bruges i multimodale systemer som CLIP, hvor modellen lærer fælles repræsentationer på tværs af modaliteter. Anvendes til søgning, oversættelse mellem modaliteter og generering.
Oprindelse
Dannet af 'cross-' (på tværs) og 'modal' (vedrørende sansekanal eller datatype) og 'learning' (læring).