cross-modal retrieval
Teknik til at søge og matche data på tværs af forskellige modaliteter, fx tekst og billede.
Kort fortalt
En metode, der gør det muligt at finde billeder ud fra en tekstbeskrivelse eller omvendt ved at lære et fælles repræsentationsrum.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Proces eller metode til at hente data fra én modalitet (fx billede) baseret på en forespørgsel fra en anden modalitet (fx tekst), typisk ved at indlejre begge modaliteter i et fælles vektorrum.
- Modellen udfører cross-modal retrieval ved at matche en tekstbeskrivelse med de mest relevante billeder i databasen.
Hvornår bruges det
Anvendes inden for informationssøgning, anbefalingssystemer og multimodale AI-systemer, hvor input og output kan være af forskellige typer. Træning kræver parrede data, fx billede-tekst-par.
Oprindelse
Fra engelsk 'cross-modal retrieval', hvor 'cross-modal' betyder på tværs af modaliteter.