cross-modal retrieval

Teknik til at søge og matche data på tværs af forskellige modaliteter, fx tekst og billede.

Kort fortalt

En metode, der gør det muligt at finde billeder ud fra en tekstbeskrivelse eller omvendt ved at lære et fælles repræsentationsrum.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Proces eller metode til at hente data fra én modalitet (fx billede) baseret på en forespørgsel fra en anden modalitet (fx tekst), typisk ved at indlejre begge modaliteter i et fælles vektorrum.

    • Modellen udfører cross-modal retrieval ved at matche en tekstbeskrivelse med de mest relevante billeder i databasen.

Hvornår bruges det

Anvendes inden for informationssøgning, anbefalingssystemer og multimodale AI-systemer, hvor input og output kan være af forskellige typer. Træning kræver parrede data, fx billede-tekst-par.

Oprindelse

Fra engelsk 'cross-modal retrieval', hvor 'cross-modal' betyder på tværs af modaliteter.

Afledte ord

1

Kilder

2