cross-modal

Betegnelse for processer, modeller og teknikker der arbejder på tværs af forskellige modaliteter (fx tekst, billede, lyd) for at lære fælles repræsentationer eller udføre opgaver der kræver forståelse af relationer mellem modaliteter.

Kort fortalt

Cross-modal betyder 'på tværs af sanser/datatyper' – fx at koble en billedbeskrivelse med det rigtige billede, eller at oversætte tale til tekst.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Egenskab ved en model eller proces, der involverer interaktion mellem to eller flere modaliteter, fx tekst og billede, for at lære korrespondancer eller udføre opgaver der kræver forståelse på tværs af modaliteter.

    • CLIP-modellen er trænet på et stort datasæt af billede-tekst-par og opnår state-of-the-art resultater på cross-modal retrieval.
    • Cross-modal læring gør det muligt at overføre viden fra en modalitet til en anden, fx at generere en billedbeskrivelse fra et billede.

Hvornår bruges det

Cross-modal teknikker anvendes især inden for multimodal AI, fx til billede-tekst retrieval, visuel spørgsmål-besvarelse (VQA) og tale-til-tekst oversættelse. Modeller som CLIP og LLaVA er eksempler på cross-modal arkitekturer, der lærer at kortlægge forskellige modaliteter til et fælles repræsentationsrum.

Oprindelse

Fra engelsk 'cross' (tværs) og 'modal' (modalitet), dannet i slutningen af 1990'erne i sprogteknologisk forskning.

Afledte ord

3

Kilder

2
  • Multimodal Machine Learning: A Survey and Taxonomy
  • VisualBERT: A Simple and Performant Baseline for Vision and Language