multimodal data

Data der består af eller integrerer information fra flere forskellige modaliteter som tekst, billede, lyd og video.

Kort fortalt

Multimodal data er data, der kombinerer flere forskellige typer information, f.eks. både tekst og billeder, så en AI-model kan forstå dem sammen.

Kategori
begreb
Niveau
øvet
Udtale
/mʌltiˈmoʊdəl ˈdeɪtə/

Betydninger

1
  1. 1

    Data der omfatter information fra mere end én modalitet, såsom tekst, billeder, lyd, video eller sensoriske målinger, ofte anvendt i AI til at opnå en rigere forståelse af et fænomen.

    • Træning af en multimodal model kræver store mængder multimodal data, f.eks. billede-tekst-par.AI Ordbog

Hvornår bruges det

Multimodal data bruges i AI-systemer, der skal behandle og sammenkoble information fra forskellige kilder, f.eks. i billedtekstgenkendelse, videoanalyse eller systemer der kombinerer tale og gestik. Det kræver særlige modeller, der kan lære at repræsentere og fusionere modaliteterne.

Oprindelse

Fra latin 'multus' (mange) og 'modus' (måde), samt græsk 'data' (givne ting).

Afledte ord

2

Kilder

1
  • Multimodal Machine Learning: A Survey and Taxonomy