multimodal data

Data der består af eller integrerer information fra flere forskellige modaliteter som tekst, billede, lyd og video.

Kort fortalt

Multimodal data er data, der kombinerer flere forskellige typer information, f.eks. både tekst og billeder, så en AI-model kan forstå dem sammen.

Kategori: begreb
Niveau: øvet
Udtale: /mʌltiˈmoʊdəl ˈdeɪtə/

Betydninger

1
Data der omfatter information fra mere end én modalitet, såsom tekst, billeder, lyd, video eller sensoriske målinger, ofte anvendt i AI til at opnå en rigere forståelse af et fænomen.
- Træning af en multimodal model kræver store mængder multimodal data, f.eks. billede-tekst-par. — AI Ordbog

Hvornår bruges det

Multimodal data bruges i AI-systemer, der skal behandle og sammenkoble information fra forskellige kilder, f.eks. i billedtekstgenkendelse, videoanalyse eller systemer der kombinerer tale og gestik. Det kræver særlige modeller, der kan lære at repræsentere og fusionere modaliteterne.

Oprindelse

Fra latin 'multus' (mange) og 'modus' (måde), samt græsk 'data' (givne ting).

Afledte ord

multimodal learning multimodal fusion

Kilder

Multimodal Machine Learning: A Survey and Taxonomy

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →