multimodal data
Data der består af eller integrerer information fra flere forskellige modaliteter som tekst, billede, lyd og video.
Kort fortalt
Multimodal data er data, der kombinerer flere forskellige typer information, f.eks. både tekst og billeder, så en AI-model kan forstå dem sammen.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /mʌltiˈmoʊdəl ˈdeɪtə/
Betydninger
1- 1
Data der omfatter information fra mere end én modalitet, såsom tekst, billeder, lyd, video eller sensoriske målinger, ofte anvendt i AI til at opnå en rigere forståelse af et fænomen.
- Træning af en multimodal model kræver store mængder multimodal data, f.eks. billede-tekst-par. — AI Ordbog
Hvornår bruges det
Multimodal data bruges i AI-systemer, der skal behandle og sammenkoble information fra forskellige kilder, f.eks. i billedtekstgenkendelse, videoanalyse eller systemer der kombinerer tale og gestik. Det kræver særlige modeller, der kan lære at repræsentere og fusionere modaliteterne.
Oprindelse
Fra latin 'multus' (mange) og 'modus' (måde), samt græsk 'data' (givne ting).
Afledte ord
2Kilder
1- Multimodal Machine Learning: A Survey and Taxonomy