Multimodal
Multimodal refererer til AI-systemer, der kan behandle og integrere information fra flere forskellige datatyper såsom tekst, billeder, lyd og video.
Kort fortalt
En multimodal model kan både 'se' billeder og 'læse' tekst, og forstå sammenhængen mellem dem.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
2- 1
Generelt koncept for AI-systemer, der kombinerer og behandler flere datatyper (modaliteter) såsom tekst, billeder, lyd, video og sensoriske data.
- Multimodale systemer anvendes i autonome køretøjer, hvor data fra kameraer, LiDAR og radar fusioneres.
- Forskning i multimodal maskinlæring fokuserer på, hvordan modeller effektivt kan lære på tværs af modaliteter.
- 2
Betegnelse for specifikke arkitekturer eller modeller, der er designet til at arbejde med flere modaliteter, ofte ved at kortlægge dem til et fælles repræsentationsrum.
- CLIP er en multimodal model, der lærer en fælles embedding-rum for tekst og billeder.
- GPT-4V er en multimodal version af GPT-4, der kan behandle både tekst- og billedinput.
Hvornår bruges det
Bruges især i spørgsmål-svar-systemer, billedgenkendelse med tekstbeskrivelse, og i generativ AI, hvor output kan være på tværs af modaliteter. Multimodale modeller trænes ofte på store datasæt med parrede data, f.eks. billede-tekst-par.
Oprindelse
Fra latin 'multus' (mange) og 'modalis' (måde/form), via engelsk 'multimodal'.
Afledte ord
3Kilder
2- CLIP: Learning Transferable Visual Models From Natural Language Supervision (2021)
- Flamingo: a Visual Language Model for Few-Shot Learning (2022)