multimodal AI

AI-systemer der kan behandle og kombinere flere datatyper som tekst, billeder, lyd og video.

Kort fortalt

Multimodal AI er kunstig intelligens, der forstår og arbejder med flere slags information på én gang, f.eks. både tekst og billeder.

Kategori: begreb
Niveau: øvet
Udtale: /mʌltiˈmoʊdəl eɪ aɪ/

Betydninger

1
Forskningsfelt og teknologier der udvikler AI-systemer som kan behandle og integrere information fra flere forskellige modaliteter (fx tekst, billeder, lyd) samtidigt.
- Multimodal AI muliggør at en chatbot både kan læse tekst og genkende følelser i brugerens stemme.
- Modeller som CLIP og DALL·E er eksempler på multimodal AI, der forbinder sprog og visuel forståelse.

Hvornår bruges det

Anvendes i opgaver som billedtekstgenerering, videoanalyse og stemmestyring, hvor flere informationskilder integreres for at opnå en rigere forståelse.

Oprindelse

Fra 'multi-' (mange) og 'modal' (modalitet/type) kombineret med 'AI' (kunstig intelligens).

Afledte ord

multimodal model multimodal learning

Kilder

Multimodal Machine Learning: A Survey and Taxonomy

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →