multimodal AI

AI-systemer der kan behandle og kombinere flere datatyper som tekst, billeder, lyd og video.

Kort fortalt

Multimodal AI er kunstig intelligens, der forstår og arbejder med flere slags information på én gang, f.eks. både tekst og billeder.

Kategori
begreb
Niveau
øvet
Udtale
/mʌltiˈmoʊdəl eɪ aɪ/

Betydninger

1
  1. 1

    Forskningsfelt og teknologier der udvikler AI-systemer som kan behandle og integrere information fra flere forskellige modaliteter (fx tekst, billeder, lyd) samtidigt.

    • Multimodal AI muliggør at en chatbot både kan læse tekst og genkende følelser i brugerens stemme.
    • Modeller som CLIP og DALL·E er eksempler på multimodal AI, der forbinder sprog og visuel forståelse.

Hvornår bruges det

Anvendes i opgaver som billedtekstgenerering, videoanalyse og stemmestyring, hvor flere informationskilder integreres for at opnå en rigere forståelse.

Oprindelse

Fra 'multi-' (mange) og 'modal' (modalitet/type) kombineret med 'AI' (kunstig intelligens).

Afledte ord

2

Kilder

1
  • Multimodal Machine Learning: A Survey and Taxonomy