Multimodal

Multimodal refererer til AI-systemer, der kan behandle og integrere information fra flere forskellige datatyper såsom tekst, billeder, lyd og video.

Kort fortalt

En multimodal model kan både 'se' billeder og 'læse' tekst, og forstå sammenhængen mellem dem.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    Generelt koncept for AI-systemer, der kombinerer og behandler flere datatyper (modaliteter) såsom tekst, billeder, lyd, video og sensoriske data.

    • Multimodale systemer anvendes i autonome køretøjer, hvor data fra kameraer, LiDAR og radar fusioneres.
    • Forskning i multimodal maskinlæring fokuserer på, hvordan modeller effektivt kan lære på tværs af modaliteter.
  2. 2

    Betegnelse for specifikke arkitekturer eller modeller, der er designet til at arbejde med flere modaliteter, ofte ved at kortlægge dem til et fælles repræsentationsrum.

    • CLIP er en multimodal model, der lærer en fælles embedding-rum for tekst og billeder.
    • GPT-4V er en multimodal version af GPT-4, der kan behandle både tekst- og billedinput.

Hvornår bruges det

Bruges især i spørgsmål-svar-systemer, billedgenkendelse med tekstbeskrivelse, og i generativ AI, hvor output kan være på tværs af modaliteter. Multimodale modeller trænes ofte på store datasæt med parrede data, f.eks. billede-tekst-par.

Oprindelse

Fra latin 'multus' (mange) og 'modalis' (måde/form), via engelsk 'multimodal'.

Afledte ord

3

Kilder

2
  • CLIP: Learning Transferable Visual Models From Natural Language Supervision (2021)
  • Flamingo: a Visual Language Model for Few-Shot Learning (2022)