multimodal model
En model der kan behandle og integrere flere datatyper (fx tekst, billeder, lyd).
Kort fortalt
En AI-model der forstår og kombinerer forskellige slags informationer som tekst, billeder og lyd.
- Kategori
- model
- Niveau
- øvet
- Udtale
- /ˌmʌltiˈmoʊdəl ˈmɒdəl/
Betydninger
1- 1
En model der samtidigt behandler og fusionerer information fra flere forskellige datatyper eller modaliteter (fx tekst, billede, lyd, video) for at udføre en opgave, typisk ved hjælp af neurale netværk.
- En multimodal model kan generere en billedtekst ved at kombinere visuel og sproglig information.
- CLIP er en multimodal model der lærer visuelle koncepter fra naturligt sprog. — CLIP paper, 2021
Hvornår bruges det
Bruges i opgaver der kræver forståelse af tværmodal information, fx billedtekstgenerering eller videoforståelse. Modeller som CLIP og GPT-4V er eksempler.
Kodeeksempel
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
# Example: compute similarity between image and text
import torch
from PIL import Image
# Load image and text
image = Image.open("image.jpg")
text = ["a photo of a cat"]
# Preprocess
inputs = processor(text=text, images=image, return_tensors="pt", padding=True)
# Forward
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
print(probs)Eksempel på indlæsning af CLIP-modellen og beregning af lighed mellem billede og tekst.
Oprindelse
Fra latin 'multi-' (mange) og 'modalis' (måde/form), på dansk: model med flere modaliteter.
Afledte ord
2Kilder
2- Learning Transferable Visual Models From Natural Language Supervision (CLIP)
- GPT-4 Technical Report (multimodal capabilities)