multimodal model

En model der kan behandle og integrere flere datatyper (fx tekst, billeder, lyd).

Kort fortalt

En AI-model der forstår og kombinerer forskellige slags informationer som tekst, billeder og lyd.

Kategori
model
Niveau
øvet
Udtale
/ˌmʌltiˈmoʊdəl ˈmɒdəl/

Betydninger

1
  1. 1

    En model der samtidigt behandler og fusionerer information fra flere forskellige datatyper eller modaliteter (fx tekst, billede, lyd, video) for at udføre en opgave, typisk ved hjælp af neurale netværk.

    • En multimodal model kan generere en billedtekst ved at kombinere visuel og sproglig information.
    • CLIP er en multimodal model der lærer visuelle koncepter fra naturligt sprog.CLIP paper, 2021

Hvornår bruges det

Bruges i opgaver der kræver forståelse af tværmodal information, fx billedtekstgenerering eller videoforståelse. Modeller som CLIP og GPT-4V er eksempler.

Kodeeksempel

from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
# Example: compute similarity between image and text
import torch
from PIL import Image
# Load image and text
image = Image.open("image.jpg")
text = ["a photo of a cat"]
# Preprocess
inputs = processor(text=text, images=image, return_tensors="pt", padding=True)
# Forward
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
print(probs)

Eksempel på indlæsning af CLIP-modellen og beregning af lighed mellem billede og tekst.

Oprindelse

Fra latin 'multi-' (mange) og 'modalis' (måde/form), på dansk: model med flere modaliteter.

Afledte ord

2

Kilder

2
  • Learning Transferable Visual Models From Natural Language Supervision (CLIP)
  • GPT-4 Technical Report (multimodal capabilities)