multimodal embedding
En vektorrepræsentation, der kortlægger data fra flere modaliteter (fx tekst og billeder) ind i et fælles latent rum, så lighed på tværs af modaliteter kan måles.
Kort fortalt
En måde at representere både tekst og billeder som vektorer i samme rum, så man kan finde billeder, der matcher en tekstbeskrivelse, eller omvendt.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /ˌmʌltiˈmoʊdəl ɛmˈbɛdɪŋ/
Betydninger
1- 1
En tæt vektorrepræsentation, der indkoder semantisk information fra flere datatyper (fx tekst, billede, lyd) i et fælles rum, hvor afstanden mellem vektorer afspejler semantisk lighed på tværs af modaliteter.
- CLIP bruger et multimodal embedding til at matche et billede af en kat med teksten 'en kat på en sofa'.
- Multimodale embeddings muliggør zero-shot-klassifikation ved at sammenligne et billede med tekstlige klassebeskrivelser.
Hvornår bruges det
Multimodale embeddings bruges i søgning på tværs af modaliteter, billedtekstgenerering, visuel spørgsmålsbesvarelse og i fundamentmodeller som CLIP og GPT-4V. De trænes typisk med kontrastiv læring på store datasæt af (billede, tekst)-par.
Kodeeksempel
import clip
model, preprocess = clip.load("ViT-B/32")
image = preprocess(PIL.Image.open("cat.jpg")).unsqueeze(0)
text = clip.tokenize(["a cat on a sofa", "a dog"])
with torch.no_grad():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
similarities = (image_features @ text_features.T).softmax(dim=-1)Eksempel med OpenAIs CLIP: Indlæs model, forbehandl billede og tekst, og beregn ligheder på tværs af modaliteter.
Oprindelse
Sammensat af 'multimodal' (flere modaliteter) og 'embedding' (indlejring i vektorrum). Begrebet blev især udbredt med CLIP-modellen fra OpenAI i 2021.