multimodal embedding

En vektorrepræsentation, der kortlægger data fra flere modaliteter (fx tekst og billeder) ind i et fælles latent rum, så lighed på tværs af modaliteter kan måles.

Kort fortalt

En måde at representere både tekst og billeder som vektorer i samme rum, så man kan finde billeder, der matcher en tekstbeskrivelse, eller omvendt.

Kategori
begreb
Niveau
øvet
Udtale
/ˌmʌltiˈmoʊdəl ɛmˈbɛdɪŋ/

Betydninger

1
  1. 1

    En tæt vektorrepræsentation, der indkoder semantisk information fra flere datatyper (fx tekst, billede, lyd) i et fælles rum, hvor afstanden mellem vektorer afspejler semantisk lighed på tværs af modaliteter.

    • CLIP bruger et multimodal embedding til at matche et billede af en kat med teksten 'en kat på en sofa'.
    • Multimodale embeddings muliggør zero-shot-klassifikation ved at sammenligne et billede med tekstlige klassebeskrivelser.

Hvornår bruges det

Multimodale embeddings bruges i søgning på tværs af modaliteter, billedtekstgenerering, visuel spørgsmålsbesvarelse og i fundamentmodeller som CLIP og GPT-4V. De trænes typisk med kontrastiv læring på store datasæt af (billede, tekst)-par.

Kodeeksempel

import clip
model, preprocess = clip.load("ViT-B/32")
image = preprocess(PIL.Image.open("cat.jpg")).unsqueeze(0)
text = clip.tokenize(["a cat on a sofa", "a dog"])
with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    similarities = (image_features @ text_features.T).softmax(dim=-1)

Eksempel med OpenAIs CLIP: Indlæs model, forbehandl billede og tekst, og beregn ligheder på tværs af modaliteter.

Oprindelse

Sammensat af 'multimodal' (flere modaliteter) og 'embedding' (indlejring i vektorrum). Begrebet blev især udbredt med CLIP-modellen fra OpenAI i 2021.

Afledte ord

2

Kilder

2