multimodal learning
Multimodal læring er en maskinlæringsteknik, hvor en model trænes på data fra flere forskellige modaliteter (fx tekst, billeder, lyd) samtidigt for at lære tværmodale repræsentationer.
Kort fortalt
Multimodal læring handler om at træne AI-modeller, der kan forstå og kombinere information fra flere forskellige sanser som syn og hørelse.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˌmʌltiˈmoʊdəl ˈlɜrnɪŋ/
Betydninger
1- 1
Træning af en maskinlæringsmodel på data fra flere modaliteter (fx tekst, billede, lyd) for at lære fælles repræsentationer, der muliggør tværmodal forståelse.
- Modellen anvender multimodal læring til at forbinde tekst og billeder i en fælles indlejringsplads. — Forskningsartikel, 2021
- Multimodal læring forbedrer præcisionen i opgaver som videoklassifikation ved at integrere visuelle og auditive spor.
Hvornår bruges det
Multimodal læring bruges i praksis til opgaver som billedtekstgenerering (image captioning), videoanalyse, og visuel spørgsmål-svar. Det er centralt i systemer som GPT-4 med vision og CLIP.
Kodeeksempel
import torch
import torch.nn as nn
class MultimodalFusion(nn.Module):
def __init__(self, text_dim=768, image_dim=512, fusion_dim=256):
super().__init__()
self.text_proj = nn.Linear(text_dim, fusion_dim)
self.image_proj = nn.Linear(image_dim, fusion_dim)
self.fusion = nn.Linear(fusion_dim * 2, fusion_dim)
def forward(self, text_emb, image_emb):
text_feat = self.text_proj(text_emb)
image_feat = self.image_proj(image_emb)
combined = torch.cat([text_feat, image_feat], dim=-1)
return self.fusion(combined)Et simpelt PyTorch-modul, der projicerer tekst- og billed-embeddings til et fælles rum og fusionerer dem.
Oprindelse
Udtrykket kommer af 'multi-' (mange) og 'modal' (vedrørende måde eller sans), kombineret med 'learning'. Begrebet opstod i maskinlæringsmiljøet i 2010'erne.