multimodal learning

Multimodal læring er en maskinlæringsteknik, hvor en model trænes på data fra flere forskellige modaliteter (fx tekst, billeder, lyd) samtidigt for at lære tværmodale repræsentationer.

Kort fortalt

Multimodal læring handler om at træne AI-modeller, der kan forstå og kombinere information fra flere forskellige sanser som syn og hørelse.

Kategori
teknik
Niveau
øvet
Udtale
/ˌmʌltiˈmoʊdəl ˈlɜrnɪŋ/

Betydninger

1
  1. 1

    Træning af en maskinlæringsmodel på data fra flere modaliteter (fx tekst, billede, lyd) for at lære fælles repræsentationer, der muliggør tværmodal forståelse.

    • Modellen anvender multimodal læring til at forbinde tekst og billeder i en fælles indlejringsplads.Forskningsartikel, 2021
    • Multimodal læring forbedrer præcisionen i opgaver som videoklassifikation ved at integrere visuelle og auditive spor.

Hvornår bruges det

Multimodal læring bruges i praksis til opgaver som billedtekstgenerering (image captioning), videoanalyse, og visuel spørgsmål-svar. Det er centralt i systemer som GPT-4 med vision og CLIP.

Kodeeksempel

import torch
import torch.nn as nn

class MultimodalFusion(nn.Module):
    def __init__(self, text_dim=768, image_dim=512, fusion_dim=256):
        super().__init__()
        self.text_proj = nn.Linear(text_dim, fusion_dim)
        self.image_proj = nn.Linear(image_dim, fusion_dim)
        self.fusion = nn.Linear(fusion_dim * 2, fusion_dim)
    
    def forward(self, text_emb, image_emb):
        text_feat = self.text_proj(text_emb)
        image_feat = self.image_proj(image_emb)
        combined = torch.cat([text_feat, image_feat], dim=-1)
        return self.fusion(combined)

Et simpelt PyTorch-modul, der projicerer tekst- og billed-embeddings til et fælles rum og fusionerer dem.

Oprindelse

Udtrykket kommer af 'multi-' (mange) og 'modal' (vedrørende måde eller sans), kombineret med 'learning'. Begrebet opstod i maskinlæringsmiljøet i 2010'erne.

Afledte ord

3

Kilder

2