Data Distillation

Teknik til at overføre viden fra en stor model eller et stort datasæt til en mindre, mere effektiv model eller et komprimeret datasæt.

Kort fortalt

Data distillation handler om at lave en mini-version af en stor AI-model eller et stort datasæt, der næsten er lige så dygtig, men meget hurtigere.

Kategori
teknik
Niveau
øvet

Betydninger

2
  1. 1

    Overførsel af viden fra en stor, kompleks model (lærermodel) til en mindre model (elevmodel) ved at træne eleven til at efterligne lærerens output.

    • Data distillation bruges ofte til at komprimere en stor sprogmodel til en mindre version, der kan køre på en mobiltelefon.
    • Ved at træne elevmodellen på lærerens soft labels opnås en model med næsten samme præstation, men med færre parametre.
  2. 2

    Komprimering af et stort træningsdatasæt til et mindre, syntetisk datasæt, der bevarer den væsentligste information, så en model trænet på det komprimerede datasæt opnår lignende præstation.

    • Dataset distillation kan reducere et billede-datasæt på 50.000 billeder til blot 10 syntetiske billeder pr. klasse.
    • Ved at destillere datasættet kan træningstiden reduceres drastisk uden væsentligt tab af nøjagtighed.

Hvornår bruges det

Bruges typisk til at gøre modeller lettere at implementere på enheder med begrænsede ressourcer som smartphones eller edge-enheder. Anvendes også til at reducere mængden af data, der skal gemmes eller behandles.

Oprindelse

Termen 'distillation' er lånt fra kemi, hvor destillation adskiller væsker. I maskinlæring overføres 'essensen' af viden.

Afledte ord

2

Kilder

2
  • Distilling the Knowledge in a Neural Network (Hinton et al., 2015)
  • Dataset Distillation (Wang et al., 2018)