teacher model

En stor, prætrænet model der bruges som vejleder i videnoverførsel (knowledge distillation) til at træne en mindre 'elevmodel'.

Kort fortalt

En stor model der lærer en mindre model at gøre det samme, typisk ved at overføre sin viden gennem bløde sandsynligheder.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    En velfungerende, ofte stor model der bruges som læremester i knowledge distillation. Teacher-modellen producerer bløde sandsynligheder (soft targets) eller mellemliggende repræsentationer, som elevmodellen forsøger at efterligne.

    • I knowledge distillation bruges en prætrænet BERT Large som teacher model til at træne en mindre BERT Base.

Hvornår bruges det

Bruges i knowledge distillation for at komprimere store modeller til mindre, hurtigere modeller uden stort præcisionstab. Teacher-modellen køres først, og dens output (logits eller features) bruges som ekstra træningssignal for elevmodellen.

Oprindelse

Udtrykket er overført fra pædagogik, hvor en lærer (teacher) vejleder en elev (student). I maskinlæring blev det populært med Hinton et al.s arbejde om knowledge distillation (2015).

Afledte ord

2

Kilder

1
  • Distilling the Knowledge in a Neural Network (Hinton et al., 2015)