teacher model
En stor, prætrænet model der bruges som vejleder i videnoverførsel (knowledge distillation) til at træne en mindre 'elevmodel'.
Kort fortalt
En stor model der lærer en mindre model at gøre det samme, typisk ved at overføre sin viden gennem bløde sandsynligheder.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
En velfungerende, ofte stor model der bruges som læremester i knowledge distillation. Teacher-modellen producerer bløde sandsynligheder (soft targets) eller mellemliggende repræsentationer, som elevmodellen forsøger at efterligne.
- I knowledge distillation bruges en prætrænet BERT Large som teacher model til at træne en mindre BERT Base.
Hvornår bruges det
Bruges i knowledge distillation for at komprimere store modeller til mindre, hurtigere modeller uden stort præcisionstab. Teacher-modellen køres først, og dens output (logits eller features) bruges som ekstra træningssignal for elevmodellen.
Oprindelse
Udtrykket er overført fra pædagogik, hvor en lærer (teacher) vejleder en elev (student). I maskinlæring blev det populært med Hinton et al.s arbejde om knowledge distillation (2015).
Afledte ord
2Kilder
1- Distilling the Knowledge in a Neural Network (Hinton et al., 2015)