Student-teacher framework
En træningsteknik, hvor en mindre 'elev'-model lærer af en større 'lærer'-models forudsigelser eller repræsentationer.
Kort fortalt
Kort fortalt: man bruger en stor, præcis model til at træne en mindre, hurtigere model, så den ligner lærerens ydeevne.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En træningsparadigme, hvor en større 'lærer'-model genererer bløde etiketter eller skjulte repræsentationer, som en mindre 'elev'-model efterligner.
- Student-teacher framework bruges ofte i knowledge distillation til at overføre viden fra BERT til en mindre DistilBERT.
- I student-teacher-framework optimeres elevmodellen ved at minimere en kombination af krydsentropi og KL-divergens i forhold til lærerens output.
Hvornår bruges det
Anvendes primært i knowledge distillation (vidensdestillation) for at komprimere store neurale netværk til mindre, mere effektive modeller, især i produktion. Også brugt i selvovervåget læring og læring med få eksempler.
Oprindelse
Udtrykket stammer fra metaforen om en lærer, der overfører viden til en elev, så eleven kan reproducere resultaterne.
Kilder
2- Distilling the Knowledge in a Neural Network (Hinton et al., 2015)
- DistilBERT, a distilled version of BERT (Sanh et al., 2019)