Student-teacher framework

En træningsteknik, hvor en mindre 'elev'-model lærer af en større 'lærer'-models forudsigelser eller repræsentationer.

Kort fortalt

Kort fortalt: man bruger en stor, præcis model til at træne en mindre, hurtigere model, så den ligner lærerens ydeevne.

Kategori: teknik
Niveau: øvet

Betydninger

1
En træningsparadigme, hvor en større 'lærer'-model genererer bløde etiketter eller skjulte repræsentationer, som en mindre 'elev'-model efterligner.
- Student-teacher framework bruges ofte i knowledge distillation til at overføre viden fra BERT til en mindre DistilBERT.
- I student-teacher-framework optimeres elevmodellen ved at minimere en kombination af krydsentropi og KL-divergens i forhold til lærerens output.

Hvornår bruges det

Anvendes primært i knowledge distillation (vidensdestillation) for at komprimere store neurale netværk til mindre, mere effektive modeller, især i produktion. Også brugt i selvovervåget læring og læring med få eksempler.

Oprindelse

Udtrykket stammer fra metaforen om en lærer, der overfører viden til en elev, så eleven kan reproducere resultaterne.

Kilder

Distilling the Knowledge in a Neural Network (Hinton et al., 2015)
DistilBERT, a distilled version of BERT (Sanh et al., 2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →