Student-teacher framework

En træningsteknik, hvor en mindre 'elev'-model lærer af en større 'lærer'-models forudsigelser eller repræsentationer.

Kort fortalt

Kort fortalt: man bruger en stor, præcis model til at træne en mindre, hurtigere model, så den ligner lærerens ydeevne.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En træningsparadigme, hvor en større 'lærer'-model genererer bløde etiketter eller skjulte repræsentationer, som en mindre 'elev'-model efterligner.

    • Student-teacher framework bruges ofte i knowledge distillation til at overføre viden fra BERT til en mindre DistilBERT.
    • I student-teacher-framework optimeres elevmodellen ved at minimere en kombination af krydsentropi og KL-divergens i forhold til lærerens output.

Hvornår bruges det

Anvendes primært i knowledge distillation (vidensdestillation) for at komprimere store neurale netværk til mindre, mere effektive modeller, især i produktion. Også brugt i selvovervåget læring og læring med få eksempler.

Oprindelse

Udtrykket stammer fra metaforen om en lærer, der overfører viden til en elev, så eleven kan reproducere resultaterne.

Kilder

2
  • Distilling the Knowledge in a Neural Network (Hinton et al., 2015)
  • DistilBERT, a distilled version of BERT (Sanh et al., 2019)