distillation temperature
Parametret i viden-destillering, der styrer blødheden af sandsynlighedsfordelinger fra lærermodellen.
Kort fortalt
En indstilling, der gør lærerens forudsigelser mere eller mindre 'bløde' for at hjælpe eleven med at lære.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /dɪstɪˈleɪʃən ˈtɛmpərətʃər/
Betydninger
1- 1
En skalarparameter T>0, der divideres med logitterne før softmax i viden-destillering, hvilket styrer blødheden af den resulterende sandsynlighedsfordeling.
- En destillationstemperatur på 4 giver væsentligt blødere fordelinger end temperatur 1. — Hinton et al., 2015
Hvornår bruges det
Bruges under destilleringstræning for at justere, hvor meget information fra læreren der bevares. En højere temperatur giver blødere sandsynligheder og afslører flere relationer mellem klasser.
Formel
softmax(z_i / T) where T is the distillation temperatureKodeeksempel
import torch
def softmax_with_temp(logits, temperature):
return torch.softmax(logits / temperature, dim=-1)
# Example usage
teacher_logits = torch.tensor([2.0, 1.0, 0.1])
T = 3.0
soft_probs = softmax_with_temp(teacher_logits, T)Funktion til at anvende temperatur på logitter før softmax.
Oprindelse
Fra fysikkens temperaturbegreb, hvor højere temperatur øger entropi; overført til sandsynlighedsfordelinger.
Kilder
1- Distilling the Knowledge in a Neural Network (Hinton et al., 2015)