distillation temperature

Parametret i viden-destillering, der styrer blødheden af sandsynlighedsfordelinger fra lærermodellen.

Kort fortalt

En indstilling, der gør lærerens forudsigelser mere eller mindre 'bløde' for at hjælpe eleven med at lære.

Kategori
begreb
Niveau
øvet
Udtale
/dɪstɪˈleɪʃən ˈtɛmpərətʃər/

Betydninger

1
  1. 1

    En skalarparameter T>0, der divideres med logitterne før softmax i viden-destillering, hvilket styrer blødheden af den resulterende sandsynlighedsfordeling.

    • En destillationstemperatur på 4 giver væsentligt blødere fordelinger end temperatur 1.Hinton et al., 2015

Hvornår bruges det

Bruges under destilleringstræning for at justere, hvor meget information fra læreren der bevares. En højere temperatur giver blødere sandsynligheder og afslører flere relationer mellem klasser.

Formel

softmax(z_i / T) where T is the distillation temperature

Kodeeksempel

import torch

def softmax_with_temp(logits, temperature):
    return torch.softmax(logits / temperature, dim=-1)

# Example usage
teacher_logits = torch.tensor([2.0, 1.0, 0.1])
T = 3.0
soft_probs = softmax_with_temp(teacher_logits, T)

Funktion til at anvende temperatur på logitter før softmax.

Oprindelse

Fra fysikkens temperaturbegreb, hvor højere temperatur øger entropi; overført til sandsynlighedsfordelinger.

Kilder

1
  • Distilling the Knowledge in a Neural Network (Hinton et al., 2015)