self-distillation loss
Et træningstab, hvor en model lærer fra sine egne forudsigelser (ofte en tidligere version eller en glidet gennemsnitsmodel) for at forbedre generalisering.
Kort fortalt
Self-distillation loss er, når en model bruger sine egne tidligere forudsigelser som mål i stedet for sande labels, hvilket kan forbedre modellens stabilitet og præcision.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Et tab, der måler uoverensstemmelsen mellem en models nuværende forudsigelser og en målfordeling genereret fra dens egne forudsigelser (f.eks. fra en tidligere epoke eller en glidende gennemsnitsmodel).
- I BYOL bruges self-distillation loss, hvor onlinenetværket trænes til at forudsige target-netværkets repræsentationer. — Grill et al., 2020, Bootstrap Your Own Latent
- Self-distillation loss forbedrer modellens robusthed ved at håndhæve konsistens på tværs af forskellige augmenteringer.
Hvornår bruges det
Self-distillation loss anvendes typisk i semi-supervised learning eller for at stabilisere træning i modeller som BYOL og DINO. Det er en form for konsistensregulering, hvor modellen trænes til at matche sine egne forudsigelser over forskellige augmenteringer eller tidsmæssige steps.
Oprindelse
Termen kombinerer 'self' (selv) og 'distillation' (destillation), inspireret af knowledge distillation, men hvor læreren er modellen selv.