self-distillation loss

Et træningstab, hvor en model lærer fra sine egne forudsigelser (ofte en tidligere version eller en glidet gennemsnitsmodel) for at forbedre generalisering.

Kort fortalt

Self-distillation loss er, når en model bruger sine egne tidligere forudsigelser som mål i stedet for sande labels, hvilket kan forbedre modellens stabilitet og præcision.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Et tab, der måler uoverensstemmelsen mellem en models nuværende forudsigelser og en målfordeling genereret fra dens egne forudsigelser (f.eks. fra en tidligere epoke eller en glidende gennemsnitsmodel).

    • I BYOL bruges self-distillation loss, hvor onlinenetværket trænes til at forudsige target-netværkets repræsentationer.Grill et al., 2020, Bootstrap Your Own Latent
    • Self-distillation loss forbedrer modellens robusthed ved at håndhæve konsistens på tværs af forskellige augmenteringer.

Hvornår bruges det

Self-distillation loss anvendes typisk i semi-supervised learning eller for at stabilisere træning i modeller som BYOL og DINO. Det er en form for konsistensregulering, hvor modellen trænes til at matche sine egne forudsigelser over forskellige augmenteringer eller tidsmæssige steps.

Oprindelse

Termen kombinerer 'self' (selv) og 'distillation' (destillation), inspireret af knowledge distillation, men hvor læreren er modellen selv.

Kilder

2