resume training checkpoint

Et resume training checkpoint er en gemt tilstand af en models vægte, optimizerens tilstand og evt. batchgenerator, som gør det muligt at genoptage træningen fra et bestemt tidspunkt.

Kort fortalt

Det er en gemt kopi af en model midt i træningen, så du kan fortsætte præcis derfra, hvis træningen bliver afbrudt.

Kategori: teknik
Niveau: øvet

Betydninger

1
En checkpoint-fil, der indeholder tilstrækkelig information til at genskabe en models træningstilstand på et specifikt tidspunkt, inklusive modelvægte, optimizerparametre, aktuel learning rate og eventuelt dataloaderens position.
- Under træning af en stor sprogmodel gemmes et resume training checkpoint hver 1000. iteration.
- Efter en planlagt nedlukning blev træningen genoptaget fra det seneste resume training checkpoint, hvilket sparede flere dages compute.

Hvornår bruges det

Bruges typisk ved lange træningsforløb, hvor man gemmer checkpoints med jævne mellemrum. Hvis træningen stopper (f.eks. grundet strømafbrydelse eller timeout), kan man genindlæse det seneste checkpoint og fortsætte uden at miste fremskridt.

Kodeeksempel

# Save checkpoint
torch.save({
    'epoch': epoch,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': loss,
}, 'checkpoint.pth')

# Resume from checkpoint
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']

Eksempel på at gemme og genoptage træning fra et checkpoint i PyTorch.

Oprindelse

Termen stammer fra checkpointing i deep learning, inspireret af traditionel software checkpointing. 'Resume' henviser til at genoptage træningen.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →