resume training checkpoint
Et resume training checkpoint er en gemt tilstand af en models vægte, optimizerens tilstand og evt. batchgenerator, som gør det muligt at genoptage træningen fra et bestemt tidspunkt.
Kort fortalt
Det er en gemt kopi af en model midt i træningen, så du kan fortsætte præcis derfra, hvis træningen bliver afbrudt.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En checkpoint-fil, der indeholder tilstrækkelig information til at genskabe en models træningstilstand på et specifikt tidspunkt, inklusive modelvægte, optimizerparametre, aktuel learning rate og eventuelt dataloaderens position.
- Under træning af en stor sprogmodel gemmes et resume training checkpoint hver 1000. iteration.
- Efter en planlagt nedlukning blev træningen genoptaget fra det seneste resume training checkpoint, hvilket sparede flere dages compute.
Hvornår bruges det
Bruges typisk ved lange træningsforløb, hvor man gemmer checkpoints med jævne mellemrum. Hvis træningen stopper (f.eks. grundet strømafbrydelse eller timeout), kan man genindlæse det seneste checkpoint og fortsætte uden at miste fremskridt.
Kodeeksempel
# Save checkpoint
torch.save({
'epoch': epoch,
'model_state_dict': model.state_dict(),
'optimizer_state_dict': optimizer.state_dict(),
'loss': loss,
}, 'checkpoint.pth')
# Resume from checkpoint
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']Eksempel på at gemme og genoptage træning fra et checkpoint i PyTorch.
Oprindelse
Termen stammer fra checkpointing i deep learning, inspireret af traditionel software checkpointing. 'Resume' henviser til at genoptage træningen.