resume training

Genoptagelse af modeltræning fra et gemt checkpoint i stedet for at starte forfra.

Kort fortalt

Hvis træningen afbrydes, kan du genoptage den præcis der, hvor du slap, i stedet for at starte forfra.

Kategori: træning
Niveau: øvet
Udtale: /rɪˈzuːm ˈtreɪnɪŋ/

Betydninger

1
Processen med at fortsætte træning af en neural netværksmodel fra et tidligere gemt checkpoint, inklusive modelvægte, optimizer-tilstand og evt. epoch-nummer.
- Træningen gik ned efter 20 epochs, men vi kunne genoptage træningen fra det sidste checkpoint og fortsætte til 50 epochs.
- For at implementere resume training skal du gemme modellens state_dict og optimazerens state_dict ved hvert checkpoint.

Hvornår bruges det

Resume training bruges typisk ved lange træningsforløb for at undgå at miste fremskridt ved afbrydelser eller for at fortsætte træning med ændrede hyperparametre eller mere data.

Kodeeksempel

import torch

# Gem checkpoint
torch.save({
    'epoch': epoch,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': loss,
}, 'checkpoint.pth.tar')

# Genoptag træning
checkpoint = torch.load('checkpoint.pth.tar')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
start_epoch = checkpoint['epoch'] + 1

Eksempel på at gemme og genindlæse et checkpoint i PyTorch for at genoptage træning.

Oprindelse

Udtrykket stammer fra deep learning-praksis, hvor modeller trænes over lange perioder og jævnligt gemmer checkpoints for at muliggøre genoptagelse.

Afledte ord

resume training checkpoint

Kilder

Deep Learning (Goodfellow, Bengio, Courville)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i træning →Tilfældigt opslag →