resume training

Genoptagelse af modeltræning fra et gemt checkpoint i stedet for at starte forfra.

Kort fortalt

Hvis træningen afbrydes, kan du genoptage den præcis der, hvor du slap, i stedet for at starte forfra.

Kategori
træning
Niveau
øvet
Udtale
/rɪˈzuːm ˈtreɪnɪŋ/

Betydninger

1
  1. 1

    Processen med at fortsætte træning af en neural netværksmodel fra et tidligere gemt checkpoint, inklusive modelvægte, optimizer-tilstand og evt. epoch-nummer.

    • Træningen gik ned efter 20 epochs, men vi kunne genoptage træningen fra det sidste checkpoint og fortsætte til 50 epochs.
    • For at implementere resume training skal du gemme modellens state_dict og optimazerens state_dict ved hvert checkpoint.

Hvornår bruges det

Resume training bruges typisk ved lange træningsforløb for at undgå at miste fremskridt ved afbrydelser eller for at fortsætte træning med ændrede hyperparametre eller mere data.

Kodeeksempel

import torch

# Gem checkpoint
torch.save({
    'epoch': epoch,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': loss,
}, 'checkpoint.pth.tar')

# Genoptag træning
checkpoint = torch.load('checkpoint.pth.tar')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
start_epoch = checkpoint['epoch'] + 1

Eksempel på at gemme og genindlæse et checkpoint i PyTorch for at genoptage træning.

Oprindelse

Udtrykket stammer fra deep learning-praksis, hvor modeller trænes over lange perioder og jævnligt gemmer checkpoints for at muliggøre genoptagelse.

Afledte ord

1

Kilder

1
  • Deep Learning (Goodfellow, Bengio, Courville)