Loss function

En funktion der kvantificerer forskellen mellem en models forudsigelser og de sande værdier under træning.

Kort fortalt

En loss-funktion måler, hvor forkert en models forudsigelser er, så modellen kan lære at forbedre sig.

Kategori
begreb
Niveau
øvet
Udtale
/lɒs ˈfʌŋkʃən/

Betydninger

2
  1. 1

    En matematisk funktion, der tager modellens forudsigelser og de sande værdier som input og returnerer et enkelt skalart tal, der repræsenterer fejlen eller uoverensstemmelsen.

    • Valget af loss-funktion har stor indflydelse på, hvordan en model lærer under træning.
    • En almindelig loss-funktion til regression er gennemsnitlig kvadratafvigelse (MSE).
  2. 2

    I en træningsproces minimeres loss-funktionen iterativt ved hjælp af gradientbaseret optimering for at opnå bedre modelparametre.

    • Under backpropagation beregnes gradienten af loss-funktionen med hensyn til hver vægt i netværket.

Hvornår bruges det

Loss-funktioner bruges i træning af maskinlæringsmodeller til at styre optimeringsalgoritmer som gradient descent. Valget af loss-funktion afhænger af problemtypen: f.eks. gennemsnitlig kvadratafvigelse (MSE) til regression og krydsentropi til klassifikation.

Formel

Krydsentropi for klassifikation: CE = - ∑ y_i log(ŷ_i), hvor y_i er den sande etiket (one-hot) og ŷ_i er den forudsagte sandsynlighed.

Kodeeksempel

import torch
import torch.nn.functional as F

# Eksempel: krydsentropi for klassifikation
logits = torch.tensor([[2.0, 0.5, 0.1]])  # model output (før softmax)
labels = torch.tensor([0])              # sand klasse
loss = F.cross_entropy(logits, labels)  # beregner loss
print(loss.item())                      # output: tensorværdi

Beregning af krydsentropi-loss i PyTorch med logits og sande etiketter.

Oprindelse

Udtrykket 'loss' kommer fra statistisk beslutningsteori, hvor det repræsenterer omkostningen ved en forkert forudsigelse. I maskinlæring blev det standardiseret gennem værker som 'Pattern Recognition and Machine Learning' (Bishop) og 'Deep Learning' (Goodfellow).

Afledte ord

2

Kilder

2
  • Deep Learning (Goodfellow et al., 2016)
  • Pattern Recognition and Machine Learning (Bishop, 2006)