Loss function
En funktion der kvantificerer forskellen mellem en models forudsigelser og de sande værdier under træning.
Kort fortalt
En loss-funktion måler, hvor forkert en models forudsigelser er, så modellen kan lære at forbedre sig.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- /lɒs ˈfʌŋkʃən/
Betydninger
2- 1
En matematisk funktion, der tager modellens forudsigelser og de sande værdier som input og returnerer et enkelt skalart tal, der repræsenterer fejlen eller uoverensstemmelsen.
- Valget af loss-funktion har stor indflydelse på, hvordan en model lærer under træning.
- En almindelig loss-funktion til regression er gennemsnitlig kvadratafvigelse (MSE).
- 2
I en træningsproces minimeres loss-funktionen iterativt ved hjælp af gradientbaseret optimering for at opnå bedre modelparametre.
- Under backpropagation beregnes gradienten af loss-funktionen med hensyn til hver vægt i netværket.
Hvornår bruges det
Loss-funktioner bruges i træning af maskinlæringsmodeller til at styre optimeringsalgoritmer som gradient descent. Valget af loss-funktion afhænger af problemtypen: f.eks. gennemsnitlig kvadratafvigelse (MSE) til regression og krydsentropi til klassifikation.
Formel
Krydsentropi for klassifikation: CE = - ∑ y_i log(ŷ_i), hvor y_i er den sande etiket (one-hot) og ŷ_i er den forudsagte sandsynlighed.Kodeeksempel
import torch
import torch.nn.functional as F
# Eksempel: krydsentropi for klassifikation
logits = torch.tensor([[2.0, 0.5, 0.1]]) # model output (før softmax)
labels = torch.tensor([0]) # sand klasse
loss = F.cross_entropy(logits, labels) # beregner loss
print(loss.item()) # output: tensorværdiBeregning af krydsentropi-loss i PyTorch med logits og sande etiketter.
Oprindelse
Udtrykket 'loss' kommer fra statistisk beslutningsteori, hvor det repræsenterer omkostningen ved en forkert forudsigelse. I maskinlæring blev det standardiseret gennem værker som 'Pattern Recognition and Machine Learning' (Bishop) og 'Deep Learning' (Goodfellow).
Afledte ord
2Kilder
2- Deep Learning (Goodfellow et al., 2016)
- Pattern Recognition and Machine Learning (Bishop, 2006)