Data augmentation

Teknik til at øge mængden af træningsdata ved at anvende transformationer på eksisterende data.

Kort fortalt

En metode, hvor man laver små ændringer i dine data (som at rotere et billede eller omformulere en sætning) for at få flere variationer at træne på.

Kategori: teknik
Niveau: begynder

Betydninger

1
Anvendelse af transformationer som rotation, skalering, beskæring eller farvejustering på billeddata for at skabe nye træningseksempler.
- Ved at anvende data augmentation med tilfældige rotationer og spejlinger blev modellens nøjagtighed forbedret med 5%.
2
Teknikker som synonymudskiftning, tilbagetranslation eller tilføjelse af støj i tekstdata for at generere flere træningseksempler.
- Tilbagetranslation af sætninger er en effektiv form for data augmentation i NLP-opgaver.

Hvornår bruges det

Data augmentation bruges især inden for computer vision og naturlig sprogbehandling for at forbedre modellers generalisering og reducere overfitting. Ved at udvide træningssættet med realistiske variationer bliver modellen mere robust over for nye data.

Kodeeksempel

from torchvision import transforms

transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.ColorJitter(brightness=0.2),
    transforms.ToTensor()
])

Eksempel på data augmentation til billeder med PyTorch torchvision. Transformationerne omfatter tilfældig vandret spejling, rotation op til 10 grader og justering af lysstyrke.

Oprindelse

Fra latin 'augmentare' (at forøge) og engelsk 'data'.

Afledte ord

image augmentation text augmentation

Kilder

ImageNet Classification with Deep Convolutional Neural Networks (AlexNet, 2012)
TensorFlow Data Augmentation Documentation

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →