Data augmentation
Teknik til at øge mængden af træningsdata ved at anvende transformationer på eksisterende data.
Kort fortalt
En metode, hvor man laver små ændringer i dine data (som at rotere et billede eller omformulere en sætning) for at få flere variationer at træne på.
- Kategori
- teknik
- Niveau
- begynder
Betydninger
2- 1
Anvendelse af transformationer som rotation, skalering, beskæring eller farvejustering på billeddata for at skabe nye træningseksempler.
- Ved at anvende data augmentation med tilfældige rotationer og spejlinger blev modellens nøjagtighed forbedret med 5%.
- 2
Teknikker som synonymudskiftning, tilbagetranslation eller tilføjelse af støj i tekstdata for at generere flere træningseksempler.
- Tilbagetranslation af sætninger er en effektiv form for data augmentation i NLP-opgaver.
Hvornår bruges det
Data augmentation bruges især inden for computer vision og naturlig sprogbehandling for at forbedre modellers generalisering og reducere overfitting. Ved at udvide træningssættet med realistiske variationer bliver modellen mere robust over for nye data.
Kodeeksempel
from torchvision import transforms
transform = transforms.Compose([
transforms.RandomHorizontalFlip(),
transforms.RandomRotation(10),
transforms.ColorJitter(brightness=0.2),
transforms.ToTensor()
])Eksempel på data augmentation til billeder med PyTorch torchvision. Transformationerne omfatter tilfældig vandret spejling, rotation op til 10 grader og justering af lysstyrke.
Oprindelse
Fra latin 'augmentare' (at forøge) og engelsk 'data'.
Afledte ord
2Kilder
2- ImageNet Classification with Deep Convolutional Neural Networks (AlexNet, 2012)
- TensorFlow Data Augmentation Documentation