text augmentation
Teknik til at generere syntetiske træningseksempler i naturlig sprogbehandling ved at anvende transformationer som synonymudskiftning, backtranslation eller tilføjelse af støj.
Kort fortalt
En metode til at øge mængden og variationen af tekstdata til maskinlæring ved at ændre eksisterende tekster på meningsfulde måder.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Anvendelse af transformationer på eksisterende tekstdata for at skabe nye, syntetiske træningseksempler, der bevarer den oprindelige etiket.
- Ved at bruge synonymudskiftning kan text augmentation forbedre modellens evne til at genkende variationer i sprogbrug.
- Backtranslation er en populær text augmentation teknik til maskinoversættelse, hvor teksten oversættes til et andet sprog og tilbage.
Hvornår bruges det
Text augmentation bruges typisk i tekstklassifikation, sentimentanalyse og maskinoversættelse for at forbedre modelgeneraliserbarhed og robusthed over for variationer i input. Det er særligt nyttigt når træningsdata er begrænset eller ubalanceret.
Kodeeksempel
import nlpaug.augmenter.word as naw
aug = naw.SynonymAug(aug_src='wordnet')
text = "The quick brown fox jumps over the lazy dog."
augmented_text = aug.augment(text)
print(augmented_text)Eksempel på text augmentation med synonymudskiftning ved hjælp af nlpaug-biblioteket.
Oprindelse
Sammensætning af 'text' (tekst) og 'augmentation' (forøgelse), hvor augmentation kommer fra latin augmentatio, 'forøgelse'.