text augmentation

Teknik til at generere syntetiske træningseksempler i naturlig sprogbehandling ved at anvende transformationer som synonymudskiftning, backtranslation eller tilføjelse af støj.

Kort fortalt

En metode til at øge mængden og variationen af tekstdata til maskinlæring ved at ændre eksisterende tekster på meningsfulde måder.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Anvendelse af transformationer på eksisterende tekstdata for at skabe nye, syntetiske træningseksempler, der bevarer den oprindelige etiket.

    • Ved at bruge synonymudskiftning kan text augmentation forbedre modellens evne til at genkende variationer i sprogbrug.
    • Backtranslation er en populær text augmentation teknik til maskinoversættelse, hvor teksten oversættes til et andet sprog og tilbage.

Hvornår bruges det

Text augmentation bruges typisk i tekstklassifikation, sentimentanalyse og maskinoversættelse for at forbedre modelgeneraliserbarhed og robusthed over for variationer i input. Det er særligt nyttigt når træningsdata er begrænset eller ubalanceret.

Kodeeksempel

import nlpaug.augmenter.word as naw

aug = naw.SynonymAug(aug_src='wordnet')
text = "The quick brown fox jumps over the lazy dog."
augmented_text = aug.augment(text)
print(augmented_text)

Eksempel på text augmentation med synonymudskiftning ved hjælp af nlpaug-biblioteket.

Oprindelse

Sammensætning af 'text' (tekst) og 'augmentation' (forøgelse), hvor augmentation kommer fra latin augmentatio, 'forøgelse'.

Kilder

1