BLEU

forkortelse for Bilingual Evaluation Understudy

Automatisk metrik der måler n-gram-præcision mellem genereret tekst og reference, justeret med brevity-straf.

Kort fortalt

BLEU sammenligner en maskinoversættelse med en eller flere referenceoversættelser ved at tælle, hvor mange ordsekvenser (n-gram) der matcher, og straffer hvis oversættelsen er for kort.

Kategori
metrik
Niveau
øvet
Udtale
/bluː/

Betydninger

5
  1. 1

    BLEU-1 måler unigram-præcision: Andelen af enkeltord i hypotesen der findes i referencen.

    • En BLEU-1-score på 0,8 betyder at 80 % af ordene i den genererede sætning findes i referencen.
  2. 2

    BLEU-2 måler bigram-præcision: Andelen af ordpar i hypotesen der findes i referencen.

    • BLEU-2 fanger ordstilling bedre end BLEU-1.
  3. 3

    BLEU-3 måler trigram-præcision: Andelen af treordssekvenser i hypotesen der findes i referencen.

    • Høj BLEU-3 indikerer at længere fraser matcher referencen.
  4. 4

    BLEU-4 måler 4-gram-præcision: Andelen af fireordssekvenser i hypotesen der findes i referencen.

    • BLEU-4 er den strengeste variant, der bedst fanger flydende og korrekt sætningsstruktur.
  5. 5

    Den samlede BLEU-score (ofte kaldet BLEU eller BLEU-4 i praksis) er det geometriske gennemsnit af BLEU-1 til BLEU-4 ganget med brevity-straffen.

    • Modellen opnåede en BLEU-score på 32,5 på WMT'14 engelsk-tysk test.

Hvornår bruges det

BLEU bruges standardmæssigt i maskinoversættelse og tekstgenerering til hurtig automatisk evaluering. Rapportering af BLEU-1 til BLEU-4 giver indsigt i både ord- og sætningsnøjagtighed. Det anvendes i konkurrencer som WMT og i forskningsartikler som primær metrik.

Formel

BLEU-n = BP * exp( (1/n) * Σ_{i=1}^n log p_i ), where p_i is the i-gram precision, and BP = min(1, exp(1 - ref_len/hyp_len)) if hyp_len < ref_len, else 1.

Oprindelse

BLEU er et akronym for Bilingual Evaluation Understudy og blev introduceret af Papineni, Roukos, Ward og Zhu ved IBM i 2002 som en hurtig måde at efterligne menneskelig evaluering af oversættelser.

Afledte ord

2

Kilder

1