BLEU

forkortelse for Bilingual Evaluation Understudy

Automatisk metrik der måler n-gram-præcision mellem genereret tekst og reference, justeret med brevity-straf.

Kort fortalt

BLEU sammenligner en maskinoversættelse med en eller flere referenceoversættelser ved at tælle, hvor mange ordsekvenser (n-gram) der matcher, og straffer hvis oversættelsen er for kort.

Kategori: metrik
Niveau: øvet
Udtale: /bluː/

Betydninger

1
BLEU-1 måler unigram-præcision: Andelen af enkeltord i hypotesen der findes i referencen.
- En BLEU-1-score på 0,8 betyder at 80 % af ordene i den genererede sætning findes i referencen.
2
BLEU-2 måler bigram-præcision: Andelen af ordpar i hypotesen der findes i referencen.
- BLEU-2 fanger ordstilling bedre end BLEU-1.
3
BLEU-3 måler trigram-præcision: Andelen af treordssekvenser i hypotesen der findes i referencen.
- Høj BLEU-3 indikerer at længere fraser matcher referencen.
4
BLEU-4 måler 4-gram-præcision: Andelen af fireordssekvenser i hypotesen der findes i referencen.
- BLEU-4 er den strengeste variant, der bedst fanger flydende og korrekt sætningsstruktur.
5
Den samlede BLEU-score (ofte kaldet BLEU eller BLEU-4 i praksis) er det geometriske gennemsnit af BLEU-1 til BLEU-4 ganget med brevity-straffen.
- Modellen opnåede en BLEU-score på 32,5 på WMT'14 engelsk-tysk test.

Hvornår bruges det

BLEU bruges standardmæssigt i maskinoversættelse og tekstgenerering til hurtig automatisk evaluering. Rapportering af BLEU-1 til BLEU-4 giver indsigt i både ord- og sætningsnøjagtighed. Det anvendes i konkurrencer som WMT og i forskningsartikler som primær metrik.

Formel

BLEU-n = BP * exp( (1/n) * Σ_{i=1}^n log p_i ), where p_i is the i-gram precision, and BP = min(1, exp(1 - ref_len/hyp_len)) if hyp_len < ref_len, else 1.

Oprindelse

BLEU er et akronym for Bilingual Evaluation Understudy og blev introduceret af Papineni, Roukos, Ward og Zhu ved IBM i 2002 som en hurtig måde at efterligne menneskelig evaluering af oversættelser.

Afledte ord

BLEU score cumulative BLEU

Kilder

BLEU: a Method for Automatic Evaluation of Machine Translation (Papineni et al., ACL 2002)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i metrik →Tilfældigt opslag →