BLEU
forkortelse for Bilingual Evaluation Understudy
Automatisk metrik der måler n-gram-præcision mellem genereret tekst og reference, justeret med brevity-straf.
Kort fortalt
BLEU sammenligner en maskinoversættelse med en eller flere referenceoversættelser ved at tælle, hvor mange ordsekvenser (n-gram) der matcher, og straffer hvis oversættelsen er for kort.
- Kategori
- metrik
- Niveau
- øvet
- Udtale
- /bluː/
Betydninger
5- 1
BLEU-1 måler unigram-præcision: Andelen af enkeltord i hypotesen der findes i referencen.
- En BLEU-1-score på 0,8 betyder at 80 % af ordene i den genererede sætning findes i referencen.
- 2
BLEU-2 måler bigram-præcision: Andelen af ordpar i hypotesen der findes i referencen.
- BLEU-2 fanger ordstilling bedre end BLEU-1.
- 3
BLEU-3 måler trigram-præcision: Andelen af treordssekvenser i hypotesen der findes i referencen.
- Høj BLEU-3 indikerer at længere fraser matcher referencen.
- 4
BLEU-4 måler 4-gram-præcision: Andelen af fireordssekvenser i hypotesen der findes i referencen.
- BLEU-4 er den strengeste variant, der bedst fanger flydende og korrekt sætningsstruktur.
- 5
Den samlede BLEU-score (ofte kaldet BLEU eller BLEU-4 i praksis) er det geometriske gennemsnit af BLEU-1 til BLEU-4 ganget med brevity-straffen.
- Modellen opnåede en BLEU-score på 32,5 på WMT'14 engelsk-tysk test.
Hvornår bruges det
BLEU bruges standardmæssigt i maskinoversættelse og tekstgenerering til hurtig automatisk evaluering. Rapportering af BLEU-1 til BLEU-4 giver indsigt i både ord- og sætningsnøjagtighed. Det anvendes i konkurrencer som WMT og i forskningsartikler som primær metrik.
Formel
BLEU-n = BP * exp( (1/n) * Σ_{i=1}^n log p_i ), where p_i is the i-gram precision, and BP = min(1, exp(1 - ref_len/hyp_len)) if hyp_len < ref_len, else 1.Oprindelse
BLEU er et akronym for Bilingual Evaluation Understudy og blev introduceret af Papineni, Roukos, Ward og Zhu ved IBM i 2002 som en hurtig måde at efterligne menneskelig evaluering af oversættelser.