BLEU-4

forkortelse for Bilingual Evaluation Understudy (BLEU) with 4-gram precision

BLEU-4 er en automatisk evalueringsmetrik til maskinoversættelse, der måler n-gram-overlap mellem en kandidat-tekst og en eller flere referencetekster, vægter ligeligt, og anvender en straf for korte oversættelser.

Kort fortalt

BLEU-4 sammenligner ordsekvenser (op til 4 ord) i en oversættelse med menneskeskrevne oversættelser og giver en score for kvaliteten.

Kategori: metrik
Niveau: øvet
Udtale: /bluː fɔːr/

Betydninger

1
En automatisk evalueringsmetrik for maskinoversættelse, der beregner geometrisk gennemsnit af n-gram-præcision (n=1..4) med en brevity penalty for at straffe for korte oversættelser.
- BLEU-4-scoren for modellen var 0,42, hvilket indikerer en forbedring i forhold til baseline. — Eksempel fra forskningsartikel, 2023
- Vi rapporterer BLEU-4 på WMT test-sættet som den primære metrik. — Eksempel fra forskningsartikel, 2022

Hvornår bruges det

BLEU-4 bruges ofte til at benchmarke maskinoversættelsessystemer og i udvikling af tekstgenereringsmodeller. Det måles på korpusniveau, hvor n-gram-præcision beregnes for hver n fra 1 til 4 og kombineres med en brevity penalty for at straffe for korte oversættelser.

Formel

BLEU-4 = BP * exp( (1/4) * (log p_1 + log p_2 + log p_3 + log p_4 ) ), where p_n = modified n-gram precision for n-grams, and BP = min(1, exp(1 - r/c)) where r is reference length and c is candidate length.

Kodeeksempel

from nltk.translate.bleu_score import corpus_bleu
references = [[['the', 'cat', 'is', 'on', 'the', 'mat']]]
candidates = [['the', 'cat', 'is', 'on', 'the', 'mat']]
score = corpus_bleu(references, candidates, weights=(0.25, 0.25, 0.25, 0.25))
print(score)

Beregning af BLEU-4 ved hjælp af NLTK's corpus_bleu med lige vægte for 1- til 4-gram.

Oprindelse

BLEU er en forkortelse for 'Bilingual Evaluation Understudy' og er et ordspil på 'blue' (blå). Den blev introduceret af Kishore Papineni m.fl. i 2002. BLEU-4 specificerer brugen af 4-gram (unigram, bigram, trigram og 4-gram).

Kilder

BLEU: a Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i metrik →Tilfældigt opslag →