BLEU-4

forkortelse for Bilingual Evaluation Understudy (BLEU) with 4-gram precision

BLEU-4 er en automatisk evalueringsmetrik til maskinoversættelse, der måler n-gram-overlap mellem en kandidat-tekst og en eller flere referencetekster, vægter ligeligt, og anvender en straf for korte oversættelser.

Kort fortalt

BLEU-4 sammenligner ordsekvenser (op til 4 ord) i en oversættelse med menneskeskrevne oversættelser og giver en score for kvaliteten.

Kategori
metrik
Niveau
øvet
Udtale
/bluː fɔːr/

Betydninger

1
  1. 1

    En automatisk evalueringsmetrik for maskinoversættelse, der beregner geometrisk gennemsnit af n-gram-præcision (n=1..4) med en brevity penalty for at straffe for korte oversættelser.

    • BLEU-4-scoren for modellen var 0,42, hvilket indikerer en forbedring i forhold til baseline.Eksempel fra forskningsartikel, 2023
    • Vi rapporterer BLEU-4 på WMT test-sættet som den primære metrik.Eksempel fra forskningsartikel, 2022

Hvornår bruges det

BLEU-4 bruges ofte til at benchmarke maskinoversættelsessystemer og i udvikling af tekstgenereringsmodeller. Det måles på korpusniveau, hvor n-gram-præcision beregnes for hver n fra 1 til 4 og kombineres med en brevity penalty for at straffe for korte oversættelser.

Formel

BLEU-4 = BP * exp( (1/4) * (log p_1 + log p_2 + log p_3 + log p_4 ) ), where p_n = modified n-gram precision for n-grams, and BP = min(1, exp(1 - r/c)) where r is reference length and c is candidate length.

Kodeeksempel

from nltk.translate.bleu_score import corpus_bleu
references = [[['the', 'cat', 'is', 'on', 'the', 'mat']]]
candidates = [['the', 'cat', 'is', 'on', 'the', 'mat']]
score = corpus_bleu(references, candidates, weights=(0.25, 0.25, 0.25, 0.25))
print(score)

Beregning af BLEU-4 ved hjælp af NLTK's corpus_bleu med lige vægte for 1- til 4-gram.

Oprindelse

BLEU er en forkortelse for 'Bilingual Evaluation Understudy' og er et ordspil på 'blue' (blå). Den blev introduceret af Kishore Papineni m.fl. i 2002. BLEU-4 specificerer brugen af 4-gram (unigram, bigram, trigram og 4-gram).

Kilder

1