BLEU-score
forkortelse for Bilingual Evaluation Understudy score
BLEU-score er en automatisk metrik til evaluering af maskinoversættelse, der måler n-gram-overlap mellem en kandidatoversættelse og en eller flere referenceoversættelser.
Kort fortalt
BLEU-scoren sammenligner maskinoversatte sætninger med referenceoversættelser ved at tælle, hvor mange ord- eller frasestykker der matcher.
- Kategori
- metrik
- Niveau
- øvet
Betydninger
1- 1
En automatisk metrik til evaluering af maskinoversættelse, der beregner geometrisk gennemsnit af n-gram-præcisioner multipliceret med en straf for for korte sætninger.
- System A opnåede en BLEU-score på 35,4 på WMT-testdatasættet. — Eksempel fra praksis, 2023
- BLEU-scoren korrelerer moderat med menneskelig bedømmelse, men er stadig den mest anvendte automatiske metrik. — Forskningslitteratur, 2022
Hvornår bruges det
BLEU-scoren bruges primært inden for maskinoversættelse og tekstgenerering som en hurtig, automatisk kvalitetsmåling. Den anvendes ofte til at benchmarke modeller og til at spore fremskridt over tid, f.eks. på WMT-datasæt.
Formel
BLEU = BP * exp(∑_{n=1}^{N} (1/N) * log p_n), hvor BP = min(1, exp(1 - r/c)) er brevity penalty, r er referencelængde, c er kandidatlængde, og p_n er præcisionen for n-grammer.Kodeeksempel
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
reference = [['the', 'cat', 'is', 'on', 'the', 'mat']]
candidate = ['the', 'cat', 'is', 'on', 'the', 'mat']
score = sentence_bleu(reference, candidate, smoothing_function=SmoothingFunction().method1)
print(score) # 1.0Beregning af BLEU-score for en sætning ved hjælp af NLTK-biblioteket.
Oprindelse
Termen BLEU kommer fra 'Bilingual Evaluation Understudy' og blev introduceret af Papineni et al. i 2002-papiret 'BLEU: a Method for Automatic Evaluation of Machine Translation'.
Afledte ord
2Kilder
1- BLEU: a Method for Automatic Evaluation of Machine Translation (2002)