BLEU-score

forkortelse for Bilingual Evaluation Understudy score

BLEU-score er en automatisk metrik til evaluering af maskinoversættelse, der måler n-gram-overlap mellem en kandidatoversættelse og en eller flere referenceoversættelser.

Kort fortalt

BLEU-scoren sammenligner maskinoversatte sætninger med referenceoversættelser ved at tælle, hvor mange ord- eller frasestykker der matcher.

Kategori
metrik
Niveau
øvet

Betydninger

1
  1. 1

    En automatisk metrik til evaluering af maskinoversættelse, der beregner geometrisk gennemsnit af n-gram-præcisioner multipliceret med en straf for for korte sætninger.

    • System A opnåede en BLEU-score på 35,4 på WMT-testdatasættet.Eksempel fra praksis, 2023
    • BLEU-scoren korrelerer moderat med menneskelig bedømmelse, men er stadig den mest anvendte automatiske metrik.Forskningslitteratur, 2022

Hvornår bruges det

BLEU-scoren bruges primært inden for maskinoversættelse og tekstgenerering som en hurtig, automatisk kvalitetsmåling. Den anvendes ofte til at benchmarke modeller og til at spore fremskridt over tid, f.eks. på WMT-datasæt.

Formel

BLEU = BP * exp(∑_{n=1}^{N} (1/N) * log p_n), hvor BP = min(1, exp(1 - r/c)) er brevity penalty, r er referencelængde, c er kandidatlængde, og p_n er præcisionen for n-grammer.

Kodeeksempel

from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

reference = [['the', 'cat', 'is', 'on', 'the', 'mat']]
candidate = ['the', 'cat', 'is', 'on', 'the', 'mat']
score = sentence_bleu(reference, candidate, smoothing_function=SmoothingFunction().method1)
print(score)  # 1.0

Beregning af BLEU-score for en sætning ved hjælp af NLTK-biblioteket.

Oprindelse

Termen BLEU kommer fra 'Bilingual Evaluation Understudy' og blev introduceret af Papineni et al. i 2002-papiret 'BLEU: a Method for Automatic Evaluation of Machine Translation'.

Afledte ord

2

Kilder

1
  • BLEU: a Method for Automatic Evaluation of Machine Translation (2002)