ROUGE-N

forkortelse for Recall-Oriented Understudy for Gisting Evaluation - N

ROUGE-N er en recall-baseret metrik, der måler overlap af n-grammer mellem en kandidattekst og en referencetekst, primært brugt til evaluering af automatisk tekstopsummering og maskinoversættelse.

Kort fortalt

ROUGE-N tæller hvor mange n-grammer (ordsekvenser) i din tekst der også findes i en korrekt reference, og giver en score mellem 0 og 1.

Kategori
metrik
Niveau
øvet
Udtale
/ɹuːʒ ɛn/

Betydninger

1
  1. 1

    En metrik til automatisk evaluering af tekstopsummering og maskinoversættelse, der beregner recall af n-grammer mellem en kandidattekst og en referencetekst.

    • Systemet opnåede en ROUGE-1-score på 0,45 på testdatasættet.
    • For at vurdere sætningsflyden bruges ofte ROUGE-2 frem for ROUGE-1.

Hvornår bruges det

ROUGE-N bruges ofte i forskning og udvikling inden for tekstopsummering og maskinoversættelse for at sammenligne genererede tekster med menneskeskrevne referencer. Forskellige varianter som ROUGE-1 (enkelte ord) og ROUGE-2 (to ord) giver indsigt i henholdsvis ordvalg og sætningsflyd.

Formel

ROUGE-N = (Σ_{gram∈Reference} count_match(gram)) / (Σ_{gram∈Reference} count(gram))

Kodeeksempel

from collections import Counter

def rouge_n(candidate, reference, n):
    cand_ngrams = Counter(zip(*[candidate[i:] for i in range(n)]))
    ref_ngrams = Counter(zip(*[reference[i:] for i in range(n)]))
    overlap = sum((cand_ngrams & ref_ngrams).values())
    total = sum(ref_ngrams.values())
    return overlap / total if total > 0 else 0

Eksempel på ROUGE-N-implementering i Python, der beregner recall for n-grammer.

Oprindelse

ROUGE står for 'Recall-Oriented Understudy for Gisting Evaluation'. N angiver størrelsen af n-grammerne, f.eks. ROUGE-1 for unigrammer og ROUGE-2 for bigrammer.

Afledte ord

4

Kilder

1
  • ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)