ROUGE-W

forkortelse for Recall-Oriented Understudy for Gisting Evaluation – Weighted variant

ROUGE-W er en automatisk evalueringsmetrik til tekstopsummering, der beregner vægtet længste fælles undersekvens (W-LCS) mellem en modelgenereret reference og en referenceopsummering.

Kort fortalt

ROUGE-W måler, hvor godt en maskinskrevet opsummering stemmer overens med en menneskeskrevet reference ved at finde fælles ord i rækkefølge, men vægter længere sammenhængende sekvenser højere.

Kategori
metrik
Niveau
øvet

Betydninger

1
  1. 1

    En automatisk metrik til evaluering af tekstopsummering, der anvender vægtet længste fælles undersekvens (W-LCS) til at måle overlap mellem en genereret opsummering og én eller flere referenceopsummeringer, med særlig vægt på sammenhængende sekvenser.

    • I DUC 2004-konkurrencen blev ROUGE-W brugt til at evaluere deltagernes opsummeringssystemer, da den bedre fanger opsummeringens flydende længde end ROUGE-L.Lin (2004) – ROUGE: A Package for Automatic Evaluation of Summaries

Hvornår bruges det

ROUGE-W bruges typisk til at evaluere kvaliteten af automatiske opsummeringer, især når opsummeringens flydende længde er vigtig. Den er en forbedring af ROUGE-L, der også belønner længere sammenhængende undersekvenser. Metrikken er mest relevant i forskning og konkurrencer, fx DUC (Document Understanding Conference).

Formel

ROUGE-W = (1 + β²) · P_wlcs · R_wlcs / (R_wlcs + β² · P_wlcs), where P_wlcs = LCS_w(ref, sum) / len(ref), R_wlcs = LCS_w(ref, sum) / len(sum), and LCS_w is the weighted LCS that favors longer consecutive matches by assigning higher weights to longer spans.

Oprindelse

ROUGE-W blev introduceret af Chin-Yew Lin i 2004 som en udvidelse af ROUGE-L. 'W' står for 'Weighted', da den vægter længden af sammenhængende ordsekvenser.

Kilder

2
  • ROUGE: A Package for Automatic Evaluation of Summaries
  • Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out, ACL.