benchmark-suite

En samling af standardiserede tests (benchmarks) designet til at evaluere og sammenligne ydeevnen af AI-modeller på tværs af forskellige opgaver.

Kort fortalt

En benchmark-suite er et sæt af tests, der bruges til at måle, hvor godt en AI-model klarer sig på bestemte opgaver.

Kategori
begreb
Niveau
begynder
Udtale
/ˈbɛntʃmɑːrk swiːt/

Betydninger

1
  1. 1

    En samling af flere individuelle benchmarks, der tilsammen dækker en bred vifte af opgaver eller aspekter inden for kunstig intelligens, såsom naturlig sprogforståelse, ræsonnement, eller billedgenkendelse.

    • GLUE er en benchmark-suite designet til at evaluere modellers evne til at forstå naturligt sprog på tværs af ni forskellige opgaver.GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, 2018
    • MMLU (Massive Multitask Language Understanding) er en benchmark-suite, der tester modeller på 57 fagområder, lige fra jura til medicin.Measuring Massive Multitask Language Understanding, 2020

Hvornår bruges det

Benchmark-suiter som GLUE, SuperGLUE eller MMLU bruges ofte i forskning for at rapportere modelpræstation. De giver et standardiseret sammenligningsgrundlag, så modeller kan vurderes objektivt.

Oprindelse

Sammensat af 'benchmark' (referencepunkt/test) og 'suite' (sæt/samling).

Kilder

3