benchmark-suite

En samling af standardiserede tests (benchmarks) designet til at evaluere og sammenligne ydeevnen af AI-modeller på tværs af forskellige opgaver.

Kort fortalt

En benchmark-suite er et sæt af tests, der bruges til at måle, hvor godt en AI-model klarer sig på bestemte opgaver.

Kategori: begreb
Niveau: begynder
Udtale: /ˈbɛntʃmɑːrk swiːt/

Betydninger

1
En samling af flere individuelle benchmarks, der tilsammen dækker en bred vifte af opgaver eller aspekter inden for kunstig intelligens, såsom naturlig sprogforståelse, ræsonnement, eller billedgenkendelse.
- GLUE er en benchmark-suite designet til at evaluere modellers evne til at forstå naturligt sprog på tværs af ni forskellige opgaver. — GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, 2018
- MMLU (Massive Multitask Language Understanding) er en benchmark-suite, der tester modeller på 57 fagområder, lige fra jura til medicin. — Measuring Massive Multitask Language Understanding, 2020

Hvornår bruges det

Benchmark-suiter som GLUE, SuperGLUE eller MMLU bruges ofte i forskning for at rapportere modelpræstation. De giver et standardiseret sammenligningsgrundlag, så modeller kan vurderes objektivt.

Oprindelse

Sammensat af 'benchmark' (referencepunkt/test) og 'suite' (sæt/samling).

Kilder

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →