benchmark-suite
En samling af standardiserede tests (benchmarks) designet til at evaluere og sammenligne ydeevnen af AI-modeller på tværs af forskellige opgaver.
Kort fortalt
En benchmark-suite er et sæt af tests, der bruges til at måle, hvor godt en AI-model klarer sig på bestemte opgaver.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- /ˈbɛntʃmɑːrk swiːt/
Betydninger
1- 1
En samling af flere individuelle benchmarks, der tilsammen dækker en bred vifte af opgaver eller aspekter inden for kunstig intelligens, såsom naturlig sprogforståelse, ræsonnement, eller billedgenkendelse.
- GLUE er en benchmark-suite designet til at evaluere modellers evne til at forstå naturligt sprog på tværs af ni forskellige opgaver. — GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, 2018
- MMLU (Massive Multitask Language Understanding) er en benchmark-suite, der tester modeller på 57 fagområder, lige fra jura til medicin. — Measuring Massive Multitask Language Understanding, 2020
Hvornår bruges det
Benchmark-suiter som GLUE, SuperGLUE eller MMLU bruges ofte i forskning for at rapportere modelpræstation. De giver et standardiseret sammenligningsgrundlag, så modeller kan vurderes objektivt.
Oprindelse
Sammensat af 'benchmark' (referencepunkt/test) og 'suite' (sæt/samling).