benchmark-test
En standardiseret test eller evalueringsprocedure, der anvendes til at sammenligne ydeevnen af forskellige AI-modeller eller algoritmer.
Kort fortalt
En benchmark-test er en fast prøve, der måler, hvor godt en AI-model klarer sig på specifikke opgaver, så du kan sammenligne modeller med hinanden.
- Kategori
- teknik
- Niveau
- begynder
Betydninger
1- 1
En standardiseret evalueringsprocedure, der består af et sæt opgaver eller datasæt, som en AI-model skal udføre eller præstere på under specificerede betingelser, så resultaterne kan sammenlignes på tværs af modeller.
- BERT-modellen opnåede state-of-the-art resultater på GLUE benchmark-testen i 2018. — Devlin et al., 2019
- For at sikre retfærdige sammenligninger publiceres benchmark-testresultater typisk med detaljerede kørselsbetingelser.
Hvornår bruges det
Benchmark-tests bruges i AI-udvikling til at validere og rangordne modeller, f.eks. inden for naturlig sprogbehandling testes modeller på datasæt som GLUE eller SuperGLUE. De er afgørende for at dokumentere fremskridt og sikre reproducerbarhed.
Oprindelse
Fra engelsk 'benchmark', oprindeligt et landmålerbegreb for et fast punkt, senere overført til standardiserede tests.