benchmark-test

En standardiseret test eller evalueringsprocedure, der anvendes til at sammenligne ydeevnen af forskellige AI-modeller eller algoritmer.

Kort fortalt

En benchmark-test er en fast prøve, der måler, hvor godt en AI-model klarer sig på specifikke opgaver, så du kan sammenligne modeller med hinanden.

Kategori: teknik
Niveau: begynder

Betydninger

1
En standardiseret evalueringsprocedure, der består af et sæt opgaver eller datasæt, som en AI-model skal udføre eller præstere på under specificerede betingelser, så resultaterne kan sammenlignes på tværs af modeller.
- BERT-modellen opnåede state-of-the-art resultater på GLUE benchmark-testen i 2018. — Devlin et al., 2019
- For at sikre retfærdige sammenligninger publiceres benchmark-testresultater typisk med detaljerede kørselsbetingelser.

Hvornår bruges det

Benchmark-tests bruges i AI-udvikling til at validere og rangordne modeller, f.eks. inden for naturlig sprogbehandling testes modeller på datasæt som GLUE eller SuperGLUE. De er afgørende for at dokumentere fremskridt og sikre reproducerbarhed.

Oprindelse

Fra engelsk 'benchmark', oprindeligt et landmålerbegreb for et fast punkt, senere overført til standardiserede tests.

Afledte ord

benchmark-datasæt benchmark-rammeværk benchmark-resultat

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →