Benchmark

Standardiseret test eller datasæt brugt til at evaluere og sammenligne AI-modellers ydelse.

Kort fortalt

En benchmark er en fast opgave eller et sæt data, der bruges til at måle, hvor god en AI-model er i forhold til andre.

Kategori: begreb
Niveau: begynder
Udtale: /ˈbɛntʃ.mɑːrk/

Betydninger

1
Standardiseret evalueringsprotokol med specifikke datasæt og metrikker, designet til at måle og sammenligne AI-modellers ydelse på en given opgave.
- GLUE-benchmarken består af ni forskellige sprogforståelsesopgaver. — Wang et al., 2018
- Modellen opnåede state-of-the-art på ImageNet-benchmarken. — Forskningsartikel, 2023
2
Handlingen at evaluere en AI-model ved hjælp af en benchmark, ofte for at sammenligne med andre modeller eller tidligere versioner.
- Vi benchmarkede vores nye sprogmodel mod GPT-4 på flere opgaver.

Hvornår bruges det

Benchmarks bruges i praksis til at rangordne modeller på leaderboards, validere forbedringer under udvikling, og sikre reproducerbarhed i forskning. De dækker ofte specifikke domæner som sprogforståelse (GLUE), spørgsmål-besvarelse (SQuAD) eller billedgenkendelse (ImageNet).

Oprindelse

Ordet 'benchmark' stammer fra landmåling, hvor en 'bench mark' var et mærke indhugget i sten til at angive højde. Overført til computing i 1970'erne og siden til AI som målestok for ydelse.

Afledte ord

benchmarking benchmark-datasæt benchmark-suite

Kilder

GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding (2018)
SQuAD: 100,000+ Questions for Machine Comprehension of Text (2016)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →