Benchmark
Standardiseret test eller datasæt brugt til at evaluere og sammenligne AI-modellers ydelse.
Kort fortalt
En benchmark er en fast opgave eller et sæt data, der bruges til at måle, hvor god en AI-model er i forhold til andre.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- /ˈbɛntʃ.mɑːrk/
Betydninger
2- 1
Standardiseret evalueringsprotokol med specifikke datasæt og metrikker, designet til at måle og sammenligne AI-modellers ydelse på en given opgave.
- GLUE-benchmarken består af ni forskellige sprogforståelsesopgaver. — Wang et al., 2018
- Modellen opnåede state-of-the-art på ImageNet-benchmarken. — Forskningsartikel, 2023
- 2
Handlingen at evaluere en AI-model ved hjælp af en benchmark, ofte for at sammenligne med andre modeller eller tidligere versioner.
- Vi benchmarkede vores nye sprogmodel mod GPT-4 på flere opgaver.
Hvornår bruges det
Benchmarks bruges i praksis til at rangordne modeller på leaderboards, validere forbedringer under udvikling, og sikre reproducerbarhed i forskning. De dækker ofte specifikke domæner som sprogforståelse (GLUE), spørgsmål-besvarelse (SQuAD) eller billedgenkendelse (ImageNet).
Oprindelse
Ordet 'benchmark' stammer fra landmåling, hvor en 'bench mark' var et mærke indhugget i sten til at angive højde. Overført til computing i 1970'erne og siden til AI som målestok for ydelse.
Afledte ord
3Kilder
2- GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding (2018)
- SQuAD: 100,000+ Questions for Machine Comprehension of Text (2016)