Benchmark

Standardiseret test eller datasæt brugt til at evaluere og sammenligne AI-modellers ydelse.

Kort fortalt

En benchmark er en fast opgave eller et sæt data, der bruges til at måle, hvor god en AI-model er i forhold til andre.

Kategori
begreb
Niveau
begynder
Udtale
/ˈbɛntʃ.mɑːrk/

Betydninger

2
  1. 1

    Standardiseret evalueringsprotokol med specifikke datasæt og metrikker, designet til at måle og sammenligne AI-modellers ydelse på en given opgave.

    • GLUE-benchmarken består af ni forskellige sprogforståelsesopgaver.Wang et al., 2018
    • Modellen opnåede state-of-the-art på ImageNet-benchmarken.Forskningsartikel, 2023
  2. 2

    Handlingen at evaluere en AI-model ved hjælp af en benchmark, ofte for at sammenligne med andre modeller eller tidligere versioner.

    • Vi benchmarkede vores nye sprogmodel mod GPT-4 på flere opgaver.

Hvornår bruges det

Benchmarks bruges i praksis til at rangordne modeller på leaderboards, validere forbedringer under udvikling, og sikre reproducerbarhed i forskning. De dækker ofte specifikke domæner som sprogforståelse (GLUE), spørgsmål-besvarelse (SQuAD) eller billedgenkendelse (ImageNet).

Oprindelse

Ordet 'benchmark' stammer fra landmåling, hvor en 'bench mark' var et mærke indhugget i sten til at angive højde. Overført til computing i 1970'erne og siden til AI som målestok for ydelse.

Afledte ord

3

Kilder

2
  • GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding (2018)
  • SQuAD: 100,000+ Questions for Machine Comprehension of Text (2016)