benchmarking

Benchmarking er den systematiske proces med at evaluere og sammenligne en AI-models ydeevne på standardiserede testdatasæt og opgaver.

Kort fortalt

Benchmarking betyder at teste en AI-model på faste opgaver for at se, hvor god den er, og for at kunne sammenligne med andre modeller.

Kategori: teknik
Niveau: øvet
Udtale: ˈbɛntʃˌmɑːrkɪŋ

Betydninger

1
Evaluering af en AI-models ydeevne på standardiserede testdatasæt og opgaver med henblik på sammenligning og rangordning.
- Vi benchmarkede vores sprogmodel på GLUE-datasættet for at måle dens sprogforståelse.

Hvornår bruges det

Benchmarking bruges i AI-udvikling til at måle fremskridt, validere modellers kvalitet og identificere styrker og svagheder. Det er almindeligt at benchmarke modeller på kendte datasæt som ImageNet eller GLUE for at muliggøre reproducerbare sammenligninger.

Oprindelse

Fra engelsk 'benchmark', oprindeligt et landmålerudtryk for et referencepunkt, overført til teknisk sammenligning.

Afledte ord

benchmark-datasæt benchmark-rammeværk

Kilder

GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, 2018
ImageNet Large Scale Visual Recognition Challenge, 2015

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →