benchmarking
Benchmarking er den systematiske proces med at evaluere og sammenligne en AI-models ydeevne på standardiserede testdatasæt og opgaver.
Kort fortalt
Benchmarking betyder at teste en AI-model på faste opgaver for at se, hvor god den er, og for at kunne sammenligne med andre modeller.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- ˈbɛntʃˌmɑːrkɪŋ
Betydninger
1- 1
Evaluering af en AI-models ydeevne på standardiserede testdatasæt og opgaver med henblik på sammenligning og rangordning.
- Vi benchmarkede vores sprogmodel på GLUE-datasættet for at måle dens sprogforståelse.
Hvornår bruges det
Benchmarking bruges i AI-udvikling til at måle fremskridt, validere modellers kvalitet og identificere styrker og svagheder. Det er almindeligt at benchmarke modeller på kendte datasæt som ImageNet eller GLUE for at muliggøre reproducerbare sammenligninger.
Oprindelse
Fra engelsk 'benchmark', oprindeligt et landmålerudtryk for et referencepunkt, overført til teknisk sammenligning.
Afledte ord
2Kilder
2- GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, 2018
- ImageNet Large Scale Visual Recognition Challenge, 2015