benchmarking

Benchmarking er den systematiske proces med at evaluere og sammenligne en AI-models ydeevne på standardiserede testdatasæt og opgaver.

Kort fortalt

Benchmarking betyder at teste en AI-model på faste opgaver for at se, hvor god den er, og for at kunne sammenligne med andre modeller.

Kategori
teknik
Niveau
øvet
Udtale
ˈbɛntʃˌmɑːrkɪŋ

Betydninger

1
  1. 1

    Evaluering af en AI-models ydeevne på standardiserede testdatasæt og opgaver med henblik på sammenligning og rangordning.

    • Vi benchmarkede vores sprogmodel på GLUE-datasættet for at måle dens sprogforståelse.

Hvornår bruges det

Benchmarking bruges i AI-udvikling til at måle fremskridt, validere modellers kvalitet og identificere styrker og svagheder. Det er almindeligt at benchmarke modeller på kendte datasæt som ImageNet eller GLUE for at muliggøre reproducerbare sammenligninger.

Oprindelse

Fra engelsk 'benchmark', oprindeligt et landmålerudtryk for et referencepunkt, overført til teknisk sammenligning.

Afledte ord

2

Kilder

2
  • GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, 2018
  • ImageNet Large Scale Visual Recognition Challenge, 2015