benchmark-resultat
Resultatet af en standardiseret evaluering af en AI-models ydeevne på en specifik opgave.
Kort fortalt
Et tal eller en måling der viser, hvor god en AI-model er til en bestemt opgave, sammenlignet med andre modeller.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- [ˈbɛntʃmɑːkʁeˌzʊlˈtɑːˀt]
Betydninger
1- 1
Det numeriske eller kategoriske udfald af en benchmark-evaluering, der angiver en models ydeevne på en given opgave.
- Modellens benchmark-resultat på GLUE-scoren var 89,4%, hvilket overgik den tidligere state-of-the-art. — Forskningsartikel, 2023
- Benchmark-resultaterne viste en signifikant forbedring efter fine-tuning.
Hvornår bruges det
Benchmark-resultater bruges til at sammenligne forskellige AI-modellers præstation på tværs af studier og til at spore fremskridt inden for feltet. De rapporteres typisk i forskningsartikler og på leaderboards.
Oprindelse
Sammensat af 'benchmark' (standardiseret test) og 'resultat' (udfald), fra engelsk 'benchmark result'.
Afledte ord
1Kilder
2- GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
- SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems