benchmark-resultat

Resultatet af en standardiseret evaluering af en AI-models ydeevne på en specifik opgave.

Kort fortalt

Et tal eller en måling der viser, hvor god en AI-model er til en bestemt opgave, sammenlignet med andre modeller.

Kategori: begreb
Niveau: begynder
Udtale: [ˈbɛntʃmɑːkʁeˌzʊlˈtɑːˀt]

Betydninger

1
Det numeriske eller kategoriske udfald af en benchmark-evaluering, der angiver en models ydeevne på en given opgave.
- Modellens benchmark-resultat på GLUE-scoren var 89,4%, hvilket overgik den tidligere state-of-the-art. — Forskningsartikel, 2023
- Benchmark-resultaterne viste en signifikant forbedring efter fine-tuning.

Hvornår bruges det

Benchmark-resultater bruges til at sammenligne forskellige AI-modellers præstation på tværs af studier og til at spore fremskridt inden for feltet. De rapporteres typisk i forskningsartikler og på leaderboards.

Oprindelse

Sammensat af 'benchmark' (standardiseret test) og 'resultat' (udfald), fra engelsk 'benchmark result'.

Afledte ord

benchmark-resultater

Kilder

GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →