benchmark-resultat

Resultatet af en standardiseret evaluering af en AI-models ydeevne på en specifik opgave.

Kort fortalt

Et tal eller en måling der viser, hvor god en AI-model er til en bestemt opgave, sammenlignet med andre modeller.

Kategori
begreb
Niveau
begynder
Udtale
[ˈbɛntʃmɑːkʁeˌzʊlˈtɑːˀt]

Betydninger

1
  1. 1

    Det numeriske eller kategoriske udfald af en benchmark-evaluering, der angiver en models ydeevne på en given opgave.

    • Modellens benchmark-resultat på GLUE-scoren var 89,4%, hvilket overgik den tidligere state-of-the-art.Forskningsartikel, 2023
    • Benchmark-resultaterne viste en signifikant forbedring efter fine-tuning.

Hvornår bruges det

Benchmark-resultater bruges til at sammenligne forskellige AI-modellers præstation på tværs af studier og til at spore fremskridt inden for feltet. De rapporteres typisk i forskningsartikler og på leaderboards.

Oprindelse

Sammensat af 'benchmark' (standardiseret test) og 'resultat' (udfald), fra engelsk 'benchmark result'.

Afledte ord

1

Kilder

2
  • GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
  • SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems