benchmark-rammeværk

Et benchmark-rammeværk er et standardiseret sæt af værktøjer og metoder til at evaluere og sammenligne AI-modellers ydeevne på specifikke opgaver.

Kort fortalt

En slags testopsætning, der gør det nemt at måle, hvor god en AI-model er til en bestemt opgave.

Kategori
værktøj
Niveau
øvet

Betydninger

1
  1. 1

    Et standardiseret system af tests, datakilder og evalueringsmetoder designet til at vurdere AI-modellers ydeevne på en ensartet måde.

    • Forskerne brugte GLUE-benchmark-rammeværket til at teste deres sprogmodel.
    • MLPerf er et benchmark-rammeværk til at måle AI-træningshastighed.

Hvornår bruges det

Benchmark-rammeværker bruges til at sikre reproducerbare og sammenlignelige resultater på tværs af forskellige modeller, f.eks. GLUE for sprogforståelse eller MLPerf for hardwareydelse.

Oprindelse

Låneoversættelse fra engelsk 'benchmark framework', hvor 'benchmark' refererer til en standardreference.

Kilder

2
  • GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding (2019)
  • MLPerf: An Industry Standard Benchmark Suite for Machine Learning Performance (2020)