evalueringsprotokol

En standardiseret fremgangsmåde og sæt af regler for at evaluere en AI-models ydeevne, herunder valg af data, metrikker og evalueringsmetode.

Kort fortalt

En opskrift på, hvordan man tester en AI-model, så resultaterne er pålidelige og sammenlignelige.

Kategori
begreb
Niveau
øvet
Udtale
/evalˈueːʁeʁiŋs pʁotokoːl/

Betydninger

1
  1. 1

    Det sæt af regler og retningslinjer, der anvendes til at vurdere en AI-models ydeevne under kontrollerede forhold.

    • Forskerne fulgte en streng evalueringsprotokol med 5-fold krydsvalidering for at undgå overtilpasning.
    • En fælles evalueringsprotokol gør det muligt at sammenligne resultater på tværs af studier.

Hvornår bruges det

En evalueringsprotokol anvendes inden for maskinlæring og kunstig intelligens for at sikre reproducerbarhed og retfærdig sammenligning af modeller. Den specificerer ofte træning-test-opdeling, krydsvalideringsstrategi, metrikker (f.eks. nøjagtighed, F1-score) og statistiske signifikanstest. Protokollen bør offentliggøres sammen med resultaterne.

Oprindelse

Sammensat af 'evaluering' (vurdering) og 'protokol' (formel procedure), fra latin 'evaluare' og græsk 'prōtokollon'.

Kilder

2
  • Reproducibility in Machine Learning (MLSys 2020 tutorial)
  • DINO: DETR with Improved Denoising Anchor Boxes (2021)