metrik

86 termer

accuracyAccuracy er en metrik, der angiver andelen af korrekte forudsigelser ud af alle forudsigelser.
accuracy scoreAccuracy score er en metrik, der måler andelen af korrekte forudsigelser ud af alle forudsigelser i en klassifikationsmodel.
AUCAUC er et mål for en models evne til at skelne mellem positive og negative klasser, uafhængigt af klassifikationstærskel.
AUC-PRAUC-PR måler arealet under præcision-genkaldelseskurven og opsummerer modellens ydeevne ved alle klassifikationstærskler.
AUC-ROCAUC-ROC er en metrik, der måler et binært klassifikationssystems evne til at skelne mellem positive og negative klasser på tværs af alle klassifikationstærskler.
Average PrecisionAverage Precision (AP) er et mål for præcisionen af en model over alle recall-niveauer, ofte brugt i informationssøgning og objektdetektion.
balanced accuracyBalanceret nøjagtighed er gennemsnittet af recall for hver klasse, ofte defineret som (sensitivity + specificity)/2.
benchmark scoreEn benchmark-score er en numerisk værdi, der repræsenterer en models præstation på en standardiseret test.
bias test metrikEn bias test metrik er et kvantitativt mål, der vurderer, om en AI-model udviser systematisk forskelsbehandling over for bestemte grupper baseret på beskyttede attributter som køn eller race.
binær log lossBinær log loss er en tabsfunktion for binær klassifikation, der straffer forkerte forudsigelser logaritmisk baseret på sandsynlighedsudgange.
BLEUAutomatisk metrik der måler n-gram-præcision mellem genereret tekst og reference, justeret med brevity-straf.
BLEU-4BLEU-4 er en automatisk evalueringsmetrik til maskinoversættelse, der måler n-gram-overlap mellem en kandidat-tekst og en eller flere referencetekster, vægter ligeligt, og anvender en straf for korte oversættelser.
BLEU-scoreBLEU-score er en automatisk metrik til evaluering af maskinoversættelse, der måler n-gram-overlap mellem en kandidatoversættelse og en eller flere referenceoversættelser.
Categorical cross-entropyCategorical cross-entropy er en tabsfunktion, der måler forskellen mellem den sande sandsynlighedsfordeling over klasser og den forudsagte fordeling.
confusion matrixEn tabel, der opsummerer en klassifikationsmodels præstation ved at sammenligne forudsagte og faktiske klasser.
corpus-BLEUCorpus-BLEU er en evalueringsmetrik for maskinoversættelse, der beregner n-gram præcision over hele korpuset og straffer for korte oversættelser via en brevity penalty.
cosine distanceCosine distance er et mål for forskellen mellem to vektorer, defineret som 1 minus cosinus af vinklen mellem dem.
cosine lighedCosine lighed er et mål for, hvor ens to ikke-nul-vektorer er i retning, uafhængigt af deres længde, beregnet som cosinus til vinklen mellem dem.
cosine similarityCosinus-lighed er en metrik, der måler ligheden mellem to ikke-nul vektorer ved at beregne cosinus af vinklen mellem dem.
cosinus-afstandCosinus-afstand måler forskellen mellem to vektorer som 1 minus cosinus-ligheden, hvor værdien går fra 0 (identisk retning) til 2 (modsat retning).
Cross-entropy lossCross-entropy loss er en tabfunktion, der måler forskellen mellem den sande fordeling og den forudsagte fordeling ved at beregne den negative logaritme af sandsynligheden for de korrekte klasser.
eval-målingEn eval-måling er en kvantitativ målestok, der bruges til at vurdere en AI-models præstation på en specifik opgave.
evaluation metricEn evaluation metric er en kvantitativ måling, der bruges til at vurdere en models præstation på en given opgave.
evalueringsmetrikEn evalueringsmetrik er en kvantitativ måling, der bruges til at vurdere en models præstation på en given opgave.
Expected Calibration ErrorExpected Calibration Error (ECE) er en metrik, der måler afvigelsen mellem en models forudsagte sandsynligheder og de faktiske observerede frekvenser, typisk opdelt i intervaller (bins).
F1 scoreDet harmoniske gennemsnit af præcision og recall, der bruges som en samlet metrik for en klassifikationsmodels nøjagtighed.
fairness-metricEn fairness-metric er et kvantitativt mål der evaluerer om en models forudsigelser opfylder et bestemt fairness-kriterium på tværs af grupper.
fairness-metrikEn fairness-metrik er en kvantitativ måling af, i hvor høj grad en AI-models beslutninger er retfærdige på tværs af demografiske grupper.
faktaaccuracyFaktaaccuracy er en metrik, der måler andelen af faktuelle påstande i en models output, som er korrekte.
Fβ-scoreFβ-score er det vægtede harmoniske gennemsnit af præcision og recall, hvor β angiver, hvor mange gange recall er vigtigere end præcision.
GenkaldelsesrateGenkaldelsesrate måler andelen af relevante positive instanser, der identificeres korrekt af modellen.
gennemsnitlig præcisionMetrik der beregner det gennemsnitlige præcisionsniveau over alle recall-niveauer for en rangordnet resultatliste.
gennemsnitlig præcisionMål for kvaliteten af en rangeringsmodel, beregnet som gennemsnittet af præcisionen ved hver relevant position.
hallucination rateHyppigheden hvormed en sprogmodel producerer faktuel forkerte eller opdigtede oplysninger.
kalibreringskurveEn graf der viser sammenhængen mellem en models forudsagte sandsynligheder og de observerede frekvenser af positive udfald.
kategorisk krydsentropiKategorisk krydsentropi er et tabsfunktionsmål, der kvantificerer forskellen mellem de forudsagte sandsynligheder og de sande klasseetiketter i flerklasseklassifikation.
konfusionsmatrixEn tabel, der opsummerer ydeevnen af en klassifikationsmodel ved at vise antallet af korrekte og forkerte forudsigelser for hver klasse.
krydsentropiKrydsentropi er et mål for forskellen mellem to sandsynlighedsfordelinger, ofte brugt som tabsfunktion i klassifikationsmodeller.
Kullback-Leibler divergensEt mål for forskellen mellem to sandsynlighedsfordelinger, defineret som den forventede logaritmiske forskel mellem dem.
log lossLog loss er en tabsfunktion, der måler, hvor godt en klassifikationsmodels forudsagte sandsynligheder passer til de faktiske klasser, med en lavere værdi, der indikerer bedre ydeevne.
macro F1Macro F1 er det u vægtede gennemsnit af F1-score for hver klasse i en klassifikationsopgave, hvor alle klasser behandles lige uafhængigt af deres hyppighed.
makro-F1Makro-F1 er gennemsnittet af F1-scorer beregnet separat for hver klasse, hvilket giver lige vægt til alle klasser uanset deres hyppighed.
makro-F1-scoreMakro-F1-score er gennemsnittet af F1-scores beregnet separat for hver klasse, hvilket giver lige vægt til alle klasser uanset deres størrelse.
mean Average Precision (mAP)Gennemsnittet af gennemsnitlig præcision (AP) over alle klasser i en objektgenkendelses- eller informationsgenfindingsopgave.
mean squared errorMean squared error (MSE) er gennemsnittet af de kvadrerede forskelle mellem forudsagte og faktiske værdier i en regression.
METEORMETEOR er en evalueringsmetrik for maskinoversættelse og tekstgenerering, der måler kvaliteten ved at sammenligne hypoteser med referencer under hensyntagen til synonymi, ordstilling og stemming.
metrikEn metrik er en kvantitativ måling, der bruges til at evaluere eller sammenligne præstationen af en AI-model.
micro-averaged F1Micro-averaged F1 er en global gennemsnitsberegning af F1-score, der beregnes ved at aggregere sande positive, falske positive og falske negative på tværs af alle klasser og derefter beregne F1 ud fra de samlede tal.
middel gennemsnitlig præcisionMiddel gennemsnitlig præcision (MAP) er en metrik, der måler den gennemsnitlige præcision over flere forespørgsler eller brugere, typisk brugt i informationsgenfinding og anbefalingssystemer.
mikro-F1Mikro-F1 er en evalueringsmetrik, der beregner det harmoniske gennemsnit af præcision og recall på tværs af alle klasser ved at aggregere tællere (TP, FP, FN) globalt.
mikro-F1-scoreMikro-F1-score er en variant af F1-score, der beregnes ved at aggregere sandt positive, falsk positive og falsk negative på tværs af alle klasser, før F1 beregnes.
model-interpretabilitetsmetrikEn model-interpretabilitetsmetrik er et kvantitativt mål, der vurderer, hvor let en menneskelig bruger kan forstå eller fortolke en maskinlæringsmodels beslutninger.
normaliseret confusion matrixEn normaliseret confusion matrix er en variant af confusion matrix, hvor tællingerne er skaleret til andele, typisk per række (sande klasse) eller per kolonne (forudsagt klasse).
normalized mean squared errorEn metrik, der måler den gennemsnitlige kvadratiske afvigelse mellem observerede og forudsagte værdier, normaliseret med variansen af de observerede værdier.
perplexityPerplexity er en metrik, der måler, hvor godt en sprogmodel forudsiger en sekvens af tokens.
perplexity-metrikEt mål for hvor godt en sprogmodel forudsiger en sekvens af tokens, defineret som eksponentialet af den gennemsnitlige krydsentropi.
Perplexity-scorePerplexity-score er en metrik, der måler, hvor godt en sprogmodel forudsiger en sekvens af tokens, defineret som eksponentialet af gennemsnitlig krydsentropi.
perplexity-værdiPerplexity-værdi er en metrik, der måler, hvor godt en sprogmodel forudsiger en given tekstsekvens.
PrecisionPræcision måler andelen af korrekte positive forudsigelser ud af alle positive forudsigelser.
precision-recallPræcision og recall er to metrikker til evaluering af klassifikationsmodeller, der måler henholdsvis nøjagtigheden af positive forudsigelser og modellens evne til at finde alle relevante tilfælde.
precision-recall kurveEn kurve der viser sammenhængen mellem præcision og recall ved forskellige klassifikationstærskler.
precision-recall kurveEn graf der viser afvejningen mellem præcision og recall for en klassifikationsmodel ved forskellige tærskelværdier.
RecallRecall er en evalueringsmetrik, der måler andelen af korrekt identificerede positive instanser ud af alle faktiske positive instanser.
Recall scoreRecall er andelen af sande positive blandt alle faktisk positive instanser, også kaldet sensitivitet eller True Positive Rate.
Recall@kRecall@k måler andelen af relevante elementer, der findes blandt de øverste k anbefalinger eller søgeresultater.
Recall@kRecall@k måler andelen af relevante dokumenter blandt de k første resultater i en rangering.
ROC curveEn grafisk fremstilling af en binær klassifikationsmodels ydeevne ved at plotte sand positiv rate mod falsk positiv rate ved forskellige tærskelværdier.
root mean squared errorKvadratroden af gennemsnittet af kvadrerede forskelle mellem forudsagte og observerede værdier.
ROUGEROUGE er en metrik til automatisk evaluering af tekstopsummering og maskinoversættelse, der måler overlap af n-gram, ordsekvenser og ordpar mellem en genereret tekst og reference(r).
ROUGE-1En metrik til evaluering af automatisk tekstopsummering, der måler overlap af enkeltord (unigrammer) mellem en reference- og en kandidatsammenfatning.
ROUGE-2ROUGE-2 er en automatisk evalueringsmetrik, der måler overlap af bigrammer (2-grams) mellem en maskinskrevet tekst og en reference-tekst for at vurdere kvaliteten af tekstgenerering, især inden for automatisk opsummering.
ROUGE-LROUGE-L er en evalueringsmetrik til automatisk vurdering af tekster, der måler længden af den længste fælles delsekvens (LCS) mellem en reference- og en kandidattekst.
ROUGE-NROUGE-N er en recall-baseret metrik, der måler overlap af n-grammer mellem en kandidattekst og en referencetekst, primært brugt til evaluering af automatisk tekstopsummering og maskinoversættelse.
ROUGE-SROUGE-S er en evalueringsmetrik, der måler overlap af skip-gram (sekvenser af ord med mellemrum) mellem en referencetekst og en genereret tekst, med fokus på recall.
ROUGE-SUEn evalueringsmetrik til automatisk opsummering, der måler overlap af unigrammer og skip-bigrammer mellem en maskinelt genereret og en referenceopsummering.
ROUGE-WROUGE-W er en automatisk evalueringsmetrik til tekstopsummering, der beregner vægtet længste fælles undersekvens (W-LCS) mellem en modelgenereret reference og en referenceopsummering.
sensitivitySensitivitet er andelen af faktisk positive tilfælde, der korrekt identificeres af modellen.
sentence-BLEUSentence-BLEU er en variant af BLEU-metrikken, der evaluerer kvaliteten af en enkelt oversat sætning ved at måle n-gram-overlap med en referencesætning.
Silhouette scoreSilhouette score er et mål for, hvor godt et objekt passer ind i sin egen klynge sammenlignet med andre klynger, baseret på både kohesion og separation.
test-perplexityEt mål for, hvor godt en sprogmodel forudsiger en testdatasætsekvens, beregnet som den geometriske gennemsnitlige inverse sandsynlighed for ordene i testdata.
test-sæt-fejlrateTest-sæt-fejlrate er andelen af forkerte forudsigelser på et test-datasæt.
test-sæt-nøjagtighedMåling af andelen af korrekte forudsigelser på et separat testsæt, som modellen ikke har set under træning.
true positive rateAndelen af korrekt identificerede positive tilfælde blandt alle faktisk positive tilfælde.
træningslossTræningsloss er gennemsnittet af tabsfunktionsværdierne beregnet over træningsdataene under modeltræning.
vægtet F1Vægtet F1 er et gennemsnit af F1-scores for hver klasse, vægtet efter antallet af sande instanser i hver klasse.
Weighted cross-entropyEn tabsfunktion der tilpasser krydsentropien ved at vægte hver klasses bidrag forskelligt, typisk for at håndtere ubalancerede datasæt.