metrik
86 termer- accuracyAccuracy er en metrik, der angiver andelen af korrekte forudsigelser ud af alle forudsigelser.
- accuracy scoreAccuracy score er en metrik, der måler andelen af korrekte forudsigelser ud af alle forudsigelser i en klassifikationsmodel.
- AUCAUC er et mål for en models evne til at skelne mellem positive og negative klasser, uafhængigt af klassifikationstærskel.
- AUC-PRAUC-PR måler arealet under præcision-genkaldelseskurven og opsummerer modellens ydeevne ved alle klassifikationstærskler.
- AUC-ROCAUC-ROC er en metrik, der måler et binært klassifikationssystems evne til at skelne mellem positive og negative klasser på tværs af alle klassifikationstærskler.
- Average PrecisionAverage Precision (AP) er et mål for præcisionen af en model over alle recall-niveauer, ofte brugt i informationssøgning og objektdetektion.
- balanced accuracyBalanceret nøjagtighed er gennemsnittet af recall for hver klasse, ofte defineret som (sensitivity + specificity)/2.
- benchmark scoreEn benchmark-score er en numerisk værdi, der repræsenterer en models præstation på en standardiseret test.
- bias test metrikEn bias test metrik er et kvantitativt mål, der vurderer, om en AI-model udviser systematisk forskelsbehandling over for bestemte grupper baseret på beskyttede attributter som køn eller race.
- binær log lossBinær log loss er en tabsfunktion for binær klassifikation, der straffer forkerte forudsigelser logaritmisk baseret på sandsynlighedsudgange.
- BLEUAutomatisk metrik der måler n-gram-præcision mellem genereret tekst og reference, justeret med brevity-straf.
- BLEU-4BLEU-4 er en automatisk evalueringsmetrik til maskinoversættelse, der måler n-gram-overlap mellem en kandidat-tekst og en eller flere referencetekster, vægter ligeligt, og anvender en straf for korte oversættelser.
- BLEU-scoreBLEU-score er en automatisk metrik til evaluering af maskinoversættelse, der måler n-gram-overlap mellem en kandidatoversættelse og en eller flere referenceoversættelser.
- Categorical cross-entropyCategorical cross-entropy er en tabsfunktion, der måler forskellen mellem den sande sandsynlighedsfordeling over klasser og den forudsagte fordeling.
- confusion matrixEn tabel, der opsummerer en klassifikationsmodels præstation ved at sammenligne forudsagte og faktiske klasser.
- corpus-BLEUCorpus-BLEU er en evalueringsmetrik for maskinoversættelse, der beregner n-gram præcision over hele korpuset og straffer for korte oversættelser via en brevity penalty.
- cosine distanceCosine distance er et mål for forskellen mellem to vektorer, defineret som 1 minus cosinus af vinklen mellem dem.
- cosine lighedCosine lighed er et mål for, hvor ens to ikke-nul-vektorer er i retning, uafhængigt af deres længde, beregnet som cosinus til vinklen mellem dem.
- cosine similarityCosinus-lighed er en metrik, der måler ligheden mellem to ikke-nul vektorer ved at beregne cosinus af vinklen mellem dem.
- cosinus-afstandCosinus-afstand måler forskellen mellem to vektorer som 1 minus cosinus-ligheden, hvor værdien går fra 0 (identisk retning) til 2 (modsat retning).
- Cross-entropy lossCross-entropy loss er en tabfunktion, der måler forskellen mellem den sande fordeling og den forudsagte fordeling ved at beregne den negative logaritme af sandsynligheden for de korrekte klasser.
- eval-målingEn eval-måling er en kvantitativ målestok, der bruges til at vurdere en AI-models præstation på en specifik opgave.
- evaluation metricEn evaluation metric er en kvantitativ måling, der bruges til at vurdere en models præstation på en given opgave.
- evalueringsmetrikEn evalueringsmetrik er en kvantitativ måling, der bruges til at vurdere en models præstation på en given opgave.
- Expected Calibration ErrorExpected Calibration Error (ECE) er en metrik, der måler afvigelsen mellem en models forudsagte sandsynligheder og de faktiske observerede frekvenser, typisk opdelt i intervaller (bins).
- F1 scoreDet harmoniske gennemsnit af præcision og recall, der bruges som en samlet metrik for en klassifikationsmodels nøjagtighed.
- fairness-metricEn fairness-metric er et kvantitativt mål der evaluerer om en models forudsigelser opfylder et bestemt fairness-kriterium på tværs af grupper.
- fairness-metrikEn fairness-metrik er en kvantitativ måling af, i hvor høj grad en AI-models beslutninger er retfærdige på tværs af demografiske grupper.
- faktaaccuracyFaktaaccuracy er en metrik, der måler andelen af faktuelle påstande i en models output, som er korrekte.
- Fβ-scoreFβ-score er det vægtede harmoniske gennemsnit af præcision og recall, hvor β angiver, hvor mange gange recall er vigtigere end præcision.
- GenkaldelsesrateGenkaldelsesrate måler andelen af relevante positive instanser, der identificeres korrekt af modellen.
- gennemsnitlig præcisionMetrik der beregner det gennemsnitlige præcisionsniveau over alle recall-niveauer for en rangordnet resultatliste.
- gennemsnitlig præcisionMål for kvaliteten af en rangeringsmodel, beregnet som gennemsnittet af præcisionen ved hver relevant position.
- hallucination rateHyppigheden hvormed en sprogmodel producerer faktuel forkerte eller opdigtede oplysninger.
- kalibreringskurveEn graf der viser sammenhængen mellem en models forudsagte sandsynligheder og de observerede frekvenser af positive udfald.
- kategorisk krydsentropiKategorisk krydsentropi er et tabsfunktionsmål, der kvantificerer forskellen mellem de forudsagte sandsynligheder og de sande klasseetiketter i flerklasseklassifikation.
- konfusionsmatrixEn tabel, der opsummerer ydeevnen af en klassifikationsmodel ved at vise antallet af korrekte og forkerte forudsigelser for hver klasse.
- krydsentropiKrydsentropi er et mål for forskellen mellem to sandsynlighedsfordelinger, ofte brugt som tabsfunktion i klassifikationsmodeller.
- Kullback-Leibler divergensEt mål for forskellen mellem to sandsynlighedsfordelinger, defineret som den forventede logaritmiske forskel mellem dem.
- log lossLog loss er en tabsfunktion, der måler, hvor godt en klassifikationsmodels forudsagte sandsynligheder passer til de faktiske klasser, med en lavere værdi, der indikerer bedre ydeevne.
- macro F1Macro F1 er det u vægtede gennemsnit af F1-score for hver klasse i en klassifikationsopgave, hvor alle klasser behandles lige uafhængigt af deres hyppighed.
- makro-F1Makro-F1 er gennemsnittet af F1-scorer beregnet separat for hver klasse, hvilket giver lige vægt til alle klasser uanset deres hyppighed.
- makro-F1-scoreMakro-F1-score er gennemsnittet af F1-scores beregnet separat for hver klasse, hvilket giver lige vægt til alle klasser uanset deres størrelse.
- mean Average Precision (mAP)Gennemsnittet af gennemsnitlig præcision (AP) over alle klasser i en objektgenkendelses- eller informationsgenfindingsopgave.
- mean squared errorMean squared error (MSE) er gennemsnittet af de kvadrerede forskelle mellem forudsagte og faktiske værdier i en regression.
- METEORMETEOR er en evalueringsmetrik for maskinoversættelse og tekstgenerering, der måler kvaliteten ved at sammenligne hypoteser med referencer under hensyntagen til synonymi, ordstilling og stemming.
- metrikEn metrik er en kvantitativ måling, der bruges til at evaluere eller sammenligne præstationen af en AI-model.
- micro-averaged F1Micro-averaged F1 er en global gennemsnitsberegning af F1-score, der beregnes ved at aggregere sande positive, falske positive og falske negative på tværs af alle klasser og derefter beregne F1 ud fra de samlede tal.
- middel gennemsnitlig præcisionMiddel gennemsnitlig præcision (MAP) er en metrik, der måler den gennemsnitlige præcision over flere forespørgsler eller brugere, typisk brugt i informationsgenfinding og anbefalingssystemer.
- mikro-F1Mikro-F1 er en evalueringsmetrik, der beregner det harmoniske gennemsnit af præcision og recall på tværs af alle klasser ved at aggregere tællere (TP, FP, FN) globalt.
- mikro-F1-scoreMikro-F1-score er en variant af F1-score, der beregnes ved at aggregere sandt positive, falsk positive og falsk negative på tværs af alle klasser, før F1 beregnes.
- model-interpretabilitetsmetrikEn model-interpretabilitetsmetrik er et kvantitativt mål, der vurderer, hvor let en menneskelig bruger kan forstå eller fortolke en maskinlæringsmodels beslutninger.
- normaliseret confusion matrixEn normaliseret confusion matrix er en variant af confusion matrix, hvor tællingerne er skaleret til andele, typisk per række (sande klasse) eller per kolonne (forudsagt klasse).
- normalized mean squared errorEn metrik, der måler den gennemsnitlige kvadratiske afvigelse mellem observerede og forudsagte værdier, normaliseret med variansen af de observerede værdier.
- perplexityPerplexity er en metrik, der måler, hvor godt en sprogmodel forudsiger en sekvens af tokens.
- perplexity-metrikEt mål for hvor godt en sprogmodel forudsiger en sekvens af tokens, defineret som eksponentialet af den gennemsnitlige krydsentropi.
- Perplexity-scorePerplexity-score er en metrik, der måler, hvor godt en sprogmodel forudsiger en sekvens af tokens, defineret som eksponentialet af gennemsnitlig krydsentropi.
- perplexity-værdiPerplexity-værdi er en metrik, der måler, hvor godt en sprogmodel forudsiger en given tekstsekvens.
- PrecisionPræcision måler andelen af korrekte positive forudsigelser ud af alle positive forudsigelser.
- precision-recallPræcision og recall er to metrikker til evaluering af klassifikationsmodeller, der måler henholdsvis nøjagtigheden af positive forudsigelser og modellens evne til at finde alle relevante tilfælde.
- precision-recall kurveEn kurve der viser sammenhængen mellem præcision og recall ved forskellige klassifikationstærskler.
- precision-recall kurveEn graf der viser afvejningen mellem præcision og recall for en klassifikationsmodel ved forskellige tærskelværdier.
- RecallRecall er en evalueringsmetrik, der måler andelen af korrekt identificerede positive instanser ud af alle faktiske positive instanser.
- Recall scoreRecall er andelen af sande positive blandt alle faktisk positive instanser, også kaldet sensitivitet eller True Positive Rate.
- Recall@kRecall@k måler andelen af relevante elementer, der findes blandt de øverste k anbefalinger eller søgeresultater.
- Recall@kRecall@k måler andelen af relevante dokumenter blandt de k første resultater i en rangering.
- ROC curveEn grafisk fremstilling af en binær klassifikationsmodels ydeevne ved at plotte sand positiv rate mod falsk positiv rate ved forskellige tærskelværdier.
- root mean squared errorKvadratroden af gennemsnittet af kvadrerede forskelle mellem forudsagte og observerede værdier.
- ROUGEROUGE er en metrik til automatisk evaluering af tekstopsummering og maskinoversættelse, der måler overlap af n-gram, ordsekvenser og ordpar mellem en genereret tekst og reference(r).
- ROUGE-1En metrik til evaluering af automatisk tekstopsummering, der måler overlap af enkeltord (unigrammer) mellem en reference- og en kandidatsammenfatning.
- ROUGE-2ROUGE-2 er en automatisk evalueringsmetrik, der måler overlap af bigrammer (2-grams) mellem en maskinskrevet tekst og en reference-tekst for at vurdere kvaliteten af tekstgenerering, især inden for automatisk opsummering.
- ROUGE-LROUGE-L er en evalueringsmetrik til automatisk vurdering af tekster, der måler længden af den længste fælles delsekvens (LCS) mellem en reference- og en kandidattekst.
- ROUGE-NROUGE-N er en recall-baseret metrik, der måler overlap af n-grammer mellem en kandidattekst og en referencetekst, primært brugt til evaluering af automatisk tekstopsummering og maskinoversættelse.
- ROUGE-SROUGE-S er en evalueringsmetrik, der måler overlap af skip-gram (sekvenser af ord med mellemrum) mellem en referencetekst og en genereret tekst, med fokus på recall.
- ROUGE-SUEn evalueringsmetrik til automatisk opsummering, der måler overlap af unigrammer og skip-bigrammer mellem en maskinelt genereret og en referenceopsummering.
- ROUGE-WROUGE-W er en automatisk evalueringsmetrik til tekstopsummering, der beregner vægtet længste fælles undersekvens (W-LCS) mellem en modelgenereret reference og en referenceopsummering.
- sensitivitySensitivitet er andelen af faktisk positive tilfælde, der korrekt identificeres af modellen.
- sentence-BLEUSentence-BLEU er en variant af BLEU-metrikken, der evaluerer kvaliteten af en enkelt oversat sætning ved at måle n-gram-overlap med en referencesætning.
- Silhouette scoreSilhouette score er et mål for, hvor godt et objekt passer ind i sin egen klynge sammenlignet med andre klynger, baseret på både kohesion og separation.
- test-perplexityEt mål for, hvor godt en sprogmodel forudsiger en testdatasætsekvens, beregnet som den geometriske gennemsnitlige inverse sandsynlighed for ordene i testdata.
- test-sæt-fejlrateTest-sæt-fejlrate er andelen af forkerte forudsigelser på et test-datasæt.
- test-sæt-nøjagtighedMåling af andelen af korrekte forudsigelser på et separat testsæt, som modellen ikke har set under træning.
- true positive rateAndelen af korrekt identificerede positive tilfælde blandt alle faktisk positive tilfælde.
- træningslossTræningsloss er gennemsnittet af tabsfunktionsværdierne beregnet over træningsdataene under modeltræning.
- vægtet F1Vægtet F1 er et gennemsnit af F1-scores for hver klasse, vægtet efter antallet af sande instanser i hver klasse.
- Weighted cross-entropyEn tabsfunktion der tilpasser krydsentropien ved at vægte hver klasses bidrag forskelligt, typisk for at håndtere ubalancerede datasæt.