træning

80 termer

AdamAdam er en adaptiv optimeringsalgoritme, der kombinerer momentum og RMSprop til effektiv træning af neurale netværk.
Adam-optimizerEn adaptiv optimeringsalgoritme, der kombinerer momentum og RMSProp, og som justerer læringsraten for hver parameter baseret på første og andet moment af gradienterne.
AdamWAdamW er en optimeringsalgoritme, der modificerer Adam ved at dekopplere vægtdæmpning (weight decay) fra de adaptive gradientestimater.
Backpropagation Through Time (BPTT)BPTT er en algoritme til at beregne gradienter i tilbagevendende neurale netværk ved at udfolde netværket over tid og anvende almindelig backpropagation.
batch gradient descentBatch gradient descent er en variant af gradient descent, hvor gradienten beregnes over hele træningsdatasættet i én iteration.
batch sizeAntallet af træningseksempler, der behandles i én iteration under træning af en model.
batch-størrelseBatch-størrelse er antallet af træningseksempler, der behandles samtidigt i en enkelt iteration under træning af en maskinlæringsmodel.
BCEBCE (Binary Cross Entropy) er en tabfunktion til binær klassifikation, der måler forskellen mellem sandsynligheder og sande binære etiketter.
Binary cross-entropyBinary cross-entropy er en tabsfunktion, der måler forskellen mellem to binære sandsynlighedsfordelinger, typisk anvendt til binær klassifikation.
binary cross-entropy lossEn tabfunktion, der måler forskellen mellem sandsynligheder for to klasser i binær klassifikation.
binær krydsentropiEn loss-funktion til binær klassifikation, der måler forskellen mellem forudsagte sandsynligheder og faktiske binære labels.
checkpoint-filEn checkpoint-fil er en lagret tilstand af en model under træning, der indeholder vægte, optimeringstilstand og metadata.
checkpoint-frekvensInterval for, hvor ofte en models tilstand gemmes under træning.
contrastive lossEn loss-funktion der minimerer afstanden mellem positive par (lignende datapunkter) og maksimerer afstanden mellem negative par (forskellige datapunkter) i repræsentationsrummet.
cosine warmupCosine warmup er en learning rate-schedule, der starter med en lineær stigning (warmup) efterfulgt af en cosinusformet nedgang (cosine decay).
Cross-entropiCross-entropi er en tabsfunktion, der måler forskellen mellem to sandsynlighedsfordelinger, ofte den sande fordeling og den forudsagte.
DDPGDDPG er en reinforcement learning-algoritme, der kombinerer en deterministisk policy-gradient-metode med deep learning til kontinuerlige handlingsrum.
diffusion model trainingTræningsprocessen for diffusionsmodeller, hvor modellen lærer at omvende en gradvis støjtilføjelsesproces for at generere data.
DPO-algoritmeDPO-algoritme er en metode til at justere en sprogmodels præferencer direkte via parrede sammenligninger, uden at træne en separat belønningsmodel.
DPO-pipelineEn komplet arbejdsgang til at træne en sprogmodel ved hjælp af Direct Preference Optimization, hvor modellen lærer at foretrække menneskelige præferencer uden en separat belønningsmodel.
EpochEn epoch er én gennemgang af hele træningsdatasættet under træning af en maskinlæringsmodel.
FortræningFortræning er den indledende træningsfase, hvor en model lærer generelle repræsentationer fra store mængder umærkede data.
FortræningFortræning er den indledende fase i træningen af en dyb læringsmodel, hvor den lærer generelle repræsentationer fra store mængder umærkede data.
fortræningstrinEt fortræningstrin er en fase i maskinlæring, hvor en model trænes på et stort, generelt datasæt for at lære grundlæggende repræsentationer.
foundation-model-træningFoundational model træning er den indledende fase, hvor en stor model trænes på massive, ustrukturerede datasæt ved hjælp af selvsuperviserede læringsmetoder.
foundation-model-træningTræning af en foundation-model på store, diverse datasæt vha. selvovervåget læring.
gradient clipperEn teknik under træning af neurale netværk, hvor gradienter begrænses til en maksimal værdi for at forhindre eksploderende gradienter.
Gradient clippingEn teknik i træning af neurale netværk, der begrænser størrelsen af gradienter under backpropagation for at forhindre eksploderende gradienter.
gradient clipping thresholdEn hyperparameter, der sætter en maksimal grænse for gradienternes størrelse under træning af neurale netværk for at forhindre eksploderende gradienter.
Gradient descentGradient descent er en iterativ optimeringsalgoritme, der minimerer en funktion ved at opdatere parametre i modsat retning af gradienten af funktionen.
Gradient descent optimizerEn optimeringsalgoritme der iterativt minimerer en tabsfunktion ved at opdatere modellens parametre i retning af den negative gradient.
harmlessness trainingHarmlessness training er en træningsmetode, der reducerer sandsynligheden for, at en sprogmodel genererer skadeligt, giftigt eller farligt indhold.
hyperparameteroptimeringProces med at finde de optimale hyperparametre for en maskinlæringsmodel for at maksimere dens ydeevne.
incremental learningIncremental learning er en maskinlæringsteknik, hvor en model opdateres løbende med nye data uden at blive genoptrænet fra bunden, samtidig med at den bevarer tidligere erhvervet viden.
instruktions-fine-tuning-datasætEt datasæt af (instruktion, output)-par, der bruges til at finjustere en sprogmodel til at følge anvisninger.
Learning rateEn hyperparameter der styrer størrelsen af trinene mod en minimumsværdi af tabsfunktionen under træning af en model.
learning rate scheduleEn strategi til dynamisk at justere indlæringshastigheden under træning af en neural model for at forbedre konvergens.
LightningTrainerLightningTrainer er en central klasse i PyTorch Lightning, der automatiserer trænings-, validerings- og test-loops samt håndterer hardware-acceleration og distribuering.
linear warmupEn træningsteknik hvor learning rate lineært øges fra en startværdi til en mållæringrate over et bestemt antal trin.
LoRA-adapterEn LoRA-adapter er en metode til parameter-effektiv finjustering af store sprogmodeller, hvor en lille mængde trænbare parametre tilføjes i form af lav-rangs matricer, mens de oprindelige vægte fryses.
LoRA-opsætningsparameterEn hyperparameter, der specificeres ved opsætning af LoRA-fintuning, såsom rang (rank), skaleringsfaktor (alpha) og dropout.
masked language modelingMasked language modeling er en selvovervåget træningsmetode, hvor en model forudsiger tilfældigt maskerede tokens i en tekst baseret på konteksten.
mini batchMini batch er en delmængde af træningsdata, der bruges til at beregne gradienten og opdatere modelvægtene i én iteration under træning af neurale netværk.
mini-batch gradient descentEn optimeringsalgoritme, der opdaterer modelparametre ved at beregne gradienten over en lille delmængde (mini-batch) af træningsdataene ad gangen.
mini-batch SGDMini-batch SGD er en optimeringsalgoritme, der opdaterer modelvægte baseret på en lille delmængde (mini-batch) af træningsdata i stedet for hele datasættet eller enkelte eksempler.
mini-batch sizeMini-batch size er antallet af træningseksempler, der behandles i én iteration under gradientnedstigning.
modeltræningProcessen med at justere en models parametre, så den minimerer en tabsfunktion på træningsdata.
næste-sætnings-forudsigelseNæste-sætnings-forudsigelse er en træningsopgave, hvor en model lærer at afgøre, om en given sætning følger logisk efter en anden sætning.
optimizerEn optimizer er en algoritme, der opdaterer modelparametre under træning for at minimere tabet.
parameterfinjusteringParameterfinjustering er processen, hvor en allerede trænet model tilpasses til en ny, relateret opgave ved at fortsætte træningen med et mindre, opgavespecifikt datasæt, typisk med en lavere læringsrate.
parameteropdateringProces hvor modellens vægte justeres for at minimere tabsfunktionen under træning.
parameteropdateringsalgoritmeEn algoritme, der opdaterer en models parametre baseret på gradienten af tabsfunktionen for at minimere fejlen.
parameteropdateringsregelReglen der specificerer, hvordan en models parametre justeres baseret på gradienten af tabfunktionen under træning.
perceptron ruleEn læringsalgoritme for perceptroner, der justerer vægte kun ved fejlklassifikation.
pre-trainingProcessen, hvor en model trænes på en stor generel datasæt for at lære grundlæggende repræsentationer, før den finjusteres til en specifik opgave.
pretext-task lossPretext-task loss er tabsfunktionen, der optimeres under et forløbentræningsformål (pretext task) i selvovervåget læring for at lære repræsentationer fra umærkede data.
proximal policy optimizationEn policy-gradient-algoritme der stabiliserer træning ved at begrænse opdateringernes størrelse til et lille område omkring den nuværende policy.
præ-træningPræ-træning er den indledende fase i træningen af en maskinlæringsmodel, hvor modellen lærer fra et stort, generelt datasæt før den finjusteres til specifikke opgaver.
QLoRA-finjusteringQLoRA-finjustering er en metode til at finjustere store sprogmodeller ved at kombinere kvantisering (4-bit) med lav-rank adaptation (LoRA) for at reducere hukommelsesforbrug og beregningsomkostninger.
resume trainingGenoptagelse af modeltræning fra et gemt checkpoint i stedet for at starte forfra.
reward model trainingTræning af en belønningsmodel, der forudsiger menneskelige præferencer og bruges til at styre forstærkningslæring i RLHF.
RLHF-pipelineRLHF-pipeline er en træningsproces i tre trin, der bruger menneskelig feedback til at finjustere en sprogmodel via reinforcement learning.
RLHF-træningRLHF-træning er en metode til at finjustere sprogmodeller ved at kombinere reinforcement learning med menneskelig feedback.
Self-paced curriculum learningSelf-paced curriculum learning er en træningsstrategi, der dynamisk ordner træningseksempler efter sværhedsgrad og gradvist inkluderer sværere eksempler baseret på modellens nuværende præstation.
Self-supervised learningSelf-supervised learning er en maskinlæringsmetode, hvor modellen lærer repræsentationer fra umærkede data ved at udnytte strukturen i dataene selv til at generere et overvågningssignal.
SGDSGD er en optimeringsalgoritme, der opdaterer modelparametre ved at beregne gradienten af tabsfunktionen på en tilfældig stikprøve (mini-batch) i stedet for hele datasættet.
SGD med momentumOptimeringsteknik der tilføjer en momentumterm til SGD for at accelerere konvergensen og dæmpe oscillationer.
SGD med Nesterov-momentumStokastisk gradient descent med Nesterov-momentum er en optimeringsalgoritme, der anvender et forudsete opdateringstrin for at forbedre konvergenshastigheden.
SGD with momentumEn optimeringsalgoritme der tilføjer en hastighedskomponent til SGD for at dæmpe oscillationer og accelerere konvergens.
softmax-cross-entropySoftmax-cross-entropy er en losses-funktion, der kombinerer softmax-aktivering med cross-entropy-tab for flerklasseklassifikation.
sprogmodelstræningProcessen med at optimere en sprogmodels parametre ved hjælp af store tekstmængder, så den kan forudsige eller generere tekst.
Stokastisk backpropagationEn træningsalgoritme til neurale netværk, hvor gradienterne estimeres via stokastisk udvalgte mini-batches og anvendes til at opdatere vægtene via backpropagation.
teacher-student trainingEn træningsteknik, hvor en stor, prætrænet model (læreren) overfører sin viden til en mindre model (eleven) ved at guide elevens læring via lærerens outputfordelinger eller logits.
training strategiEn planlagt tilgang til træning af en maskinlæringsmodel, der omfatter valg af optimeringsalgoritme, læringshastighedsplan, batchstørrelse, regularisering og andre hyperparametre for at opnå bedst mulig ydeevne.
træningTræning er processen, hvor en maskinlæringsmodel lærer fra data ved at justere sine parametre for at minimere en tabsfunktion.
træningsloopDen iterative proces, hvor en model gentagne gange præsenteres for data, beregner tab, og opdaterer vægte via backpropagation.
valideringsdatasætEt datasæt der bruges til at evaluere en models præstation under træning uden at påvirke vægtene.
vægtjusteringVægtjustering er opdateringen af en models parametre baseret på gradienten af tabsfunktionen for at minimere fejl.
weight decay coefficientHyperparameter der bestemmer styrken af weight decay-regularisering under træning af neurale netværk.
weight decay rateEn hyperparameter der angiver styrken af weight decay, en regulariseringsteknik der tilføjer en straf for store vægte under træning.