ekspert

32 termer

Chinchilla scaling lawEn empirisk lov fra DeepMinds Chinchilla-studie, der siger at modelstørrelse og mængden af træningsdata skal skaleres i samme takt for at opnå optimal ydeevne inden for et givet compute-budget.
Compute-optimal scalingMetode til at bestemme den optimale fordeling af en given beregningsressource mellem modelstørrelse og træningsdata for at opnå den laveste tabsfunktion.
deep deterministic policy gradientDeep Deterministic Policy Gradient (DDPG) er en reinforcement learning-algoritme, der kombinerer Q-learning med en deterministisk politik (policy) i et actor-critic-rammeværk til kontinuerte handlingsrum.
draft modelEn mindre, hurtig sprogmodel der genererer foreløbige tokens som verificeres af en større målmodel for at accelerere inferens.
ELBOELBO er en nedre grænse for log-sandsynligheden af observerede data, der bruges i variational inference til at approksimere intractable posterior-fordelinger.
ELBO-decompositionOpdeling af ELBO (Evidence Lower Bound) i komponenter, typisk rekonstruktionsterm og KL-divergens, for at forstå og optimere variational inference-modeller.
forward-mode ADEn teknik inden for automatisk differentiering, hvor derivater beregnes ved at propagere tangentinformation fremad gennem beregningsgrafen, én uafhængig variabel ad gangen.
internal covariate shiftInternal covariate shift beskriver fænomenet, hvor fordelingen af input til et lag i et neuralt netværk ændrer sig under træning, fordi parametrene i tidligere lag opdateres.
Langevin dynamicsLangevin dynamics er en stokastisk differentialligningsbaseret metode til at generere prøver fra en sandsynlighedsfordeling ved at tilføje støj til gradienten af fordelingens energi.
Layer normalizationLayer normalization er en normaliseringsteknik, der standardiserer aktiveringerne over feature-dimensionen for hvert træningseksempel ved at trække middelværdien og dividere med standardafvigelsen.
LoRA-alphaEn hyperparameter i LoRA, der skalerer den lavrangs-opdatering af vægtene under finjustering.
MambaMamba er en state space model-arkitektur designet til effektiv sekvensmodellering med lineær kompleksitet i sekvenslængden, der anvender en selektiv mekanisme til at fokusere på relevant information.
MambaMamba er en modelarkitektur til sekvensmodellering baseret på selective state space models, der opnår lineær kompleksitet og overgår Transformers på langtrækkende opgaver.
Mamba-2Mamba-2 er en state space model (SSM) med en selektiv mekanisme, der forbedrer effektiviteten for lange sekvenser ved at eliminere softmax-opmærksomhed.
Mamba-2-arkitekturMamba-2 er en state space model (SSM) arkitektur, der forbedrer Mamba ved at introducere state space duality (SSD) for effektiv sekventiel behandling uden opmærksomhedsmekanismer.
maskeret multi-head self-attentionEn mekanisme i neurale netværk, hvor opmærksomhedsberegningen begrænses til en specifik del af inputsekvensen ved hjælp af en maske, samtidig med at opmærksomheden opdeles i flere uafhængige hoveder.
MuZero-netværkMuZero er en forstærkende læringsalgoritme, der kombinerer Monte Carlo-træsøgning med et lært dynamikmodel i latent rum uden adgang til miljøets regler.
neural scaling lawsEmpiriske love, der beskriver, hvordan en neurale models ydelse (fx test-loss) skalerer som en potenslov med modelstørrelse, datamængde og beregningsressourcer.
recurrent state space modelEn modelklasse der kombinerer et tilbagevendende neuralt netværk med en tilstandsrummodel for at lære latente repræsentationer af sekventielle data og forudsige fremtidige tilstande.
reparameterization trickEn teknik til at omparametrisere stokastiske variable, så gradienter kan estimeres ved backpropagation i neurale netværk.
S4S4 er en modelarkitektur baseret på strukturerede tilstandsrum, designet til effektiv behandling af lange sekvenser med lineær eller nær-lineær kompleksitet.
score-based generative modelEn generativ model der lærer gradienten af log-sandsynlighedstætheden (score-funktionen) og genererer samples via Langevin-dynamik.
selective scanSelektiv scanning er en mekanisme i state space-modeller, der dynamisk vælger hvilke input-tokens der skal behandles, baseret på deres relevans, for at forbedre effektiviteten over lange sekvenser.
selektiv tilstandsmodel-arkitekturEn neurale netværksarkitektur, der anvender en selektionsmekanisme i tilstandsrummet til at filtrere irrelevante input og opnå effektiv sekvensbehandling.
skaleringslov-koefficienterEksponentielle parametre i skaleringslove, der beskriver, hvordan modelfejl (loss) aftager med stigende modelstørrelse, datamængde eller træningsberegning.
Structured State Space ModelEn sekvensmodel der bruger lineære dynamiske systemer til effektiv langtidsafhængighedsmodellering.
struktureret tilstandsmodelEn arkitektur for sekvensmodellering der repræsenterer skjulte tilstande via et struktureret lineært system og opnår lineær kompleksitet i sekvenslængden.
SuperalignmentSuperalignment betegner problemet med at sikre, at kunstig intelligens, der overgår menneskelig intelligens, handler i overensstemmelse med menneskelige værdier og intentioner.
Switch TransformerSwitch Transformer er en transformerarkitektur, der anvender en blanding af eksperter (MoE) med en 'switch'-routing, hvor hver token kun sendes til én ekspert, hvilket muliggør effektiv skalering til trillioner af parametre.
TPU-v2 podEn TPU-v2 pod er en samling af 64 TPU v2-chips arrangeret i et 4x4-netværk, designet til at udføre store maskinlæringsopgaver med høj gennemstrømning.
VQ-VAEVQ-VAE er en type variational autoencoder der anvender vektorkvantisering til at lære diskrete latente repræsentationer.
WGAN-GPWGAN-GP er en forbedret version af Wasserstein GAN, der anvender en gradientstraffunktion (gradient penalty) i stedet for vægtklipning for at opfylde Lipschitz-betingelsen.