ekspert
32 termer- Chinchilla scaling lawEn empirisk lov fra DeepMinds Chinchilla-studie, der siger at modelstørrelse og mængden af træningsdata skal skaleres i samme takt for at opnå optimal ydeevne inden for et givet compute-budget.
- Compute-optimal scalingMetode til at bestemme den optimale fordeling af en given beregningsressource mellem modelstørrelse og træningsdata for at opnå den laveste tabsfunktion.
- deep deterministic policy gradientDeep Deterministic Policy Gradient (DDPG) er en reinforcement learning-algoritme, der kombinerer Q-learning med en deterministisk politik (policy) i et actor-critic-rammeværk til kontinuerte handlingsrum.
- draft modelEn mindre, hurtig sprogmodel der genererer foreløbige tokens som verificeres af en større målmodel for at accelerere inferens.
- ELBOELBO er en nedre grænse for log-sandsynligheden af observerede data, der bruges i variational inference til at approksimere intractable posterior-fordelinger.
- ELBO-decompositionOpdeling af ELBO (Evidence Lower Bound) i komponenter, typisk rekonstruktionsterm og KL-divergens, for at forstå og optimere variational inference-modeller.
- forward-mode ADEn teknik inden for automatisk differentiering, hvor derivater beregnes ved at propagere tangentinformation fremad gennem beregningsgrafen, én uafhængig variabel ad gangen.
- internal covariate shiftInternal covariate shift beskriver fænomenet, hvor fordelingen af input til et lag i et neuralt netværk ændrer sig under træning, fordi parametrene i tidligere lag opdateres.
- Langevin dynamicsLangevin dynamics er en stokastisk differentialligningsbaseret metode til at generere prøver fra en sandsynlighedsfordeling ved at tilføje støj til gradienten af fordelingens energi.
- Layer normalizationLayer normalization er en normaliseringsteknik, der standardiserer aktiveringerne over feature-dimensionen for hvert træningseksempel ved at trække middelværdien og dividere med standardafvigelsen.
- LoRA-alphaEn hyperparameter i LoRA, der skalerer den lavrangs-opdatering af vægtene under finjustering.
- MambaMamba er en state space model-arkitektur designet til effektiv sekvensmodellering med lineær kompleksitet i sekvenslængden, der anvender en selektiv mekanisme til at fokusere på relevant information.
- MambaMamba er en modelarkitektur til sekvensmodellering baseret på selective state space models, der opnår lineær kompleksitet og overgår Transformers på langtrækkende opgaver.
- Mamba-2Mamba-2 er en state space model (SSM) med en selektiv mekanisme, der forbedrer effektiviteten for lange sekvenser ved at eliminere softmax-opmærksomhed.
- Mamba-2-arkitekturMamba-2 er en state space model (SSM) arkitektur, der forbedrer Mamba ved at introducere state space duality (SSD) for effektiv sekventiel behandling uden opmærksomhedsmekanismer.
- maskeret multi-head self-attentionEn mekanisme i neurale netværk, hvor opmærksomhedsberegningen begrænses til en specifik del af inputsekvensen ved hjælp af en maske, samtidig med at opmærksomheden opdeles i flere uafhængige hoveder.
- MuZero-netværkMuZero er en forstærkende læringsalgoritme, der kombinerer Monte Carlo-træsøgning med et lært dynamikmodel i latent rum uden adgang til miljøets regler.
- neural scaling lawsEmpiriske love, der beskriver, hvordan en neurale models ydelse (fx test-loss) skalerer som en potenslov med modelstørrelse, datamængde og beregningsressourcer.
- recurrent state space modelEn modelklasse der kombinerer et tilbagevendende neuralt netværk med en tilstandsrummodel for at lære latente repræsentationer af sekventielle data og forudsige fremtidige tilstande.
- reparameterization trickEn teknik til at omparametrisere stokastiske variable, så gradienter kan estimeres ved backpropagation i neurale netværk.
- S4S4 er en modelarkitektur baseret på strukturerede tilstandsrum, designet til effektiv behandling af lange sekvenser med lineær eller nær-lineær kompleksitet.
- score-based generative modelEn generativ model der lærer gradienten af log-sandsynlighedstætheden (score-funktionen) og genererer samples via Langevin-dynamik.
- selective scanSelektiv scanning er en mekanisme i state space-modeller, der dynamisk vælger hvilke input-tokens der skal behandles, baseret på deres relevans, for at forbedre effektiviteten over lange sekvenser.
- selektiv tilstandsmodel-arkitekturEn neurale netværksarkitektur, der anvender en selektionsmekanisme i tilstandsrummet til at filtrere irrelevante input og opnå effektiv sekvensbehandling.
- skaleringslov-koefficienterEksponentielle parametre i skaleringslove, der beskriver, hvordan modelfejl (loss) aftager med stigende modelstørrelse, datamængde eller træningsberegning.
- Structured State Space ModelEn sekvensmodel der bruger lineære dynamiske systemer til effektiv langtidsafhængighedsmodellering.
- struktureret tilstandsmodelEn arkitektur for sekvensmodellering der repræsenterer skjulte tilstande via et struktureret lineært system og opnår lineær kompleksitet i sekvenslængden.
- SuperalignmentSuperalignment betegner problemet med at sikre, at kunstig intelligens, der overgår menneskelig intelligens, handler i overensstemmelse med menneskelige værdier og intentioner.
- Switch TransformerSwitch Transformer er en transformerarkitektur, der anvender en blanding af eksperter (MoE) med en 'switch'-routing, hvor hver token kun sendes til én ekspert, hvilket muliggør effektiv skalering til trillioner af parametre.
- TPU-v2 podEn TPU-v2 pod er en samling af 64 TPU v2-chips arrangeret i et 4x4-netværk, designet til at udføre store maskinlæringsopgaver med høj gennemstrømning.
- VQ-VAEVQ-VAE er en type variational autoencoder der anvender vektorkvantisering til at lære diskrete latente repræsentationer.
- WGAN-GPWGAN-GP er en forbedret version af Wasserstein GAN, der anvender en gradientstraffunktion (gradient penalty) i stedet for vægtklipning for at opfylde Lipschitz-betingelsen.