conditional computation

Conditional computation er en teknik i neurale netværk, hvor kun en delmængde af modellens parametre aktiveres baseret på input, hvilket reducerer beregningsomkostningerne.

Kort fortalt

Kort fortalt: I stedet for at bruge hele den store model på alt, vælger en 'gate'-mekanisme kun de relevante dele til hvert input, så modellen bliver hurtigere og mere effektiv.

Kategori: teknik
Niveau: øvet
Udtale: /kənˈdɪʃ.ən.əl ˌkɒm.pjʊˈteɪ.ʃən/

Betydninger

1
En teknik i neurale netværk, hvor beregningen afhænger af inputdata; en gate-mekanisme vælger, hvilke dele af netværket (f.eks. eksperter i MoE) der skal aktiveres for hvert enkelt input.
- Mixture of Experts-modeller anvender conditional computation for kun at aktivere et lille antal eksperter pr. input, hvilket reducerer beregningsomkostningerne markant. — Shazeer et al., 2017
- Ved at implementere conditional computation kan man skalere modellen i størrelse uden at øge flops tilsvarende.

Hvornår bruges det

Conditional computation anvendes primært i store sprogmodeller og multi-task modeller for at spare beregningsressourcer. Det implementeres ofte via Mixture of Experts (MoE), hvor en router bestemmer, hvilke eksperter der skal aktiveres for et givet input. Det er særligt nyttigt, når modellen skal håndtere heterogene data eller mange opgaver uden at fordoble beregningerne.

Oprindelse

Udtrykket er sammensat af 'conditional' (betinget) og 'computation' (beregning) og blev populært inden for deep learning i 2010'erne, især med MoE-arkitekturer.

Afledte ord

conditional routing

Kilder

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (2017)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →