conditional computation
Conditional computation er en teknik i neurale netværk, hvor kun en delmængde af modellens parametre aktiveres baseret på input, hvilket reducerer beregningsomkostningerne.
Kort fortalt
Kort fortalt: I stedet for at bruge hele den store model på alt, vælger en 'gate'-mekanisme kun de relevante dele til hvert input, så modellen bliver hurtigere og mere effektiv.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /kənˈdɪʃ.ən.əl ˌkɒm.pjʊˈteɪ.ʃən/
Betydninger
1- 1
En teknik i neurale netværk, hvor beregningen afhænger af inputdata; en gate-mekanisme vælger, hvilke dele af netværket (f.eks. eksperter i MoE) der skal aktiveres for hvert enkelt input.
- Mixture of Experts-modeller anvender conditional computation for kun at aktivere et lille antal eksperter pr. input, hvilket reducerer beregningsomkostningerne markant. — Shazeer et al., 2017
- Ved at implementere conditional computation kan man skalere modellen i størrelse uden at øge flops tilsvarende.
Hvornår bruges det
Conditional computation anvendes primært i store sprogmodeller og multi-task modeller for at spare beregningsressourcer. Det implementeres ofte via Mixture of Experts (MoE), hvor en router bestemmer, hvilke eksperter der skal aktiveres for et givet input. Det er særligt nyttigt, når modellen skal håndtere heterogene data eller mange opgaver uden at fordoble beregningerne.
Oprindelse
Udtrykket er sammensat af 'conditional' (betinget) og 'computation' (beregning) og blev populært inden for deep learning i 2010'erne, især med MoE-arkitekturer.