sparse mixture of experts

forkortelse for SMoE

En neural netværksarkitektur, hvor kun en lille del af 'eksperterne' aktiveres for hvert input, hvilket reducerer beregningsomkostningerne.

Kort fortalt

Kort fortalt: en teknik, der opdeler modellen i mange specialiserede undernetværk (eksperter), men kun bruger et par af dem ad gangen for at spare tid og hukommelse.

Kategori: arkitektur
Niveau: øvet

Betydninger

1
En arkitektur i neurale netværk, hvor en gate-mekanisme dynamisk vælger en lille delmængde af eksperter til at behandle hvert input, typisk med en top-k-gating, hvilket gør modellen skalerbar og effektiv.
- Mixtral 8x7B er en sparsom blanding af eksperter med 8 eksperter, hvoraf 2 aktiveres pr. token. — Mistral AI, 2023
- Sparsom blanding af eksperter muliggør træning af meget store modeller med en brøkdel af beregningsomkostningerne. — Fedus et al., 2021

Hvornår bruges det

Bruges i store sprogmodeller (som Mixtral 8x7B) for at opnå høj kapacitet uden tilsvarende højt beregningsforbrug. Hver ekspert er specialiseret i forskellige typer input.

Oprindelse

Udtrykket stammer fra 'mixture of experts' (1991) med tilføjelsen 'sparse' for at fremhæve, at kun få eksperter aktiveres.

Afledte ord

top-k gating MoE layer expert network

Kilder

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i arkitektur →Tilfældigt opslag →