sparse mixture of experts
forkortelse for SMoE
En neural netværksarkitektur, hvor kun en lille del af 'eksperterne' aktiveres for hvert input, hvilket reducerer beregningsomkostningerne.
Kort fortalt
Kort fortalt: en teknik, der opdeler modellen i mange specialiserede undernetværk (eksperter), men kun bruger et par af dem ad gangen for at spare tid og hukommelse.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En arkitektur i neurale netværk, hvor en gate-mekanisme dynamisk vælger en lille delmængde af eksperter til at behandle hvert input, typisk med en top-k-gating, hvilket gør modellen skalerbar og effektiv.
- Mixtral 8x7B er en sparsom blanding af eksperter med 8 eksperter, hvoraf 2 aktiveres pr. token. — Mistral AI, 2023
- Sparsom blanding af eksperter muliggør træning af meget store modeller med en brøkdel af beregningsomkostningerne. — Fedus et al., 2021
Hvornår bruges det
Bruges i store sprogmodeller (som Mixtral 8x7B) for at opnå høj kapacitet uden tilsvarende højt beregningsforbrug. Hver ekspert er specialiseret i forskellige typer input.
Oprindelse
Udtrykket stammer fra 'mixture of experts' (1991) med tilføjelsen 'sparse' for at fremhæve, at kun få eksperter aktiveres.
Afledte ord
3Kilder
2- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer