sparse mixture of experts

forkortelse for SMoE

En neural netværksarkitektur, hvor kun en lille del af 'eksperterne' aktiveres for hvert input, hvilket reducerer beregningsomkostningerne.

Kort fortalt

Kort fortalt: en teknik, der opdeler modellen i mange specialiserede undernetværk (eksperter), men kun bruger et par af dem ad gangen for at spare tid og hukommelse.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En arkitektur i neurale netværk, hvor en gate-mekanisme dynamisk vælger en lille delmængde af eksperter til at behandle hvert input, typisk med en top-k-gating, hvilket gør modellen skalerbar og effektiv.

    • Mixtral 8x7B er en sparsom blanding af eksperter med 8 eksperter, hvoraf 2 aktiveres pr. token.Mistral AI, 2023
    • Sparsom blanding af eksperter muliggør træning af meget store modeller med en brøkdel af beregningsomkostningerne.Fedus et al., 2021

Hvornår bruges det

Bruges i store sprogmodeller (som Mixtral 8x7B) for at opnå høj kapacitet uden tilsvarende højt beregningsforbrug. Hver ekspert er specialiseret i forskellige typer input.

Oprindelse

Udtrykket stammer fra 'mixture of experts' (1991) med tilføjelsen 'sparse' for at fremhæve, at kun få eksperter aktiveres.

Afledte ord

3

Kilder

2
  • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  • Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer