model parallelism

Modelparallelisme er en teknik til at fordele en stor neurale netværksmodel på tværs af flere enheder ved at opdele selve modellen i dele.

Kort fortalt

Kort fortalt: Modellen deles op, så hver GPU eller processor kun har en del af modellen, hvilket gør det muligt at træne modeller der er for store til at være på én enhed.

Kategori
teknik
Niveau
øvet
Udtale
/ˈmɒdəl ˈpærəlɛlɪzəm/

Betydninger

1
  1. 1

    Distribueret træningsteknik, hvor en neuralnetværksmodel opdeles i sektioner, der placeres på forskellige beregningsenheder, så hver enhed kun håndterer en del af modellens parametre og beregninger.

    • I store sprogmodeller som GPT-3 anvendes modelparallelisme til at håndtere de enorme mængder parametre.Brown et al., 2020
    • Modelparallelisme kræver nøje planlægning af kommunikation mellem enhederne for at undgå flaskehalse.

Hvornår bruges det

Modelparallelisme bruges når modellen er så stor, at den ikke får plads i hukommelsen på én GPU. Det er typisk for store sprogmodeller eller andre dybe netværk med mange parametre. Udfordringen er at koordinere kommunikationen mellem de dele, der kører på forskellige enheder.

Oprindelse

Udtrykket kommer af 'model' og 'parallelisme', og opstod som en løsning på begrænsningerne i GPU-hukommelse ved træning af meget store neurale netværk.

Afledte ord

2

Kilder

2
  • Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
  • GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism