model parallelism
Modelparallelisme er en teknik til at fordele en stor neurale netværksmodel på tværs af flere enheder ved at opdele selve modellen i dele.
Kort fortalt
Kort fortalt: Modellen deles op, så hver GPU eller processor kun har en del af modellen, hvilket gør det muligt at træne modeller der er for store til at være på én enhed.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈmɒdəl ˈpærəlɛlɪzəm/
Betydninger
1- 1
Distribueret træningsteknik, hvor en neuralnetværksmodel opdeles i sektioner, der placeres på forskellige beregningsenheder, så hver enhed kun håndterer en del af modellens parametre og beregninger.
- I store sprogmodeller som GPT-3 anvendes modelparallelisme til at håndtere de enorme mængder parametre. — Brown et al., 2020
- Modelparallelisme kræver nøje planlægning af kommunikation mellem enhederne for at undgå flaskehalse.
Hvornår bruges det
Modelparallelisme bruges når modellen er så stor, at den ikke får plads i hukommelsen på én GPU. Det er typisk for store sprogmodeller eller andre dybe netværk med mange parametre. Udfordringen er at koordinere kommunikationen mellem de dele, der kører på forskellige enheder.
Oprindelse
Udtrykket kommer af 'model' og 'parallelisme', og opstod som en løsning på begrænsningerne i GPU-hukommelse ved træning af meget store neurale netværk.
Afledte ord
2Kilder
2- Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism