distribueret GPU-klynge
En samling af flere GPU'er forbundet via et højhastighedsnetværk, der arbejder som én enhed for at udføre parallelle beregninger.
Kort fortalt
Det er en måde at koble flere grafikkort sammen, så de kan løse store beregningsopgaver hurtigere end én GPU alene.
- Kategori
- arkitektur
- Niveau
- øvet
Betydninger
1- 1
En hardwarearkitektur, hvor flere GPU'er netværksforbindes for at samarbejde om parallelle beregninger.
- Virksomheden investerede i en distribueret GPU-klynge til at træne deres sprogmodel.
- Distribuerede GPU-klynger reducerer træningstiden for store neurale netværk betydeligt.
Hvornår bruges det
Distribuerede GPU-klynger bruges især til træning af store deep learning-modeller, hvor en enkelt GPU ikke er tilstrækkelig. Kræver software som TensorFlow eller PyTorch med indbygget understøttelse af distribueret træning.
Kodeeksempel
torchrun --nnodes=4 --nproc_per_node=8 --rdzv_endpoint=master:29300 train.pyKommando til at starte distribueret træning på en klynge med 4 noder, hver med 8 GPU'er.
Oprindelse
Sammensat af 'distribueret' (fra latin distribuere, 'fordele') og 'GPU-klynge', hvor GPU står for Graphics Processing Unit og 'klynge' fra engelsk cluster.