distribueret GPU-klynge

En samling af flere GPU'er forbundet via et højhastighedsnetværk, der arbejder som én enhed for at udføre parallelle beregninger.

Kort fortalt

Det er en måde at koble flere grafikkort sammen, så de kan løse store beregningsopgaver hurtigere end én GPU alene.

Kategori
arkitektur
Niveau
øvet

Betydninger

1
  1. 1

    En hardwarearkitektur, hvor flere GPU'er netværksforbindes for at samarbejde om parallelle beregninger.

    • Virksomheden investerede i en distribueret GPU-klynge til at træne deres sprogmodel.
    • Distribuerede GPU-klynger reducerer træningstiden for store neurale netværk betydeligt.

Hvornår bruges det

Distribuerede GPU-klynger bruges især til træning af store deep learning-modeller, hvor en enkelt GPU ikke er tilstrækkelig. Kræver software som TensorFlow eller PyTorch med indbygget understøttelse af distribueret træning.

Kodeeksempel

torchrun --nnodes=4 --nproc_per_node=8 --rdzv_endpoint=master:29300 train.py

Kommando til at starte distribueret træning på en klynge med 4 noder, hver med 8 GPU'er.

Oprindelse

Sammensat af 'distribueret' (fra latin distribuere, 'fordele') og 'GPU-klynge', hvor GPU står for Graphics Processing Unit og 'klynge' fra engelsk cluster.