load balancing

Fordeling af arbejdsbyrde (beregning, data) på tværs af flere ressourcer (GPU'er, servere) for at optimere ydeevne og undgå overbelastning.

Kort fortalt

Load balancing handler om at fordele opgaver jævnt mellem flere maskiner eller GPU'er, så ingen enkelt enhed bliver en flaskehals.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Teknik til at fordele beregningsopgaver eller data jævnt over flere ressourcer (GPU'er, CPU'er, servere) for at maksimere gennemløb, minimere responstid og undgå overbelastning af enkelte enheder.

    • Ved træning af en stor sprogmodel på 64 GPU'er sikrer load balancing, at hver GPU får omtrent lige mange tokens pr. batch.
    • En load balancer placeret foran en klynge af inferensservere dirigerer indkommende forespørgsler til den mindst belastede server.

Hvornår bruges det

I AI-systemer bruges load balancing især ved træning af store modeller på tværs af GPU-klynger eller ved inferens i produktionsmiljøer med høj trafik. Det kan implementeres på hardwareniveau (f.eks. med en load balancer) eller i software (f.eks. dynamisk opgavestyring).

Oprindelse

Udtrykket stammer fra datalogi og netværksteknik, hvor det betegner fordeling af trafik eller beregninger.

Afledte ord

3