inferens acceleration

Teknikker til at øge hastigheden af inferens i neurale netværk uden at ændre modelarkitekturen væsentligt.

Kort fortalt

Metoder som gør at en AI-model kan give svar hurtigere, fx ved at omregne vægte til mindre talformat eller fjerne unødvendige beregninger.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Samling af optimeringsteknikker (fx kvantisering, pruning, modelkompilering) der reducerer inferenstid og ressourceforbrug for neurale netværk.

    • Ved hjælp af inferens acceleration kan en sprogmodel generere tekst 10 gange hurtigere.
    • GPU-acceleration er en central komponent i inferens acceleration.

Hvornår bruges det

Anvendes når en model skal køre i realtid på enheder med begrænset regnekraft, som mobiltelefoner eller servere med mange forespørgsler. Typisk i kombination med hardwareacceleration som GPU eller TPU.

Kodeeksempel

import torch
model = torch.nn.Linear(10, 10).eval()
traced_model = torch.jit.trace(model, torch.randn(1, 10))
traced_model.save("traced.pt")

Eksempel på brug af TorchScript til at optimere en model for hurtigere inferens.

Oprindelse

Sammensat af 'inferens' (slutning) og 'acceleration' (hastighedsforøgelse).

Kilder

2