inferens acceleration
Teknikker til at øge hastigheden af inferens i neurale netværk uden at ændre modelarkitekturen væsentligt.
Kort fortalt
Metoder som gør at en AI-model kan give svar hurtigere, fx ved at omregne vægte til mindre talformat eller fjerne unødvendige beregninger.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Samling af optimeringsteknikker (fx kvantisering, pruning, modelkompilering) der reducerer inferenstid og ressourceforbrug for neurale netværk.
- Ved hjælp af inferens acceleration kan en sprogmodel generere tekst 10 gange hurtigere.
- GPU-acceleration er en central komponent i inferens acceleration.
Hvornår bruges det
Anvendes når en model skal køre i realtid på enheder med begrænset regnekraft, som mobiltelefoner eller servere med mange forespørgsler. Typisk i kombination med hardwareacceleration som GPU eller TPU.
Kodeeksempel
import torch
model = torch.nn.Linear(10, 10).eval()
traced_model = torch.jit.trace(model, torch.randn(1, 10))
traced_model.save("traced.pt")Eksempel på brug af TorchScript til at optimere en model for hurtigere inferens.
Oprindelse
Sammensat af 'inferens' (slutning) og 'acceleration' (hastighedsforøgelse).