modelkomprimering

Modelkomprimering er en samling af teknikker til at reducere størrelsen og beregningskompleksiteten af en trænet maskinlæringsmodel uden væsentligt tab af præcision.

Kort fortalt

Kort fortalt gør modelkomprimering en stor AI-model mindre og hurtigere, så den kan køre på fx en mobiltelefon i stedet for en supercomputer.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Reduktion af en maskinlæringsmodels lagerstørrelse, hukommelsesforbrug og/eller inferenstid ved hjælp af teknikker som pruning (beskæring af vægte), kvantisering (reduktion af præcision) og knowledge distillation (destillation af viden).

    • Ved at anvende modelkomprimering kunne vi reducere modellens størrelse fra 500 MB til 50 MB uden signifikant præcisionstab.
    • Deep compression-teknikken kombinerer pruning, kvantisering og Huffman-kodning for at opnå høj komprimering.Han et al., 2015

Hvornår bruges det

Modelkomprimering bruges når en model skal implementeres på ressourcebegrænsede enheder som smartphones, IoT-enheder eller edge-servere. Teknikker som pruning, kvantisering og knowledge distillation anvendes ofte i kombination for at opnå maksimal kompression.

Oprindelse

dannet af 'model' og 'komprimering', efter engelsk 'model compression'.

Kilder

2
  • Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding (Han et al., 2015)
  • Model Compression (Buciluă et al., 2006)