draft model
En mindre, hurtig sprogmodel der genererer foreløbige tokens som verificeres af en større målmodel for at accelerere inferens.
Kort fortalt
En lille model der hurtigt skriver et udkast, som en stor model bagefter godkender eller retter – det gør sprogmodeller hurtigere.
- Kategori
- teknik
- Niveau
- ekspert
Betydninger
1- 1
En kompakt, hurtig sprogmodel der bruges til at generere et sæt af kandidattokens i spekulativ dekodering, hvorefter en større målmodel accepterer eller afviser dem.
- Draft-modellen foreslog fem tokens, men målmodellen accepterede kun de tre første og genererede resten selv.
- Ved at bruge en 125M-parameter draft-model kunne vi opnå en 2x speedup i inferensen af en 7B-parameter målmodel.
Hvornår bruges det
Draft-modellen bruges i spekulativ dekodering til at foreslå flere tokens i ét træk; målmodellen verificerer derefter forslaget parallelt. Teknikken er særligt nyttig når inferens skal speedes op uden at gå på kompromis med kvaliteten, og den anvendes ofte i produktionssystemer med store sprogmodeller.
Oprindelse
Fra engelsk 'draft' (udkast) og 'model', fordi modellen laver et foreløbigt udkast til tokens.
Afledte ord
1Kilder
2- Fast Inference from Transformers via Speculative Decoding (Leviathan et al., 2022)
- Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads (Cai et al., 2024)