draft model

En mindre, hurtig sprogmodel der genererer foreløbige tokens som verificeres af en større målmodel for at accelerere inferens.

Kort fortalt

En lille model der hurtigt skriver et udkast, som en stor model bagefter godkender eller retter – det gør sprogmodeller hurtigere.

Kategori
teknik
Niveau
ekspert

Betydninger

1
  1. 1

    En kompakt, hurtig sprogmodel der bruges til at generere et sæt af kandidattokens i spekulativ dekodering, hvorefter en større målmodel accepterer eller afviser dem.

    • Draft-modellen foreslog fem tokens, men målmodellen accepterede kun de tre første og genererede resten selv.
    • Ved at bruge en 125M-parameter draft-model kunne vi opnå en 2x speedup i inferensen af en 7B-parameter målmodel.

Hvornår bruges det

Draft-modellen bruges i spekulativ dekodering til at foreslå flere tokens i ét træk; målmodellen verificerer derefter forslaget parallelt. Teknikken er særligt nyttig når inferens skal speedes op uden at gå på kompromis med kvaliteten, og den anvendes ofte i produktionssystemer med store sprogmodeller.

Oprindelse

Fra engelsk 'draft' (udkast) og 'model', fordi modellen laver et foreløbigt udkast til tokens.

Afledte ord

1

Kilder

2
  • Fast Inference from Transformers via Speculative Decoding (Leviathan et al., 2022)
  • Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads (Cai et al., 2024)