Top-k

Selektions- eller samplingmetode, hvor kun de k mest sandsynlige elementer (f.eks. tokens eller dokumenter) bevares.

Kort fortalt

Top-k betyder, at man vælger de k bedste eller mest sandsynlige muligheder og ignorerer resten.

Kategori
teknik
Niveau
øvet

Betydninger

2
  1. 1

    Samplingmetode til sprogmodeller, hvor sandsynlighedsfordelingen over næste token begrænses til de k tokens med højest sandsynlighed, og sandsynlighederne renormaliseres.

    • Ved at bruge top-k sampling med k=40 undgår modellen at vælge meget usandsynlige tokens.
  2. 2

    Selektionsmetode i informationssøgning og retrieval-augmented generation, hvor de k mest relevante dokumenter eller fragmenter vælges blandt en større mængde.

    • I RAG-pipelinen anvendes top-k til at vælge de tre mest relevante afsnit fra videnbasen.

Hvornår bruges det

Bruges ofte i sprogmodeller til at begrænse næste-token-sampling til de k mest sandsynlige tokens, hvilket reducerer risikoen for at vælge usandsynlige ord. Anvendes også i retrieval-augmented generation (RAG) til at vælge de k mest relevante dokumenter.

Kodeeksempel

from transformers import pipeline
generator = pipeline('text-generation', model='gpt2')
output = generator('Once upon a time', do_sample=True, top_k=50, max_length=50)
print(output)

Eksempel på top-k sampling med en GPT-2 model, hvor kun de 50 mest sandsynlige tokens overvejes ved hvert trin.

Oprindelse

Udtrykket kommer fra engelsk 'top' (top, bedst) og 'k' som en variabel for antal.

Afledte ord

2