Top-k
Selektions- eller samplingmetode, hvor kun de k mest sandsynlige elementer (f.eks. tokens eller dokumenter) bevares.
Kort fortalt
Top-k betyder, at man vælger de k bedste eller mest sandsynlige muligheder og ignorerer resten.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
2- 1
Samplingmetode til sprogmodeller, hvor sandsynlighedsfordelingen over næste token begrænses til de k tokens med højest sandsynlighed, og sandsynlighederne renormaliseres.
- Ved at bruge top-k sampling med k=40 undgår modellen at vælge meget usandsynlige tokens.
- 2
Selektionsmetode i informationssøgning og retrieval-augmented generation, hvor de k mest relevante dokumenter eller fragmenter vælges blandt en større mængde.
- I RAG-pipelinen anvendes top-k til at vælge de tre mest relevante afsnit fra videnbasen.
Hvornår bruges det
Bruges ofte i sprogmodeller til at begrænse næste-token-sampling til de k mest sandsynlige tokens, hvilket reducerer risikoen for at vælge usandsynlige ord. Anvendes også i retrieval-augmented generation (RAG) til at vælge de k mest relevante dokumenter.
Kodeeksempel
from transformers import pipeline
generator = pipeline('text-generation', model='gpt2')
output = generator('Once upon a time', do_sample=True, top_k=50, max_length=50)
print(output)Eksempel på top-k sampling med en GPT-2 model, hvor kun de 50 mest sandsynlige tokens overvejes ved hvert trin.
Oprindelse
Udtrykket kommer fra engelsk 'top' (top, bedst) og 'k' som en variabel for antal.