Instruction fine-tuning

En teknik hvor en prætrænet sprogmodel viderefinjusteres på et datasæt af instruktioner og forventede svar for at forbedre dens evne til at følge instruktioner.

Kort fortalt

Kort fortalt: Man træner en stor sprogmodel videre på eksempler, hvor den skal lære at udføre specifikke opgaver ud fra instruktioner.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En finjusteringsmetode, hvor en prætrænet sprogmodel trænes på et datasæt bestående af (instruktion, output)-par for at lære at generere relevante svar baseret på instruktioner.

    • Instruktionsfinjustering af GPT-3 på et datasæt med tusindvis af opgaver resulterede i InstructGPT, som markant forbedrede evnen til at følge brugerens instruktioner.InstructGPT paper, 2022

Hvornår bruges det

Instruktionsfinjustering bruges typisk efter en indledende prætræning for at gøre modellen bedre til at forstå og udføre opgaver beskrevet i naturligt sprog, f.eks. til chatbots eller assistenter. Det er en vigtig del af at tilpasse modellen til menneskelige forventninger.

Oprindelse

Udtrykket stammer fra forskning i at forbedre sprogmodellers evne til at følge instruktioner, bl.a. gennem arbejde med FLAN (Fine-tuned Language Net) og InstructGPT.

Afledte ord

1

Kilder

2
  • Training language models to follow instructions with human feedback (InstructGPT)
  • FLAN: Finetuned Language Models Are Zero-Shot Learners