Instruction fine-tuning
En teknik hvor en prætrænet sprogmodel viderefinjusteres på et datasæt af instruktioner og forventede svar for at forbedre dens evne til at følge instruktioner.
Kort fortalt
Kort fortalt: Man træner en stor sprogmodel videre på eksempler, hvor den skal lære at udføre specifikke opgaver ud fra instruktioner.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En finjusteringsmetode, hvor en prætrænet sprogmodel trænes på et datasæt bestående af (instruktion, output)-par for at lære at generere relevante svar baseret på instruktioner.
- Instruktionsfinjustering af GPT-3 på et datasæt med tusindvis af opgaver resulterede i InstructGPT, som markant forbedrede evnen til at følge brugerens instruktioner. — InstructGPT paper, 2022
Hvornår bruges det
Instruktionsfinjustering bruges typisk efter en indledende prætræning for at gøre modellen bedre til at forstå og udføre opgaver beskrevet i naturligt sprog, f.eks. til chatbots eller assistenter. Det er en vigtig del af at tilpasse modellen til menneskelige forventninger.
Oprindelse
Udtrykket stammer fra forskning i at forbedre sprogmodellers evne til at følge instruktioner, bl.a. gennem arbejde med FLAN (Fine-tuned Language Net) og InstructGPT.
Afledte ord
1Kilder
2- Training language models to follow instructions with human feedback (InstructGPT)
- FLAN: Finetuned Language Models Are Zero-Shot Learners