preference optimization
En træningsteknik, der justerer en models adfærd baseret på præferencedata, typisk i form af parvis sammenligning af output.
Kort fortalt
Preference optimization betyder at træne en AI til at foretrække svar, som mennesker synes er bedre, ud fra eksempler på, hvilke svar der foretrækkes.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Proces i maskinlæring, hvor en models parametre justeres for at maksimere overensstemmelsen med et sæt af menneskelige præferencer, ofte repræsenteret som parvis sammenligning af generationer.
- Preference optimization anvendes i RLHF til at finjustere store sprogmodeller så de producerer mere nyttige og ufarlige svar.
- Direct Preference Optimization (DPO) er en effektiv metode til preference optimization, der undgår brug af en separat belønningsmodel.
Hvornår bruges det
Bruges typisk i finjustering af sprogmodeller med menneskelig feedback (RLHF), hvor modellen lærer at generere svar, der rangeres højt af mennesker. Kan også anvendes i robotstyring og anbefalingssystemer.
Oprindelse
Sammensat af 'preference' (præference) og 'optimization' (optimering). Udtrykket opstod i forbindelse med RLHF og brugen af menneskelig feedback til at guide modeltræning.
Kilder
2- Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023)
- Deep Reinforcement Learning from Human Preferences (Christiano et al., 2017)