preference optimization

En træningsteknik, der justerer en models adfærd baseret på præferencedata, typisk i form af parvis sammenligning af output.

Kort fortalt

Preference optimization betyder at træne en AI til at foretrække svar, som mennesker synes er bedre, ud fra eksempler på, hvilke svar der foretrækkes.

Kategori: teknik
Niveau: øvet

Betydninger

1
Proces i maskinlæring, hvor en models parametre justeres for at maksimere overensstemmelsen med et sæt af menneskelige præferencer, ofte repræsenteret som parvis sammenligning af generationer.
- Preference optimization anvendes i RLHF til at finjustere store sprogmodeller så de producerer mere nyttige og ufarlige svar.
- Direct Preference Optimization (DPO) er en effektiv metode til preference optimization, der undgår brug af en separat belønningsmodel.

Hvornår bruges det

Bruges typisk i finjustering af sprogmodeller med menneskelig feedback (RLHF), hvor modellen lærer at generere svar, der rangeres højt af mennesker. Kan også anvendes i robotstyring og anbefalingssystemer.

Oprindelse

Sammensat af 'preference' (præference) og 'optimization' (optimering). Udtrykket opstod i forbindelse med RLHF og brugen af menneskelig feedback til at guide modeltræning.

Kilder

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023)
Deep Reinforcement Learning from Human Preferences (Christiano et al., 2017)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →