alignment training

Træning af en AI-model for at sikre, at dens adfærd overholder menneskelige værdier, intentioner og sikkerhedshensyn.

Kort fortalt

Alignment training er en metode til at træne AI-systemer, så de gør, hvad mennesker faktisk ønsker, og undgår skadelige handlinger.

Kategori: teknik
Niveau: øvet
Udtale: /əˈlaɪnmənt ˈtreɪnɪŋ/

Betydninger

1
Specifik træningsproces, hvor en AI-model optimeres til at handle i overensstemmelse med tilsigtede menneskelige mål, ofte gennem teknikker som forstærkningslæring fra menneskelig feedback (RLHF) eller forfatningstræning.
- Alignment training er afgørende for at sikre, at en chatbot ikke producerer skadelige svar.
- OpenAI brugte alignment training til at gøre GPT-4 mere hjælpsom og uskadelig. — OpenAI blog, 2023

Hvornår bruges det

Alignment training anvendes typisk efter indledende træning for at finjustere modellen mod sikker og hensigtsmæssig adfærd. Det er centralt i udviklingen af store sprogmodeller for at forhindre uønskede output såsom misinformation, bias eller manipulation.

Oprindelse

Sammensat af 'alignment' (tilpasning, justering) og 'training' (træning), fra engelsk AI-sikkerhedsforskning omkring 2016.

Kilder

Training a Helpful and Harmless Assistant from Human Feedback
Constitutional AI: Harmlessness from AI Feedback
Aligning Language Models to Follow Instructions

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →