alignment training
Træning af en AI-model for at sikre, at dens adfærd overholder menneskelige værdier, intentioner og sikkerhedshensyn.
Kort fortalt
Alignment training er en metode til at træne AI-systemer, så de gør, hvad mennesker faktisk ønsker, og undgår skadelige handlinger.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /əˈlaɪnmənt ˈtreɪnɪŋ/
Betydninger
1- 1
Specifik træningsproces, hvor en AI-model optimeres til at handle i overensstemmelse med tilsigtede menneskelige mål, ofte gennem teknikker som forstærkningslæring fra menneskelig feedback (RLHF) eller forfatningstræning.
- Alignment training er afgørende for at sikre, at en chatbot ikke producerer skadelige svar.
- OpenAI brugte alignment training til at gøre GPT-4 mere hjælpsom og uskadelig. — OpenAI blog, 2023
Hvornår bruges det
Alignment training anvendes typisk efter indledende træning for at finjustere modellen mod sikker og hensigtsmæssig adfærd. Det er centralt i udviklingen af store sprogmodeller for at forhindre uønskede output såsom misinformation, bias eller manipulation.
Oprindelse
Sammensat af 'alignment' (tilpasning, justering) og 'training' (træning), fra engelsk AI-sikkerhedsforskning omkring 2016.
Kilder
3- Training a Helpful and Harmless Assistant from Human Feedback
- Constitutional AI: Harmlessness from AI Feedback
- Aligning Language Models to Follow Instructions