alignment training

Træning af en AI-model for at sikre, at dens adfærd overholder menneskelige værdier, intentioner og sikkerhedshensyn.

Kort fortalt

Alignment training er en metode til at træne AI-systemer, så de gør, hvad mennesker faktisk ønsker, og undgår skadelige handlinger.

Kategori
teknik
Niveau
øvet
Udtale
/əˈlaɪnmənt ˈtreɪnɪŋ/

Betydninger

1
  1. 1

    Specifik træningsproces, hvor en AI-model optimeres til at handle i overensstemmelse med tilsigtede menneskelige mål, ofte gennem teknikker som forstærkningslæring fra menneskelig feedback (RLHF) eller forfatningstræning.

    • Alignment training er afgørende for at sikre, at en chatbot ikke producerer skadelige svar.
    • OpenAI brugte alignment training til at gøre GPT-4 mere hjælpsom og uskadelig.OpenAI blog, 2023

Hvornår bruges det

Alignment training anvendes typisk efter indledende træning for at finjustere modellen mod sikker og hensigtsmæssig adfærd. Det er centralt i udviklingen af store sprogmodeller for at forhindre uønskede output såsom misinformation, bias eller manipulation.

Oprindelse

Sammensat af 'alignment' (tilpasning, justering) og 'training' (træning), fra engelsk AI-sikkerhedsforskning omkring 2016.

Kilder

3
  • Training a Helpful and Harmless Assistant from Human Feedback
  • Constitutional AI: Harmlessness from AI Feedback
  • Aligning Language Models to Follow Instructions