safety alignment
Processen med at sikre, at en AI-handler på en måde, der er i overensstemmelse med menneskelige værdier og undgår utilsigtede skadelige konsekvenser.
Kort fortalt
Safety alignment handler om at træne AI, så den gør, hvad vi virkelig ønsker, og ikke bare det, vi bogstaveligt talt beder den om.
- Kategori
- begreb
- Niveau
- øvet
- Udtale
- ˈseɪfti əˈlaɪnmənt
Betydninger
1- 1
Det systematiske arbejde med at designe og træne AI-systemer, så de handler i overensstemmelse med menneskelige intentioner og etiske normer, og undgår utilsigtede skader.
- RLHF er en central metode inden for safety alignment, hvor menneskelige præferencer bruges til at finjustere modellens adfærd. — forskningsartikel, 2022
- Manglende safety alignment i en autonom agent kan føre til katastrofale fejl, som når en robot fejlfortolker et mål.
Hvornår bruges det
Safety alignment anvendes i forbindelse med udvikling af kraftfulde AI-systemer, især store sprogmodeller og generelle agenter. Praksis omfatter teknikker som reinforcement learning from human feedback (RLHF), værdilæring og adversariel træning for at mindske risici som reward hacking og uforudsete adfærd.
Oprindelse
Safety alignment er en sammensætning af 'safety' (sikkerhed) og 'alignment' (tilpasning), en term der blev fremtrædende i AI-sikkerhedsforskning i 2010'erne, især efter Amodei et al.'s artikel 'Concrete Problems in AI Safety' (2016).
Afledte ord
2Kilder
2- Concrete Problems in AI Safety
- The Alignment Problem