safety alignment

Processen med at sikre, at en AI-handler på en måde, der er i overensstemmelse med menneskelige værdier og undgår utilsigtede skadelige konsekvenser.

Kort fortalt

Safety alignment handler om at træne AI, så den gør, hvad vi virkelig ønsker, og ikke bare det, vi bogstaveligt talt beder den om.

Kategori: begreb
Niveau: øvet
Udtale: ˈseɪfti əˈlaɪnmənt

Betydninger

1
Det systematiske arbejde med at designe og træne AI-systemer, så de handler i overensstemmelse med menneskelige intentioner og etiske normer, og undgår utilsigtede skader.
- RLHF er en central metode inden for safety alignment, hvor menneskelige præferencer bruges til at finjustere modellens adfærd. — forskningsartikel, 2022
- Manglende safety alignment i en autonom agent kan føre til katastrofale fejl, som når en robot fejlfortolker et mål.

Hvornår bruges det

Safety alignment anvendes i forbindelse med udvikling af kraftfulde AI-systemer, især store sprogmodeller og generelle agenter. Praksis omfatter teknikker som reinforcement learning from human feedback (RLHF), værdilæring og adversariel træning for at mindske risici som reward hacking og uforudsete adfærd.

Oprindelse

Safety alignment er en sammensætning af 'safety' (sikkerhed) og 'alignment' (tilpasning), en term der blev fremtrædende i AI-sikkerhedsforskning i 2010'erne, især efter Amodei et al.'s artikel 'Concrete Problems in AI Safety' (2016).

Afledte ord

alignment training safety-aligned

Kilder

Concrete Problems in AI Safety
The Alignment Problem

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →