safety alignment

Processen med at sikre, at en AI-handler på en måde, der er i overensstemmelse med menneskelige værdier og undgår utilsigtede skadelige konsekvenser.

Kort fortalt

Safety alignment handler om at træne AI, så den gør, hvad vi virkelig ønsker, og ikke bare det, vi bogstaveligt talt beder den om.

Kategori
begreb
Niveau
øvet
Udtale
ˈseɪfti əˈlaɪnmənt

Betydninger

1
  1. 1

    Det systematiske arbejde med at designe og træne AI-systemer, så de handler i overensstemmelse med menneskelige intentioner og etiske normer, og undgår utilsigtede skader.

    • RLHF er en central metode inden for safety alignment, hvor menneskelige præferencer bruges til at finjustere modellens adfærd.forskningsartikel, 2022
    • Manglende safety alignment i en autonom agent kan føre til katastrofale fejl, som når en robot fejlfortolker et mål.

Hvornår bruges det

Safety alignment anvendes i forbindelse med udvikling af kraftfulde AI-systemer, især store sprogmodeller og generelle agenter. Praksis omfatter teknikker som reinforcement learning from human feedback (RLHF), værdilæring og adversariel træning for at mindske risici som reward hacking og uforudsete adfærd.

Oprindelse

Safety alignment er en sammensætning af 'safety' (sikkerhed) og 'alignment' (tilpasning), en term der blev fremtrædende i AI-sikkerhedsforskning i 2010'erne, især efter Amodei et al.'s artikel 'Concrete Problems in AI Safety' (2016).

Afledte ord

2

Kilder

2
  • Concrete Problems in AI Safety
  • The Alignment Problem