alignment

Alignment betegner problemet med at sikre, at kunstig intelligens handler i overensstemmelse med menneskelige værdier, intentioner og mål.

Kort fortalt

Alignment handler om at få AI til at gøre det, vi virkelig ønsker – ikke bare det, vi specifikt har bedt om.

Kategori: begreb
Niveau: øvet

Betydninger

1
Generelt: justering af en AI-models output eller adfærd, så den matcher en given målfunktion eller menneskelig præference.
- Fine-tuning af sprogmodellen med menneskelig feedback forbedrede dens alignment med brugerens ønsker.
2
Specifikt inden for AI-sikkerhed: problemet med at designe AI-systemer, der robust og pålideligt forfølger de korrekte mål, især ved skalerings- og generaliseringsudfordringer.
- Alignmentsproblemet er centralt for at undgå utilsigtede katastrofale konsekvenser fra superintelligente systemer.

Hvornår bruges det

Termen bruges ofte i diskussioner om AI-sikkerhed og etik, især i forbindelse med fremtidige avancerede systemer. Forskere arbejder på tekniske løsninger som modellæring fra menneskelig feedback (RLHF) og værdilæring for at opnå bedre alignment.

Oprindelse

Fra engelsk 'alignment' (justering, tilpasning). I AI-kontekst populariseret gennem værker som 'The Alignment Problem' af Brian Christian (2020).

Afledte ord

alignmentsproblem værdialignment alignmentsforskning

Kilder

Concrete Problems in AI Safety (Amodei et al., 2016)
The Alignment Problem (Brian Christian, 2020)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →