alignment
Alignment betegner problemet med at sikre, at kunstig intelligens handler i overensstemmelse med menneskelige værdier, intentioner og mål.
Kort fortalt
Alignment handler om at få AI til at gøre det, vi virkelig ønsker – ikke bare det, vi specifikt har bedt om.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
2- 1
Generelt: justering af en AI-models output eller adfærd, så den matcher en given målfunktion eller menneskelig præference.
- Fine-tuning af sprogmodellen med menneskelig feedback forbedrede dens alignment med brugerens ønsker.
- 2
Specifikt inden for AI-sikkerhed: problemet med at designe AI-systemer, der robust og pålideligt forfølger de korrekte mål, især ved skalerings- og generaliseringsudfordringer.
- Alignmentsproblemet er centralt for at undgå utilsigtede katastrofale konsekvenser fra superintelligente systemer.
Hvornår bruges det
Termen bruges ofte i diskussioner om AI-sikkerhed og etik, især i forbindelse med fremtidige avancerede systemer. Forskere arbejder på tekniske løsninger som modellæring fra menneskelig feedback (RLHF) og værdilæring for at opnå bedre alignment.
Oprindelse
Fra engelsk 'alignment' (justering, tilpasning). I AI-kontekst populariseret gennem værker som 'The Alignment Problem' af Brian Christian (2020).
Afledte ord
3Kilder
2- Concrete Problems in AI Safety (Amodei et al., 2016)
- The Alignment Problem (Brian Christian, 2020)