alignment

Alignment betegner problemet med at sikre, at kunstig intelligens handler i overensstemmelse med menneskelige værdier, intentioner og mål.

Kort fortalt

Alignment handler om at få AI til at gøre det, vi virkelig ønsker – ikke bare det, vi specifikt har bedt om.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    Generelt: justering af en AI-models output eller adfærd, så den matcher en given målfunktion eller menneskelig præference.

    • Fine-tuning af sprogmodellen med menneskelig feedback forbedrede dens alignment med brugerens ønsker.
  2. 2

    Specifikt inden for AI-sikkerhed: problemet med at designe AI-systemer, der robust og pålideligt forfølger de korrekte mål, især ved skalerings- og generaliseringsudfordringer.

    • Alignmentsproblemet er centralt for at undgå utilsigtede katastrofale konsekvenser fra superintelligente systemer.

Hvornår bruges det

Termen bruges ofte i diskussioner om AI-sikkerhed og etik, især i forbindelse med fremtidige avancerede systemer. Forskere arbejder på tekniske løsninger som modellæring fra menneskelig feedback (RLHF) og værdilæring for at opnå bedre alignment.

Oprindelse

Fra engelsk 'alignment' (justering, tilpasning). I AI-kontekst populariseret gennem værker som 'The Alignment Problem' af Brian Christian (2020).

Afledte ord

3

Kilder

2
  • Concrete Problems in AI Safety (Amodei et al., 2016)
  • The Alignment Problem (Brian Christian, 2020)