AI alignment

Forskning og praksis, der sigter mod at sikre, at kunstig intelligens-systemer handler i overensstemmelse med menneskelige værdier og intentioner.

Kort fortalt

AI alignment handler om at få AI til at gøre, hvad vi faktisk ønsker – ikke bare hvad vi siger – så den ikke utilsigtet gør skade.

Kategori
begreb
Niveau
øvet

Betydninger

3
  1. 1

    Sikring af, at AI-systemers mål og adfærd stemmer overens med menneskelige værdier og intentioner.

    • AI-alignment er en af de største udfordringer for udviklingen af sikker kunstig generel intelligens.
    • Uden ordentlig alignment kan en AI, der optimerer for utilsigtede mål, forårsage katastrofale skader.
  2. 2

    Det tekniske problem at specificere mål, incitamenter og begrænsninger, så AI-systemer pålideligt opnår tilsigtede resultater, selv under usikkerhed.

    • Alignment omfatter udfordringer som belønningssnyd, specifikationsspil og skaleringsproblemer.
    • Forskere i alignment arbejder med teknikker som forstærkningslæring med menneskelig feedback (RLHF) og værdiindlæring.
  3. 3

    Det samfundsmæssige aspekt af at tilpasse AI-systemer til menneskelige normer, love og etiske principper på globalt plan.

    • Global AI-alignment kræver samarbejde mellem nationer for at sikre, at AI udvikles til gavn for alle.

Hvornår bruges det

AI alignment er centralt i AI-sikkerhedsforskning og anvendes til at designe træningsmetoder, målfunktioner og styringsmekanismer, der reducerer risikoen for utilsigtede konsekvenser. Det bliver stadig vigtigere i takt med, at AI-systemer bliver mere autonome og magtfulde.

Oprindelse

Udtrykket blev populært i midten af 2000'erne, især gennem Eliezer Yudkowskys arbejde ved Machine Intelligence Research Institute (MIRI), men problemstillingen har rødder tilbage til Norbert Wieners og Isaac Asimovs tanker om teknologiens mål.

Afledte ord

2

Kilder

3
  • Concrete Problems in AI Safety (Amodei et al., 2016)
  • The Value Learning Problem (Soares & Fallenstein, 2014)
  • The Alignment Problem (Brian Christian, 2020)