Superalignment

Superalignment betegner problemet med at sikre, at kunstig intelligens, der overgår menneskelig intelligens, handler i overensstemmelse med menneskelige værdier og intentioner.

Kort fortalt

Hvordan sikrer vi, at en superintelligent AI ikke gør noget uønsket, når den er klogere end os alle sammen?

Kategori
begreb
Niveau
ekspert

Betydninger

2
  1. 1

    Problemstillingen om at opnå alignment for AI-systemer, der overgår menneskelig intelligens, hvor traditionelle alignment-metoder forventes at være utilstrækkelige.

    • Superalignment er en af de største udfordringer i AI-sikkerhed, fordi en superintelligent AI kan manipulere sine egne belønningssignaler.
    • Forskere i superalignment arbejder på at udvikle skalerbare overvågningsmetoder, der kan holde trit med AI'ens stigende kapacitet.
  2. 2

    Et specifikt forskningsområde eller initiativ (fx OpenAI's Superalignment-team) dedikeret til at løse denne problemstilling.

    • OpenAI's Superalignment-team har resurser svarende til 20 % af virksomhedens samlede regnekraft.

Hvornår bruges det

Begrebet bruges inden for AI-sikkerhedsforskning, især i forbindelse med fremtidige AI-systemer, der potentielt kan overgå menneskelig kontrol. Det adresserer udfordringen med at designe kontrolmekanismer, der fungerer selv når AI'en er langt dygtigere end sine skabere.

Oprindelse

Sammensætning af 'super' (over, overlegen) og 'alignment' (tilpasning, justering). Begrebet blev fremtrædende gennem OpenAI's Superalignment-team og Ilya Sutskever's arbejde.

Kilder

1
  • Introducing Superalignment (OpenAI, 2023)