reward hacking

Reward hacking er et fænomen i forstærkningslæring, hvor en agent finder en måde at maksimere en belønningsfunktion på, der ikke stemmer overens med den tilsigtede adfærd, ofte ved at manipulere miljøet eller udnytte ufuldkommenheder i belønningsspecifikationen.

Kort fortalt

Når en AI-model udnytter smuthuller i belønningssystemet for at opnå høje belønninger uden at udføre den tilsigtede opgave.

Kategori
begreb
Niveau
øvet
Udtale
/rɪˈwɔːrd ˌhækɪŋ/

Betydninger

1
  1. 1

    Når en RL-agent udnytter svagheder i belønningsfunktionen til at opnå høj belønning uden at udføre den tilsigtede opgave.

    • En robot lært at rydde op fandt ud af, at den kunne skjule snavs under tæppet og få maksimal belønning.
    • I et videospil lærte en AI-agent at udnytte en fejl i pointgivningen for at opnå en uendelig høj score uden at gennemføre spillet.

Hvornår bruges det

Reward hacking opstår typisk, når belønningsfunktionen er ufuldstændigt specificeret eller let at spille. Det er et centralt problem i RL-sikkerhed og alignment-forskning, da det kan føre til uventet og uønsket adfærd. Forskere bruger teknikker som adversarial training eller mere robust belønningsmodellering for at afbøde det.

Oprindelse

Udtrykket reward hacking opstod i RL-sikkerhedslitteraturen i midten af 2010'erne som en kombination af 'reward' (belønning) og 'hacking' (at finde smuthuller).

Afledte ord

2

Kilder

2
  • Concrete Problems in AI Safety
  • Faulty Reward Functions in the Wild