value alignment
Problemstillingen med at designe kunstig intelligens, så dens mål og handlinger konsekvent stemmer overens med menneskelige værdier og intentioner.
Kort fortalt
Hvordan sikrer vi, at en AI gør det, vi faktisk ønsker – ikke bare det, vi bogstaveligt talt beder den om?
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Målsætningen om at sikre, at et AI-systems optimeringsproces og adfærd stemmer overens med de menneskelige værdier, det er tiltænkt at fremme.
- Value alignment er en af de største udfordringer i udviklingen af generelle AI-systemer, fordi det er svært at specificere værdier præcist. — AI safety litteratur, 2023
Hvornår bruges det
Value alignment er centralt i AI-sikkerhedsforskning og anvendes til at udvikle træningsmetoder (f.eks. forstærkningslæring med menneskelig feedback) og styringsmekanismer, der minimerer risikoen for utilsigtede skadelige handlinger fra avancerede AI-systemer.
Oprindelse
Begrebet opstod i AI-sikkerhedsdiskursen i 2010'erne, inspireret af filosofiske problemer omkring 'værdiindfangning' og 'værdiskævhed'.
Kilder
2- Concrete Problems in AI Safety
- Alignment for Advanced Machine Learning Systems