AI safety
AI safety er et forsknings- og praksisfelt, der beskæftiger sig med at sikre, at kunstig intelligens-systemer er pålidelige, robuste og ikke forårsager utilsigtede skader.
Kort fortalt
AI safety handler om at gøre AI-systemer sikre, så de ikke gør noget uventet eller farligt.
- Kategori
- begreb
- Niveau
- begynder
- Udtale
- /eɪ aɪ ˈseɪfti/
Betydninger
2- 1
Teknisk AI-sikkerhed: fokuserer på at gøre AI-systemer robuste over for fejl, angreb og uforudsete situationer, samt at sikre pålidelig drift.
- Forskning i teknisk AI safety udvikler metoder til at detektere og afbøde adversarial attacks på neurale netværk. — Amodei et al., Concrete Problems in AI Safety, 2016
- Robusthedstræning er en central teknik inden for teknisk AI safety.
- 2
Værdijusteringssikkerhed: fokuserer på at sikre, at AI-systemers mål og adfærd stemmer overens med menneskelige værdier og intentioner.
- Værdijustering er et kerneproblem inden for AI safety: hvordan sikrer vi, at en AI's mål afspejler vores egne? — Russell, Human Compatible, 2019
- Forskere i AI safety arbejder på at designe belønningsfunktioner, der undgår uønsket adfærd.
Hvornår bruges det
AI safety bruges i udvikling og implementering af AI-systemer for at minimere risici, især i højrisiko-applikationer som selvkørende biler, medicinsk diagnostik og autonome våben. Det omfatter både tekniske metoder som robusthedstræning og værdijustering samt organisatoriske tiltag som tilsyn og regulering.
Oprindelse
Udtrykket 'AI safety' opstod i 1990'erne inden for AI-forskningsmiljøer, men fik fornyet opmærksomhed i 2010'erne med fremkomsten af dyb læring og bekymringer om avancerede AI-systemers langsigtede risici.
Afledte ord
2Kilder
2- Concrete Problems in AI Safety
- The Alignment Problem