målalignment
Målalignment er et begreb inden for AI-sikkerhed, der betegner bestræbelserne på at sikre, at kunstig intelligens’ mål og adfærd er i overensstemmelse med menneskelige værdier og intentioner.
Kort fortalt
Målalignment handler om at få kunstig intelligens til at gøre, hvad vi faktisk ønsker – og ikke bare, hvad vi bogstaveligt talt beder den om.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Processen eller tilstanden, hvor et AI-systems objektivfunktion eller adfærd er i overensstemmelse med de værdier og intentioner, som mennesker har defineret, ofte med fokus på at undgå utilsigtede skadelige handlinger.
- Målalignment er en af de største udfordringer i udviklingen af sikre kunstig intelligens-systemer.
- Forskning i målalignment søger at forhindre, at en AI udnytter tekniske smuthuller for at opnå sine tildelte mål på bekostning af menneskelige værdier.
Hvornår bruges det
Begrebet bruges især i diskussioner om avancerede, generelle AI-systemer, hvor risikoen for målforskydning er stor. Det er centralt i forskning i AI-sikkerhed, hvor man udvikler teknikker som værdilæring, modellering af menneskelige præferencer og omvendt forstærkning.
Oprindelse
Sammensat af 'mål' (goal) og 'alignment' (indretning, justering), en direkte oversættelse af det engelske 'goal alignment'.
Afledte ord
2Kilder
2- Concrete Problems in AI Safety (Amodei et al., 2016)
- Human Compatible: Artificial Intelligence and the Problem of Control (Russell, 2019)