målalignment

Målalignment er et begreb inden for AI-sikkerhed, der betegner bestræbelserne på at sikre, at kunstig intelligens’ mål og adfærd er i overensstemmelse med menneskelige værdier og intentioner.

Kort fortalt

Målalignment handler om at få kunstig intelligens til at gøre, hvad vi faktisk ønsker – og ikke bare, hvad vi bogstaveligt talt beder den om.

Kategori: begreb
Niveau: øvet

Betydninger

1
Processen eller tilstanden, hvor et AI-systems objektivfunktion eller adfærd er i overensstemmelse med de værdier og intentioner, som mennesker har defineret, ofte med fokus på at undgå utilsigtede skadelige handlinger.
- Målalignment er en af de største udfordringer i udviklingen af sikre kunstig intelligens-systemer.
- Forskning i målalignment søger at forhindre, at en AI udnytter tekniske smuthuller for at opnå sine tildelte mål på bekostning af menneskelige værdier.

Hvornår bruges det

Begrebet bruges især i diskussioner om avancerede, generelle AI-systemer, hvor risikoen for målforskydning er stor. Det er centralt i forskning i AI-sikkerhed, hvor man udvikler teknikker som værdilæring, modellering af menneskelige præferencer og omvendt forstærkning.

Oprindelse

Sammensat af 'mål' (goal) og 'alignment' (indretning, justering), en direkte oversættelse af det engelske 'goal alignment'.

Afledte ord

alignmentsproblem alignmentskat

Kilder

Concrete Problems in AI Safety (Amodei et al., 2016)
Human Compatible: Artificial Intelligence and the Problem of Control (Russell, 2019)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →