Constitutional AI

Constitutional AI er en metode til AI-sikkerhed og -alignment, hvor en model trænes ved hjælp af et sæt skrevne principper (en 'forfatning') til at styre sin adfærd gennem selvforbedring og feedback.

Kort fortalt

Kort fortalt: en teknik der lærer en AI at opføre sig efter et sæt regler ved at lade den rette sine egne svar og blive belønnet for at overholde principperne.

Kategori: teknik
Niveau: øvet
Udtale: /ˌkɑnstɪˈtuːʃənl ˌeɪˈaɪ/

Betydninger

1
En træningsmetode for AI-systemer, hvor modellen anvender et skriftligt sæt principper til at selvforbedre sine svar, og derefter trænes med AI-feedback for at tilpasse sig disse principper.
- I Constitutional AI justeres modellens adfærd ved at lade den revidere sine egne svar i overensstemmelse med forfatningen. — Anthropic, 2022
- Ved at bruge Constitutional AI kan man reducere afhængigheden af menneskelig feedback i alignment-processen.

Hvornår bruges det

Constitutional AI bruges i praksis til at gøre sprogmodeller mere nyttige, harmløse og ærlige uden at kræve store mængder menneskelig feedback. Modellen genererer først svar, reviderer dem baseret på forfatningen, og finjusteres derefter med AI-genererede præferencer (RLAIF).

Oprindelse

Udtrykket blev introduceret af Anthropic i 2022 i artiklen 'Constitutional AI: Harmlessness from AI Feedback'.

Kilder

Constitutional AI: Harmlessness from AI Feedback

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →