Constitutional AI
Constitutional AI er en metode til AI-sikkerhed og -alignment, hvor en model trænes ved hjælp af et sæt skrevne principper (en 'forfatning') til at styre sin adfærd gennem selvforbedring og feedback.
Kort fortalt
Kort fortalt: en teknik der lærer en AI at opføre sig efter et sæt regler ved at lade den rette sine egne svar og blive belønnet for at overholde principperne.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˌkɑnstɪˈtuːʃənl ˌeɪˈaɪ/
Betydninger
1- 1
En træningsmetode for AI-systemer, hvor modellen anvender et skriftligt sæt principper til at selvforbedre sine svar, og derefter trænes med AI-feedback for at tilpasse sig disse principper.
- I Constitutional AI justeres modellens adfærd ved at lade den revidere sine egne svar i overensstemmelse med forfatningen. — Anthropic, 2022
- Ved at bruge Constitutional AI kan man reducere afhængigheden af menneskelig feedback i alignment-processen.
Hvornår bruges det
Constitutional AI bruges i praksis til at gøre sprogmodeller mere nyttige, harmløse og ærlige uden at kræve store mængder menneskelig feedback. Modellen genererer først svar, reviderer dem baseret på forfatningen, og finjusteres derefter med AI-genererede præferencer (RLAIF).
Oprindelse
Udtrykket blev introduceret af Anthropic i 2022 i artiklen 'Constitutional AI: Harmlessness from AI Feedback'.