Constitutional AI

Constitutional AI er en metode til AI-sikkerhed og -alignment, hvor en model trænes ved hjælp af et sæt skrevne principper (en 'forfatning') til at styre sin adfærd gennem selvforbedring og feedback.

Kort fortalt

Kort fortalt: en teknik der lærer en AI at opføre sig efter et sæt regler ved at lade den rette sine egne svar og blive belønnet for at overholde principperne.

Kategori
teknik
Niveau
øvet
Udtale
/ˌkɑnstɪˈtuːʃənl ˌeɪˈaɪ/

Betydninger

1
  1. 1

    En træningsmetode for AI-systemer, hvor modellen anvender et skriftligt sæt principper til at selvforbedre sine svar, og derefter trænes med AI-feedback for at tilpasse sig disse principper.

    • I Constitutional AI justeres modellens adfærd ved at lade den revidere sine egne svar i overensstemmelse med forfatningen.Anthropic, 2022
    • Ved at bruge Constitutional AI kan man reducere afhængigheden af menneskelig feedback i alignment-processen.

Hvornår bruges det

Constitutional AI bruges i praksis til at gøre sprogmodeller mere nyttige, harmløse og ærlige uden at kræve store mængder menneskelig feedback. Modellen genererer først svar, reviderer dem baseret på forfatningen, og finjusteres derefter med AI-genererede præferencer (RLAIF).

Oprindelse

Udtrykket blev introduceret af Anthropic i 2022 i artiklen 'Constitutional AI: Harmlessness from AI Feedback'.

Kilder

1