safety-aligned
En sprogmodel der er finjusteret til at følge sikkerhedsretningslinjer og undgå skadelige eller upassende outputs.
Kort fortalt
En AI-model der er blevet trænet til at opføre sig ansvarligt og undgå at generere farligt eller stødende indhold.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Betegnelse for en AI-model der er blevet trænet eller finjusteret til at overholde specifikke sikkerheds- og etiske retningslinjer, typisk med henblik på at minimere risici ved generering af indhold.
- Efter implementering af safety-aligned modeller rapporterede platformen en 40% reduktion i toksiske svar. — Forskningsartikel om AI-sikkerhed, 2023
- Safety-aligned modeller er afgørende for at opretholde brugertillid i chatbots. — Blogindlæg om ansvarlig AI, 2024
Hvornår bruges det
Safety-aligned modeller anvendes i produktionsmiljøer, hvor det er kritisk at reducere risikoen for skadelige svar. De opnås typisk gennem teknikker som RLHF (reinforcement learning from human feedback) og constitutional AI.
Oprindelse
Begrebet opstod i takt med udviklingen af store sprogmodeller og behovet for at styre deres adfærd. 'Alignment' refererer til processen med at justere modellens mål til at matche menneskelige værdier.