safety-aligned

En sprogmodel der er finjusteret til at følge sikkerhedsretningslinjer og undgå skadelige eller upassende outputs.

Kort fortalt

En AI-model der er blevet trænet til at opføre sig ansvarligt og undgå at generere farligt eller stødende indhold.

Kategori: begreb
Niveau: øvet

Betydninger

1
Betegnelse for en AI-model der er blevet trænet eller finjusteret til at overholde specifikke sikkerheds- og etiske retningslinjer, typisk med henblik på at minimere risici ved generering af indhold.
- Efter implementering af safety-aligned modeller rapporterede platformen en 40% reduktion i toksiske svar. — Forskningsartikel om AI-sikkerhed, 2023
- Safety-aligned modeller er afgørende for at opretholde brugertillid i chatbots. — Blogindlæg om ansvarlig AI, 2024

Hvornår bruges det

Safety-aligned modeller anvendes i produktionsmiljøer, hvor det er kritisk at reducere risikoen for skadelige svar. De opnås typisk gennem teknikker som RLHF (reinforcement learning from human feedback) og constitutional AI.

Oprindelse

Begrebet opstod i takt med udviklingen af store sprogmodeller og behovet for at styre deres adfærd. 'Alignment' refererer til processen med at justere modellens mål til at matche menneskelige værdier.

Afledte ord

safety alignment

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →