safety-aligned

En sprogmodel der er finjusteret til at følge sikkerhedsretningslinjer og undgå skadelige eller upassende outputs.

Kort fortalt

En AI-model der er blevet trænet til at opføre sig ansvarligt og undgå at generere farligt eller stødende indhold.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Betegnelse for en AI-model der er blevet trænet eller finjusteret til at overholde specifikke sikkerheds- og etiske retningslinjer, typisk med henblik på at minimere risici ved generering af indhold.

    • Efter implementering af safety-aligned modeller rapporterede platformen en 40% reduktion i toksiske svar.Forskningsartikel om AI-sikkerhed, 2023
    • Safety-aligned modeller er afgørende for at opretholde brugertillid i chatbots.Blogindlæg om ansvarlig AI, 2024

Hvornår bruges det

Safety-aligned modeller anvendes i produktionsmiljøer, hvor det er kritisk at reducere risikoen for skadelige svar. De opnås typisk gennem teknikker som RLHF (reinforcement learning from human feedback) og constitutional AI.

Oprindelse

Begrebet opstod i takt med udviklingen af store sprogmodeller og behovet for at styre deres adfærd. 'Alignment' refererer til processen med at justere modellens mål til at matche menneskelige værdier.

Afledte ord

1