harmlessness objective

Det mål i RLHF-træning, hvor en AI-model lærer at undgå at generere svar, der kan forårsage skade eller krænke etiske retningslinjer.

Kort fortalt

Kort fortalt: harmlessness objective er den del af AI-træning, der sørger for, at modellen ikke siger eller gør noget farligt, stødende eller skadeligt.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Målfunktionen i forstærkningslæring fra menneskelig feedback (RLHF), der belønner modellen for at producere svar, der undgår skade, stød eller etiske overtrædelser.

    • I Anthropics HHH-rammeværk er harmlessness objective en af tre primære belønningssignaler (sammen med helpfulness og honesty).Anthropic, 2022
    • Harmlessness objective kan implementeres som en klassifikator, der scorer sandsynligheden for, at et svar er skadeligt.

Hvornår bruges det

I RLHF trænes modellen med en hjælpsomheds- og en harmløshedsbelønning. Harmlessness objective bruges typisk via en belønningsmodel, der er trænet på menneskelige præferencer for uskadelige svar, eller via en særskilt harmløshedsklassifikator.

Oprindelse

Termen opstod i forbindelse med RLHF-forskning hos OpenAI og Anthropic, særligt i arbejdet med at skabe AI-assistenter, der både er hjælpsomme og uskadelige. Den blev formaliseret i Anthropics papir 'Training a Helpful and Harmless Assistant from Human Feedback' (2022).

Kilder

2
  • Training a Helpful and Harmless Assistant from Human Feedback
  • Constitutional AI: Harmlessness from AI Feedback