harmlessness objective

Det mål i RLHF-træning, hvor en AI-model lærer at undgå at generere svar, der kan forårsage skade eller krænke etiske retningslinjer.

Kort fortalt

Kort fortalt: harmlessness objective er den del af AI-træning, der sørger for, at modellen ikke siger eller gør noget farligt, stødende eller skadeligt.

Kategori: begreb
Niveau: øvet

Betydninger

1
Målfunktionen i forstærkningslæring fra menneskelig feedback (RLHF), der belønner modellen for at producere svar, der undgår skade, stød eller etiske overtrædelser.
- I Anthropics HHH-rammeværk er harmlessness objective en af tre primære belønningssignaler (sammen med helpfulness og honesty). — Anthropic, 2022
- Harmlessness objective kan implementeres som en klassifikator, der scorer sandsynligheden for, at et svar er skadeligt.

Hvornår bruges det

I RLHF trænes modellen med en hjælpsomheds- og en harmløshedsbelønning. Harmlessness objective bruges typisk via en belønningsmodel, der er trænet på menneskelige præferencer for uskadelige svar, eller via en særskilt harmløshedsklassifikator.

Oprindelse

Termen opstod i forbindelse med RLHF-forskning hos OpenAI og Anthropic, særligt i arbejdet med at skabe AI-assistenter, der både er hjælpsomme og uskadelige. Den blev formaliseret i Anthropics papir 'Training a Helpful and Harmless Assistant from Human Feedback' (2022).

Kilder

Training a Helpful and Harmless Assistant from Human Feedback
Constitutional AI: Harmlessness from AI Feedback

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →