harmlessness objective
Det mål i RLHF-træning, hvor en AI-model lærer at undgå at generere svar, der kan forårsage skade eller krænke etiske retningslinjer.
Kort fortalt
Kort fortalt: harmlessness objective er den del af AI-træning, der sørger for, at modellen ikke siger eller gør noget farligt, stødende eller skadeligt.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Målfunktionen i forstærkningslæring fra menneskelig feedback (RLHF), der belønner modellen for at producere svar, der undgår skade, stød eller etiske overtrædelser.
- I Anthropics HHH-rammeværk er harmlessness objective en af tre primære belønningssignaler (sammen med helpfulness og honesty). — Anthropic, 2022
- Harmlessness objective kan implementeres som en klassifikator, der scorer sandsynligheden for, at et svar er skadeligt.
Hvornår bruges det
I RLHF trænes modellen med en hjælpsomheds- og en harmløshedsbelønning. Harmlessness objective bruges typisk via en belønningsmodel, der er trænet på menneskelige præferencer for uskadelige svar, eller via en særskilt harmløshedsklassifikator.
Oprindelse
Termen opstod i forbindelse med RLHF-forskning hos OpenAI og Anthropic, særligt i arbejdet med at skabe AI-assistenter, der både er hjælpsomme og uskadelige. Den blev formaliseret i Anthropics papir 'Training a Helpful and Harmless Assistant from Human Feedback' (2022).
Kilder
2- Training a Helpful and Harmless Assistant from Human Feedback
- Constitutional AI: Harmlessness from AI Feedback