RLHF-model

forkortelse for Reinforcement Learning from Human Feedback model

En model, der er finjusteret ved hjælp af forstærkningslæring baseret på menneskelig feedback (RLHF) for at tilpasse sig menneskelige præferencer.

Kort fortalt

En AI-model, der lærer at følge menneskelige præferencer ved at blive belønnet for gode svar og straffet for dårlige, baseret på feedback fra mennesker.

Kategori
model
Niveau
øvet
Udtale
/ɑːr ɛl eɪtʃ ɛf ˌmɒdəl/

Betydninger

1
  1. 1

    En sprogmodel, der er finjusteret ved hjælp af forstærkningslæring baseret på menneskelig feedback for at tilpasse sig menneskelige præferencer.

    • ChatGPT er en RLHF-model, der er trænet til at følge instruktioner og være nyttig.OpenAI, 2022
    • En RLHF-model kræver en belønningsmodel trænet på menneskelige sammenligninger.InstructGPT paper, 2022

Hvornår bruges det

RLHF-modeller bruges typisk til at finjustere store sprogmodeller (LLM'er) så de genererer svar, der er nyttige, harmløse og i overensstemmelse med brugerens intentioner. Processen kræver en separat belønningsmodel trænet på menneskelige sammenligninger, og selve sprogmodellen optimeres derefter med forstærkningslæring.

Kodeeksempel

# Simplified RLHF training loop
for step in range(epochs):
    responses = model.generate(prompts)
    rewards = reward_model(responses, human_preferences)
    policy_loss = -log_prob(responses) * rewards
    policy_loss.backward()
    optimizer.step()

En forenklet træningsløkke for RLHF, hvor modellens politik optimeres baseret på belønninger fra en belønningsmodel.

Oprindelse

RLHF er en forkortelse for Reinforcement Learning from Human Feedback (forstærkningslæring baseret på menneskelig feedback).

Afledte ord

2

Kilder

2