LLM-as-a-Judge

Teknik hvor en sprogmodel (fx GPT-4) bruges til at evaluere eller score output fra en anden sprogmodel, typisk ved at give en karakter eller vurdere kvalitet ud fra en rubrik.

Kort fortalt

En kunstig intelligens bliver brugt som dommer til at bedømme, hvor godt en anden AI klarer en opgave.

Kategori: teknik
Niveau: øvet

Betydninger

1
Brug af en sprogmodel til at vurdere kvaliteten af output fra en anden sprogmodel, ofte via pointgivning eller rangering.
- Vi brugte GPT-4 som LLM-as-a-Judge til at vurdere opsummeringerne på en skala fra 1 til 5.
- LLM-as-a-Judge-metoden kan reducere behovet for menneskelig evaluering i udviklingscyklussen.

Hvornår bruges det

LLM-as-a-Judge anvendes især til automatisk evaluering af sprogmodellers output i opgaver som tekstopsummering, oversættelse og dialog. Det bruges som et alternativ til menneskelig evaluering, når man har brug for skalerbare og konsistente vurderinger, fx i forbindelse med udvikling af chatbots eller benchmark-testning.

Oprindelse

Udtrykket blev populært gennem forskningsartikler om brug af LLM'er som evaluatorer, især 'Judging LLM-as-a-Judge' (Zheng et al., 2023).

Afledte ord

LLM-as-a-Judge prompt LLM-as-a-Judge score

Kilder

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (Zheng et al., 2023)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →