LLM-as-a-Judge
Teknik hvor en sprogmodel (fx GPT-4) bruges til at evaluere eller score output fra en anden sprogmodel, typisk ved at give en karakter eller vurdere kvalitet ud fra en rubrik.
Kort fortalt
En kunstig intelligens bliver brugt som dommer til at bedømme, hvor godt en anden AI klarer en opgave.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Brug af en sprogmodel til at vurdere kvaliteten af output fra en anden sprogmodel, ofte via pointgivning eller rangering.
- Vi brugte GPT-4 som LLM-as-a-Judge til at vurdere opsummeringerne på en skala fra 1 til 5.
- LLM-as-a-Judge-metoden kan reducere behovet for menneskelig evaluering i udviklingscyklussen.
Hvornår bruges det
LLM-as-a-Judge anvendes især til automatisk evaluering af sprogmodellers output i opgaver som tekstopsummering, oversættelse og dialog. Det bruges som et alternativ til menneskelig evaluering, når man har brug for skalerbare og konsistente vurderinger, fx i forbindelse med udvikling af chatbots eller benchmark-testning.
Oprindelse
Udtrykket blev populært gennem forskningsartikler om brug af LLM'er som evaluatorer, især 'Judging LLM-as-a-Judge' (Zheng et al., 2023).
Afledte ord
2Kilder
1- Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (Zheng et al., 2023)