LLM-as-a-Judge

Teknik hvor en sprogmodel (fx GPT-4) bruges til at evaluere eller score output fra en anden sprogmodel, typisk ved at give en karakter eller vurdere kvalitet ud fra en rubrik.

Kort fortalt

En kunstig intelligens bliver brugt som dommer til at bedømme, hvor godt en anden AI klarer en opgave.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Brug af en sprogmodel til at vurdere kvaliteten af output fra en anden sprogmodel, ofte via pointgivning eller rangering.

    • Vi brugte GPT-4 som LLM-as-a-Judge til at vurdere opsummeringerne på en skala fra 1 til 5.
    • LLM-as-a-Judge-metoden kan reducere behovet for menneskelig evaluering i udviklingscyklussen.

Hvornår bruges det

LLM-as-a-Judge anvendes især til automatisk evaluering af sprogmodellers output i opgaver som tekstopsummering, oversættelse og dialog. Det bruges som et alternativ til menneskelig evaluering, når man har brug for skalerbare og konsistente vurderinger, fx i forbindelse med udvikling af chatbots eller benchmark-testning.

Oprindelse

Udtrykket blev populært gennem forskningsartikler om brug af LLM'er som evaluatorer, især 'Judging LLM-as-a-Judge' (Zheng et al., 2023).

Afledte ord

2

Kilder

1
  • Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (Zheng et al., 2023)