Interpretability

Interpretability er en models evne til at give menneskeligt forståelige forklaringer på sine forudsigelser og interne repræsentationer.

Kort fortalt

Kort fortalt: Hvor godt kan vi forstå, hvorfor en AI-model træffer en bestemt beslutning?

Kategori
begreb
Niveau
øvet
Udtale
ɪnˌtɜːrprɪtəˈbɪlɪti

Betydninger

2
  1. 1

    Egenskaben ved en AI-model, der gør det muligt for mennesker at forstå, hvorfor den træffer bestemte beslutninger eller kommer frem til bestemte resultater.

    • Interpretability er særlig vigtig i medicinske diagnossystemer, hvor læger skal stole på modellens anbefalinger.
  2. 2

    Forskningsfeltet, der udvikler metoder til at analysere og forklare komplekse modeller, herunder feature importance, attention maps og surrogate models.

    • Feltet interpretability har oplevet stor vækst i takt med udbredelsen af deep learning.

Hvornår bruges det

Interpretability bruges i praksis til at validere modeladfærd, opdage bias, og opbygge tillid til AI-systemer, især inden for højrisikoområder som sundhed og finans.

Oprindelse

Fra engelsk 'interpretability', afledt af 'interpret' (fortolke) med suffiks '-ability' (evne).

Afledte ord

1

Kilder

2
  • Interpretable Machine Learning
  • The Mythos of Model Interpretability (Lipton, 2016)