model-interpretabilitet

Model-interpretabilitet er egenskaben ved en AI-model, der gør det muligt for mennesker at forstå og forklare dens beslutninger og forudsigelser.

Kort fortalt

Kort fortalt: det handler om, hvor let det er at gennemskue, hvorfor en AI-model siger noget bestemt.

Kategori
begreb
Niveau
øvet

Betydninger

2
  1. 1

    En AI-models evne til at fremlægge sine interne logik og ræsonnement på en måde, der er forståelig for mennesker.

    • Forskere vurderer model-interpretabilitet for at sikre, at modellen ikke træffer beslutninger baseret på irrelevante korrelationer.
  2. 2

    Samlingen af teknikker og metoder, der anvendes til at analysere og forklare en models opførsel, såsom feature importance, surrogate modeller og visualisering af aktiveringer.

    • SHAP-værdier er et populært værktøj inden for model-interpretabilitet.

Hvornår bruges det

Bruges til at evaluere modellers pålidelighed, afsløre bias og opbygge tillid, især i højrisiko-applikationer som sundhedsdiagnostik og kreditvurdering. Værktøjer som SHAP, LIME og modellers iboende fortolkning (fx beslutningstræer) anvendes til at opnå interpretabilitet.

Oprindelse

Sammensat af 'model' og 'interpretabilitet' (af latin interpretari, 'forklare'). Begrebet blev fremtrædende med fremkomsten af deep learning i 2010'erne, da komplekse modeller blev 'sorte bokse'.

Afledte ord

2

Kilder

2
  • "Why Should I Trust You?": Explaining the Predictions of Any Classifier
  • A Unified Approach to Interpreting Model Predictions