data-drift-overvågning

Data-drift-overvågning er processen med at løbende overvåge og detektere ændringer i fordelingen af inputdata i en maskinlæringsmodel over tid.

Kort fortalt

Data-drift-overvågning holder øje med, om de data, en model får ind, ændrer sig, så modellen stadig virker godt.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Løbende overvågning af statistiske egenskaber af inputdata til en maskinlæringsmodel for at detektere ændringer (drift) i datafordelingen, som kan påvirke modellens præcision.

    • Data-drift-overvågning afslørede, at kundepopulationen havde ændret sig, så modellen skulle genoptrænes.
    • Ved at implementere data-drift-overvågning kan teamet hurtigt opdage og reagere på ændringer i produktionsdata.

Hvornår bruges det

Data-drift-overvågning bruges i produktionssystemer for at opdage, når trænings- og inferensdata afviger, hvilket kan føre til forringet modelperformance. Det implementeres typisk som en del af en MLOps-pipeline med statistiske tests eller overvågningsværktøjer som Evidently eller NannyML.

Kodeeksempel

import numpy as np
from scipy.stats import ks_2samp

# Eksempel: Detekter drift med KS-test
reference = np.random.normal(0, 1, 1000)
production = np.random.normal(0.5, 1, 1000)
stat, p_value = ks_2samp(reference, production)
print(f"KS-statistik: {stat:.3f}, p-værdi: {p_value:.3f}")
if p_value < 0.05:
    print("Data drift detekteret!")

Python-eksempel der bruger Kolmogorov-Smirnov testen til at detektere data drift mellem et reference-datasæt og produktionsdata.

Oprindelse

Sammensat af 'data drift' (eng. for datadrift) og 'overvågning' (dansk for monitoring).

Afledte ord

1

Kilder

2
  • Evidently AI - Data Drift Monitoring
  • NannyML - Data Drift Detection