data-drift-overvågning
Data-drift-overvågning er processen med at løbende overvåge og detektere ændringer i fordelingen af inputdata i en maskinlæringsmodel over tid.
Kort fortalt
Data-drift-overvågning holder øje med, om de data, en model får ind, ændrer sig, så modellen stadig virker godt.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Løbende overvågning af statistiske egenskaber af inputdata til en maskinlæringsmodel for at detektere ændringer (drift) i datafordelingen, som kan påvirke modellens præcision.
- Data-drift-overvågning afslørede, at kundepopulationen havde ændret sig, så modellen skulle genoptrænes.
- Ved at implementere data-drift-overvågning kan teamet hurtigt opdage og reagere på ændringer i produktionsdata.
Hvornår bruges det
Data-drift-overvågning bruges i produktionssystemer for at opdage, når trænings- og inferensdata afviger, hvilket kan føre til forringet modelperformance. Det implementeres typisk som en del af en MLOps-pipeline med statistiske tests eller overvågningsværktøjer som Evidently eller NannyML.
Kodeeksempel
import numpy as np
from scipy.stats import ks_2samp
# Eksempel: Detekter drift med KS-test
reference = np.random.normal(0, 1, 1000)
production = np.random.normal(0.5, 1, 1000)
stat, p_value = ks_2samp(reference, production)
print(f"KS-statistik: {stat:.3f}, p-værdi: {p_value:.3f}")
if p_value < 0.05:
print("Data drift detekteret!")Python-eksempel der bruger Kolmogorov-Smirnov testen til at detektere data drift mellem et reference-datasæt og produktionsdata.
Oprindelse
Sammensat af 'data drift' (eng. for datadrift) og 'overvågning' (dansk for monitoring).
Afledte ord
1Kilder
2- Evidently AI - Data Drift Monitoring
- NannyML - Data Drift Detection