Data drift
Data drift betegner ændringer i fordelingen af inputdata over tid, som kan forringe en models præstation.
Kort fortalt
Når de data, en model ser i praksis, ændrer sig i forhold til de data, den blev trænet på.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Ændring i fordelingen af de data, en model modtager under inferens, i forhold til de data den blev trænet på. Dette kan skyldes eksterne faktorer som sæsonudsving, ny brugeradfærd eller ændringer i datakilder.
- Modellen begyndte at fejle på grund af data drift forårsaget af sæsonændringer. — Eksempel fra praksis
- Efter en produktopdatering blev der observeret data drift i brugernes interaktionsdata. — Eksempel fra praksis
Hvornår bruges det
Data drift er almindeligt i produktionsmiljøer og kan opdages ved at overvåge statistiske egenskaber som gennemsnit, varians eller korrelationer. Det kræver ofte genoptræning eller justering af modellen.
Kodeeksempel
from scipy.stats import ks_2samp
import numpy as np
# Reference data from training
train_data = np.random.normal(0, 1, 1000)
# New production data
prod_data = np.random.normal(0.5, 1, 1000)
# Two-sample Kolmogorov-Smirnov test
stat, p_value = ks_2samp(train_data, prod_data)
if p_value < 0.05:
print("Significant drift detected")
else:
print("No significant drift")Eksempel på drift-detektion ved hjælp af KS-test. Hvis p-værdien er under 0.05, indikerer det signifikant data drift.
Oprindelse
Fra engelsk 'data drift', hvor 'drift' henviser til gradvis forskydning.