Data drift

Data drift betegner ændringer i fordelingen af inputdata over tid, som kan forringe en models præstation.

Kort fortalt

Når de data, en model ser i praksis, ændrer sig i forhold til de data, den blev trænet på.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Ændring i fordelingen af de data, en model modtager under inferens, i forhold til de data den blev trænet på. Dette kan skyldes eksterne faktorer som sæsonudsving, ny brugeradfærd eller ændringer i datakilder.

    • Modellen begyndte at fejle på grund af data drift forårsaget af sæsonændringer.Eksempel fra praksis
    • Efter en produktopdatering blev der observeret data drift i brugernes interaktionsdata.Eksempel fra praksis

Hvornår bruges det

Data drift er almindeligt i produktionsmiljøer og kan opdages ved at overvåge statistiske egenskaber som gennemsnit, varians eller korrelationer. Det kræver ofte genoptræning eller justering af modellen.

Kodeeksempel

from scipy.stats import ks_2samp
import numpy as np

# Reference data from training
train_data = np.random.normal(0, 1, 1000)

# New production data
prod_data = np.random.normal(0.5, 1, 1000)

# Two-sample Kolmogorov-Smirnov test
stat, p_value = ks_2samp(train_data, prod_data)
if p_value < 0.05:
    print("Significant drift detected")
else:
    print("No significant drift")

Eksempel på drift-detektion ved hjælp af KS-test. Hvis p-værdien er under 0.05, indikerer det signifikant data drift.

Oprindelse

Fra engelsk 'data drift', hvor 'drift' henviser til gradvis forskydning.

Afledte ord

2

Kilder

2