variance

Varians er et mål for, hvor meget en stokastisk variabel spreder sig omkring sin middelværdi; i machine learning refererer det til modellens følsomhed over for små ændringer i træningsdata.

Kort fortalt

Varians fortæller, hvor meget et datasæt eller en models forudsigelser svinger – høj varians betyder stor spredning.

Kategori
begreb
Niveau
øvet
Udtale
/ˈvɛriəns/

Betydninger

2
  1. 1

    Statistisk mål for spredning: gennemsnittet af de kvadratiske afvigelser fra middelværdien.

    • Datasættets varians er 4.2, hvilket indikerer moderat spredning.
  2. 2

    I machine learning: den del af modellens forudsigelsesfejl, der skyldes følsomhed over for træningsdata; høj varians fører til overfitting.

    • En kompleks beslutningstræ har ofte høj varians.
    • Bias-variance-afvejningen er central for at forstå generalisering.

Hvornår bruges det

I statistik bruges varians til at kvantificere spredning af data. I machine learning indgår varians i bias-variance afvejningen: en model med høj varians overtilpasser træningsdata og generaliserer dårligt.

Formel

σ² = (1/n) Σ (xi - μ)²

Oprindelse

Fra latin 'variance' (afvigelse, forskellighed), via oldfransk, brugt i statistik siden 1800-tallet.

Afledte ord

2

Kilder

2
  • The Elements of Statistical Learning
  • Bias-variance tradeoff (Wikipedia)