PCA

forkortelse for Principal Component Analysis

PCA er en statistisk metode til dimensionalitetsreduktion ved at transformere data til et nyt koordinatsystem, hvor de største varianser ligger langs de første akser.

Kort fortalt

PCA bruges til at reducere antallet af variable i et datasæt ved at finde de vigtigste retninger (principal components) der forklarer mest mulig variation.

Kategori
teknik
Niveau
øvet
Udtale
/piː siː eɪ/

Betydninger

1
  1. 1

    En lineær transformation, der projicerer data ind i et lavere-dimensionelt rum defineret af de retninger (principal components), der maksimerer variansen.

    • PCA blev anvendt på billeddata for at reducere dimensionen fra 784 til 50, hvilket forbedrede klassifikationshastigheden.
    • Ved at bruge PCA kunne vi visualisere det højdimensionelle datasæt i to dimensioner.

Hvornår bruges det

PCA anvendes ofte til visualisering, støjreduktion og som forbehandling før maskinlæring for at reducere dimensioner og undgå overfitting.

Formel

Covariance matrix Σ = (1/n) (X - μ)^T (X - μ); principal components are eigenvectors of Σ sorted by decreasing eigenvalues.

Kodeeksempel

from sklearn.decomposition import PCA
import numpy as np
X = np.array([[1, 2], [3, 4], [5, 6]])
pca = PCA(n_components=1)
X_reduced = pca.fit_transform(X)
print(X_reduced)

Eksempel på brug af PCA fra scikit-learn til at reducere et 2D-datasæt til én dimension.

Oprindelse

Udtrykket 'Principal Component Analysis' blev introduceret af Karl Pearson i 1901 og videreudviklet af Harold Hotelling i 1933.

Afledte ord

3

Kilder

2
  • On Lines and Planes of Closest Fit to Systems of Points in Space (Pearson, 1901)
  • Analysis of a Complex of Statistical Variables into Principal Components (Hotelling, 1933)