PCA
forkortelse for Principal Component Analysis
PCA er en statistisk metode til dimensionalitetsreduktion ved at transformere data til et nyt koordinatsystem, hvor de største varianser ligger langs de første akser.
Kort fortalt
PCA bruges til at reducere antallet af variable i et datasæt ved at finde de vigtigste retninger (principal components) der forklarer mest mulig variation.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /piː siː eɪ/
Betydninger
1- 1
En lineær transformation, der projicerer data ind i et lavere-dimensionelt rum defineret af de retninger (principal components), der maksimerer variansen.
- PCA blev anvendt på billeddata for at reducere dimensionen fra 784 til 50, hvilket forbedrede klassifikationshastigheden.
- Ved at bruge PCA kunne vi visualisere det højdimensionelle datasæt i to dimensioner.
Hvornår bruges det
PCA anvendes ofte til visualisering, støjreduktion og som forbehandling før maskinlæring for at reducere dimensioner og undgå overfitting.
Formel
Covariance matrix Σ = (1/n) (X - μ)^T (X - μ); principal components are eigenvectors of Σ sorted by decreasing eigenvalues.Kodeeksempel
from sklearn.decomposition import PCA
import numpy as np
X = np.array([[1, 2], [3, 4], [5, 6]])
pca = PCA(n_components=1)
X_reduced = pca.fit_transform(X)
print(X_reduced)Eksempel på brug af PCA fra scikit-learn til at reducere et 2D-datasæt til én dimension.
Oprindelse
Udtrykket 'Principal Component Analysis' blev introduceret af Karl Pearson i 1901 og videreudviklet af Harold Hotelling i 1933.
Afledte ord
3Kilder
2- On Lines and Planes of Closest Fit to Systems of Points in Space (Pearson, 1901)
- Analysis of a Complex of Statistical Variables into Principal Components (Hotelling, 1933)