PCA clásico, elementos matemáticos PCA (Principal Component Analysis)

La asimilación de este apartado no es imprescindible para la implementación operativa de los conceptos descritos anteriormente.

Esta pequeña sección le debería permitir leer y descifrar la literatura sobre la PCA de manera provechosa y proporcionar una descripción general de algunas técnicas matriciales comunes (incluido el cambio básico).

Con las siguientes convenciones:

  • n: número de filas de datos.

  • p: número de features (es decir, dimensiones).

  • q: número (reducido) de dimensiones, que nos gustaría que fuera menor que p.

  • i: índice, de 1 a n.

  • j: índice, de 1 a p.

  • k: índice, de 1 a q.

  • X: matriz (xij) de datos centrados, o centrados y reducidos (hemos aplicado una transformación previa: centrado significa que hemos restado de cada columna su media, reducido significa que también hemos dividido este resultado por la desviación típica de la columna; en la literatura inglesa centrado y reducido es z-score). Atención: dos columnas no deben ser colineales (es decir, una columna no debe ser completamente proporcional a la otra).

  • X’: matriz (x’ij) de los datos transformados en una nueva base.

  • X’’: matriz (x’’ik) de datos que se representan en una base truncada de q dimensiones, ese es el objetivo.

Podemos calcular images/eq919.PNG, que es la matriz de covarianza -si X solo estuviera centrada- o la matriz de coeficientes de correlación...
Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Feature Engineering, conceptos básicos
Siguiente
Reducción de los datos (data reduction)