Índice

PCA clásico, elementos matemáticos PCA

La asimilación de esta sección no es indispensable para la implementación operacional de los conceptos descritos más arriba.

Esta pequeña sección debería permitirle leer y descifrar sacándole provecho a la literatura acerca del PCA y le dará una visión global de algunas técnicas matriciales habituales (entre ellas el cambio de base).

Con las siguientes convenciones:

  • n: número de filas de datos.

  • p: número de features (es decir, de dimensiones).

  • q: número (reducido) de dimensiones, ¡que debería ser inferior a p!

  • i: índice, de 1 a n.

  • j: índice, de 1 a p.

  • k: índice, de 1 a q.

  • X: matriz (xij) de datos centrados, o centrados y reducidos (hemos aplicado una transformación previa, centrado significa haber sustraído a cada columna su media, reducido significa que se ha dividido este resultado por la desviación típica de la columna; en la literatura inglesa centrado y reducido es el z-score). Preste atención, dos columnas no deberían ser colineales (es decir, una columna no debería ser totalmente proporcional a la otra).

  • X’: matriz (x’ij) de datos transformados en una nueva base.

  • X’’: matriz (x’’ik) de datos representados en una base truncada de q dimensiones, ¡es el objetivo!

Podemos calcular:

images/eq919.PNG

que es la matriz de covarianza -si X solo estuviera centrada- o la matriz de coeficientes de correlación si X estuviera ...