Reducción de la dimensionalidad y entropía Entropía

Puede parecer molesto basar toda su estrategia de reducción de dimensionalidad en álgebra lineal, como se hace con la PCA, porque estas técnicas podrían incorporar ciertas suposiciones simplificadoras de la naturaleza de los datos sobre los que el data scientist tiene poco control.

El concepto de «entropía e información compartida» descrito en la introducción de este libro parece más general y, por lo tanto, parece legítimo construir parte de su estrategia sobre estos conceptos.

En el capítulo Introducción, hemos expresado la información compartida por dos variables representada por la siguiente expresión (en función de la entropía): I(X,Y) = H(X) + H(Y) - H(X,Y).

Esta expresión desaparece en el caso de dos variables dependientes. Aquí, la noción de dependencia no supone una dependencia lineal, ni siquiera una dependencia lineal después de cualquier transformación.

1. Descripción teórica del problema

Llamaremos S (por set) al conjunto formado por nuestras variables explicativas xi, e y a nuestra variable de respuesta.

Nuestro objetivo es seleccionar un subconjunto de S que incluya p features, es decir, ciertas variables explicativas (features). Este subconjunto se denomina s y m es su número de features.

Por tanto, necesitamos un criterio de selección.

Como primera aproximación, imaginamos rápidamente...

Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Reducción de los datos (data reduction)
Siguiente
GAM: generalización de LM/GLM