Reducción de los datos (data reduction)

Esta pequeña sección no se relaciona estrictamente con la «Feature Engineering», sino que también se relaciona con la limpieza de datos antes del uso de un algoritmo, a menudo vinculado al machine learning. Debido a que la confusión es común, echemos un vistazo a esta noción. Aquí el problema es el contrario, la preparación ya no se refiere a las «columnas» sino a las «filas».

Esta operación consiste en la extracción y posterior uso de un subconjunto coherente de filas resultantes de un conjunto de datos de gran volumen. Algunas veces, es útil para ahorrar recursos de la máquina, pero también para mejorar la eficiencia de ciertos algoritmos o para reducir su exposición al «ruido».

Esta noción de ruido es bastante intuitiva en el caso de la interpretación de imágenes o sonidos, donde estamos acostumbrados a la idea de que los sensores son menos eficientes de lo deseado e introducen «ruido» en ellos. Este problema de introducción de ruido no es específico de los sensores «físicos»: el «ruido» se puede introducir accidentalmente en cualquier tipo de datos, dependiendo del proceso de captura de la información.

Una de las técnicas comunes para reducir datos es seleccionar ciertos «puntos» del dataset; después, seleccionar iterativamente otros puntos cercanos, cuyo valor...

Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
PCA clásico, elementos matemáticos
Siguiente
Reducción de la dimensionalidad y entropía