Índice

Reducción de los datos (data reduction)

Este pequeño párrafo no concierne, estrictamente hablando, al «Feature Engineering», aunque hace referencia a la limpieza de los datos antes de su uso en un algoritmo, a menudo vinculado con el machine learning. Como la confusión es habitual, echemos un vistazo a esta noción. Aquí el problema es el contrario: la preparación no afecta a las «columnas», sino a las «filas».

Esta operación consiste en extraer y, a continuación, utilizar un subconjunto coherente de las filas contenidas en un dataset de gran volumen. En ocasiones resulta útil para ahorrar recursos de máquina, aunque también sirve para mejorar la eficacia de ciertos algoritmos o para disminuir la exposición al «ruido». 

Esta noción de ruido es, de hecho, intuitiva en el caso de la interpretación de imágenes o de sonidos, donde estamos habituados a la idea de que los sensores son menos eficaces de lo que desearíamos e introducen cierto «ruido». Este problema de introducción de ruido no es exclusivo de los sensores «físicos»: también puede introducirse «ruido» accidentalmente en cualquier tipo de datos en función del proceso de captura de la información.

Una de las técnicas más habituales para reducir los datos consiste en seleccionar ciertos «puntos» del dataset, y a continuación seleccionar, de forma iterativa, ...