Índice

Feature Engineering, los fundamentos Feature Engineering

Con menos de 100 000 entradas en Google, el Feature Engineering, que podríamos traducir con un poco de imaginación como Ingeniería de los datos, podría parecerse al pariente pobre del machine learning y de sus 20 millones de enlaces. Sin embargo, representa a menudo más de la mitad del esfuerzo que debe realizarse en un proyecto de data sciences.

1. Definición del problema

El Feature Engineering, que hace referencia a las técnicas de ingeniería utilizadas para trabajar sobre los atributos del problema que estudiamos, representa uno de los aspectos más delicados de las data sciences.

En efecto, las características de un problema determinado no siempre se presentan de manera natural y evidente.

Hace falta bastante esfuerzo para imaginar cuáles podrían ser los atributos adecuados, crearlos, seleccionarlos, probarlos y transformarlos para hacerlos relevantes y asimilables por nuestros algoritmos. Las buenas prácticas requieren buenos atributos (en inglés, predictors o features).

El trabajo en la elección y la parametrización de los modelos, la medición de los errores de predicción (o de clasificación) y la atenta interpretación de los resultados son tres elementos indisociables de la disciplina llamada Feature Engineering.

La idea general es ajustar y transformar los datos brutos (data) para que nos aporten una mayor información. Matemáticamente, esta ganancia se corresponde ...