Índice

Gradient Boosting y Generalized Boosted RegressionGeneralized Boosted Regression Gradient Boosting

1. Los grandes principios

Los principios del boosting y de los métodos de gradiente ya se han presentado en los capítulos anteriores (desde el primer capítulo). A continuación vamos a centrarnos en una implementación práctica, particularmente fácil de manipular para datasets de un tamaño razonable como los que encontrará en los concursos de data scientist: la Generalized Boosted Regression.

El objetivo de una regresión se formaliza de la siguiente manera (consulte el capítulo Dominar los fundamentos):

images/eq1072.PNG
En el caso «paramétrico», esto equivale a encontrar un vector de parámetros images/eq1073a.png estimados de la función tales que:
images/eq1073.PNG

En el caso no paramétrico, nos quedamos con la primera formulación en función del riesgo y se aplica el método del gradiente directamente sobre el riesgo.

Tras cada iteración tenemos en ambos casos:

images/eq1074.PNG

Pero en el caso paramétrico, es posible aplicar el método del gradiente directamente sobre los parámetros, lo cual no nos privamos de hacer.

Todo esto plantea problemas prácticos. En efecto, el modelo tiende a sobreajustarse sobre el conjunto de observaciones (en lugar de crear una función resultante generalizable). Aquellos casos donde existen observaciones diferentes con los mismos valores explicativos que desembocan en una respuesta diferente pueden desestabilizar el descenso por gradiente (¡con ...