Dependencia lineal entre variables

De forma adicional, es habitual comprobar si algunas de las variables explicativas no están fuertemente correlacionadas, lo que podría provocar que se prueben modelos de predicción que mantendrían solo una u otra de estas variables (para hacerlo bien, comparamos la eficiencia con ambas y, cuando es similar, nos quedamos con la variable que es más fácil de interpretar o recopilar en el mundo real).

plot_correlation(df) # una tabla de correlaciones 
images/EP14-070.png

Correlación dos a dos

Nuestro problema no es linealmente trivial; de forma clara, la diabetes no se correlacionada solo con una variable. Exceptuando la variable age, parece completamente descartado que exista alguna relación más o menos lineal y simple entre el número de embarazos y el resto de las variables explicativas. Podemos representar esto, quizás erróneamente, imaginado dos grandes familias de predictores: «sociales» (edad, número de embarazos) y técnicos (el resto). Dicho todo esto, tenga en cuenta que esta pista solo se ocupa de las relaciones lineales, que no es el caso más común en la realidad. Recordemos también que la calidad de los predictores no nos permite sacar conclusiones sobre la noción de causalidad.

Ahora bien: nada nos impide formarnos una opinión personal sobre la monotonía de la relación entre dos variables, incluso cuando parece excluida una relación lineal.

library(ggstatsplot) 
 ...
Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Análisis de la conformación de las distribuciones respecto a la distribución normal
Siguiente
Resalte de las diferencias entre las distribuciones