Índice

Trucos y pequeños consejos

1. Acerca de los tests

Los tests no paramétricos son menos potentes, pero también menos exigentes en términos de condiciones sobre las distribuciones de variables.

Antes de aplicar el R de PearsonR de Pearson ( Test:paramétricotest paramétrico) o el R de SpearmanR de Spearman (test no paramétrico), compruebe que al menos una de las dos variables sigue una ley normal.

Piense en el Test:de Kruskal Wallistest de Kruskal Wallis ( No paramétricono paramétrico) para definir una eventual dependencia entre una variable numérica y una variable cualitativa multi-clase.

Piense en el Test:de Kolmogorov-Smirnovtest de Kolmogorov-Smirnov: dos distribuciones empíricas son similares o no, una distribución empírica se corresponde con una distribución determinada (este último punto resulta particularmente útil).

El test de normalidad de Shapiro-Wilk es, a menudo, una excelente elección.

2. Gestión de las variables

Los coeficientes de una regresión dependen de las unidades, normalizando sus datos podrá comparar mejor la influencia de una variable sobre el conjunto. Si tiene problemas de condicionamiento de matriz (sensibilidad a pequeñas variaciones, matrices singulares), puede que esto le ayude a salir del paso.

Selección paso a paso de variables: agregando las features paso a paso a su modelo, se hará una mejor idea de su influencia. Si utiliza métodos dedicados a ello, evitará problemas de colinealidad ...