Analizar y comprender sus datos
Introducción
El análisis estadístico es un pilar fundamental de la Business Intelligence, ya que transforma los datos brutos en información para la toma de decisiones. Esta sección sienta las bases esenciales para comprender y aplicar los métodos estadísticos en un contexto empresarial.
En primer lugar, exploraremos la importancia del análisis estadístico en BI, destacando su papel en la toma de decisiones basadas en información y la detección de tendencias. A continuación, estudiaremos los conceptos clave de la estadística, incluidos los tipos de variables, las nociones de población y muestra y las leyes fundamentales de la probabilidad.
Este capítulo no pretende ser un curso exhaustivo de estadística, sino más bien una guía práctica para ingenieros y analistas de Business Intelligence. Nuestro objetivo es proporcionarle un conjunto de herramientas y técnicas esenciales que pueda aplicar fácilmente en su trabajo diario. Comenzaremos con un breve repaso de los conceptos teóricos fundamentales, para centrarnos después en su aplicación concreta con Python a través de casos prácticos reales.
Este enfoque pragmático le permitirá dominar rápidamente los métodos estadísticos más relevantes para el análisis de datos en un contexto profesional.
1. Tipos de variables
En esta subsección definiremos los conceptos clave que utilizaremos en el resto de nuestro viaje por el análisis de datos. Existen varios tipos de variables. Dependiendo de su tipo, no utilizaremos las mismas herramientas para analizarlas y/o cruzarlas. Nos encontramos con dos tipos de variables:
-
Variable cualitativa: una variable cualitativa, también conocida como variable categórica, es una variable que describe una característica o cualidad no numérica. Suele expresarse en términos de categorías o grupos y no puede medirse numéricamente. Las variables cualitativas pueden ser nominales u ordinales:
-
variable nominal: color de ojos (azul, marrón, verde);
-
variable ordinal: nivel de educación (primaria, secundaria, universitaria).
-
Variable cuantitativa: una variable cuantitativa es una variable que se mide numéricamente y expresa una cantidad o medida. Puede ser discreta o continua:
-
Variable...
Estadística descriptiva
La exploración estadística es un paso crucial en el análisis de datos, ya que proporciona una visión esencial de las características numéricas subyacentes. En esta sección, nos sumergiremos en el análisis descriptivo de las variables numéricas de un conjunto de datos, profundizando en los indicadores estadísticos de series, posición y dispersión. También exploraremos la distribución normal y las técnicas de simulación de datos para comprender mejor su naturaleza. Se prestará especial atención a la evaluación de la normalidad de los datos y la correlación entre dos variables numéricas, lo que proporcionará una base sólida para análisis estadísticos más avanzados.
1. Análisis univariante
a. Indicadores de posición
Media
.
.
.Mediana y estimadores robustos
La robustez de los indicadores estadísticos es un aspecto crucial del análisis de datos, sobre todo en Business Intelligence, donde los datos a menudo pueden contener valores atípicos o extremos. Aquí es donde entran en juego la mediana y otros estimadores...
Inferencia estadística
1. Noción de intervalo de confianza
El intervalo de confianza es un concepto fundamental de la estadística inferencial, que desempeña un papel crucial en la estimación de parámetros poblacionales a partir de muestras. En el contexto de la Business Intelligence, proporciona un medio riguroso de cuantificar la incertidumbre asociada a las estimaciones, permitiendo una toma de decisiones basada en una mejor información.
Un intervalo de confianza es un rango de valores, calculado a partir de los datos de una muestra, que tiene una probabilidad determinada de contener el verdadero valor del parámetro poblacional. Por ejemplo, un intervalo de confianza del 95 % para la media de una población significa que, si repitiéramos muchas veces el muestreo y el cálculo del intervalo, alrededor del 95 % de estos intervalos contendrían la verdadera media de la población.
Para ilustrar este concepto, veamos un ejemplo concreto en Python. Supongamos que queremos estimar la facturación media por cliente de una empresa de comercio electrónico:
import numpy as np
from scipy import stats
# Simulate revenue data per client
np.random.seed(0)
revenues = np.random.normal(loc=100, scale=20, size=1000)
# Calculate the sample mean and standard deviation
sample_mean = np.mean(revenues)
sample_std_dev = np.std(revenues, ddof=1)
# Calculate the 95% confidence interval
sample_size = len(revenues)
margin_of_error = stats.t.ppf((1 + 0.95) / 2, df=sample_size-1) *
(sample_std_dev / np.sqrt(sample_size))
confidence_interval = (sample_mean - margin_of_error, sample_mean
+ margin_of_error)
print(f"Sample mean: {sample_mean:.2f}")
print(f"95% confidence interval: {confidence_interval}")
La salida es:
Sample mean: 99.09
95% confidence interval: 97.87, 100.32
En el ejemplo, calculamos un intervalo de confianza del 95 % para los ingresos medios por cliente. La interpretación correcta de este intervalo es crucial: no significa que haya un 95 % de probabilidades de que la verdadera media de la población se encuentre dentro de este intervalo, sino que, si repitiéramos este procedimiento muchas...
Técnicas avanzadas de análisis estadístico
1. Regresión lineal simple y múltiple
La regresión lineal es una técnica fundamental en estadística y aprendizaje automático, utilizada para modelizar la relación entre una variable dependiente y una o más variables independientes. Se aplica ampliamente en campos como la economía, la biología, la psicología y la ingeniería para predecir y comprender fenómenos lineales.
a. Regresión lineal simple
La regresión lineal simple consiste en que una única variable independiente (x) predice una variable dependiente (y). El modelo trata de establecer una relación lineal entre estas dos variables, expresada mediante la ecuación:

es la intersección (intercepto),
es la pendiente de la recta (coeficiente de
regresión) y
es el término
de error.
y
de forma
que se minimice la suma de los cuadrados de los residuos (diferencias
entre los valores observados y previstos). Este método
se conoce como método de mínimos cuadrados ordinarios
(MCO).Estimación de parámetros
y
, utilizamos
las siguientes fórmulas:

y
son las medias de x e y respectivamente.b. Interpretación de los coeficientes
En el contexto de las regresiones lineales, la interpretación de los coeficientes depende de dos parámetros fundamentales de la ecuación y = ax + b. El coeficiente "a" (la pendiente) nos proporciona información crucial sobre la relación entre nuestras variables: representa el cambio medio en nuestra variable dependiente y por cada incremento unitario en nuestra variable independiente x. Para ilustrarlo, si tenemos una pendiente a = 2, significa que, por término medio, y aumentará dos unidades cada vez que x aumente una unidad. El coeficiente "b" (la intersección y) representa el valor teórico de y cuando x es cero. Es importante señalar que la interpretación del intercepto no siempre es relevante en un contexto práctico, sobre todo en situaciones en las que la variable x nunca puede tomar el valor cero en el contexto del estudio.
He aquí un ejemplo en Python que utiliza la biblioteca...
Caso de estudio: A/B testing en marketing
1. Presentación del contexto y de los objetivos
En el complejo mundo del marketing digital, las empresas buscan constantemente formas de optimizar sus campañas publicitarias. Para ello, recurren a una poderosa técnica: las pruebas A/B. Este método consiste en realizar un experimento aleatorio en el que se presentan simultáneamente dos o más versiones de una variable a diferentes segmentos de audiencia (una página web, un elemento de página, un banner, etc.). El objetivo es determinar qué versión tiene mayor impacto y estimula mejor los indicadores comerciales.
Las empresas de marketing suelen interesarse por dos cuestiones fundamentales:
-
¿Será un éxito la campaña?
-
Si la campaña tiene éxito, ¿qué parte de ese éxito puede atribuirse a la publicidad?
En este estudio de caso, analizaremos un conjunto de datos de un experimento de pruebas A/B en marketing. Nuestro objetivo será determinar si los anuncios fueron eficaces, estimar los ingresos potenciales generados por estos anuncios y evaluar si la diferencia entre los grupos es estadísticamente significativa.
2. Diseño del experimento A/B
El experimento se diseñó de la siguiente manera:
-
Grupo experimental (tratamiento): la mayoría de las personas fueron expuestas a las publicidades.
-
Grupo de control: una pequeña proporción de personas vio un anuncio de servicio público (PSA - Public Service Announcement) o nada en absoluto, en el lugar exacto donde normalmente se habría mostrado el anuncio.
Esta configuración permite comparar directamente el efecto de la publicidad con una situación en la que no se muestra ninguna.
3. Recogida y preparación de datos
Los datos recogidos para este experimento incluyen las siguientes variables:
-
Index: número de línea;
-
user id: identificador único para el usuario;
-
test group: grupo de prueba al que se ha asignado el usuario ("ad" o "psa");
-
converted: indica si el usuario ha comprado el producto (True o False);
-
total ads: número total de anuncios vistos por el usuario;
-
most ads day: día en el que el usuario ha visto el mayor número de anuncios;
-
most ads hour: hora del día en la que el usuario ha visto un mayor número de anuncios.
Empecemos por importar...