1. Libros y videos
  2. Business Intelligence con Python
  3. Analizar y comprender sus datos
Extrait - Business Intelligence con Python Cree sus propias herramientas de BI de principio a fin
Extractos del libro
Business Intelligence con Python Cree sus propias herramientas de BI de principio a fin Volver a la página de compra del libro

Analizar y comprender sus datos

Introducción

El análisis estadístico es un pilar fundamental de la Business Intelligence, ya que transforma los datos brutos en información para la toma de decisiones. Esta sección sienta las bases esenciales para comprender y aplicar los métodos estadísticos en un contexto empresarial.

En primer lugar, exploraremos la importancia del análisis estadístico en BI, destacando su papel en la toma de decisiones basadas en información y la detección de tendencias. A continuación, estudiaremos los conceptos clave de la estadística, incluidos los tipos de variables, las nociones de población y muestra y las leyes fundamentales de la probabilidad.

Este capítulo no pretende ser un curso exhaustivo de estadística, sino más bien una guía práctica para ingenieros y analistas de Business Intelligence. Nuestro objetivo es proporcionarle un conjunto de herramientas y técnicas esenciales que pueda aplicar fácilmente en su trabajo diario. Comenzaremos con un breve repaso de los conceptos teóricos fundamentales, para centrarnos después en su aplicación concreta con Python a través de casos prácticos reales.

Este enfoque pragmático le permitirá dominar rápidamente los métodos estadísticos más relevantes para el análisis de datos en un contexto profesional.

1. Tipos de variables

En esta subsección definiremos los conceptos clave que utilizaremos en el resto de nuestro viaje por el análisis de datos. Existen varios tipos de variables. Dependiendo de su tipo, no utilizaremos las mismas herramientas para analizarlas y/o cruzarlas. Nos encontramos con dos tipos de variables:

  • Variable cualitativa: una variable cualitativa, también conocida como variable categórica, es una variable que describe una característica o cualidad no numérica. Suele expresarse en términos de categorías o grupos y no puede medirse numéricamente. Las variables cualitativas pueden ser nominales u ordinales:

  • variable nominal: color de ojos (azul, marrón, verde);

  • variable ordinal: nivel de educación (primaria, secundaria, universitaria).

  • Variable cuantitativa: una variable cuantitativa es una variable que se mide numéricamente y expresa una cantidad o medida. Puede ser discreta o continua:

  • Variable...

Estadística descriptiva

La exploración estadística es un paso crucial en el análisis de datos, ya que proporciona una visión esencial de las características numéricas subyacentes. En esta sección, nos sumergiremos en el análisis descriptivo de las variables numéricas de un conjunto de datos, profundizando en los indicadores estadísticos de series, posición y dispersión. También exploraremos la distribución normal y las técnicas de simulación de datos para comprender mejor su naturaleza. Se prestará especial atención a la evaluación de la normalidad de los datos y la correlación entre dos variables numéricas, lo que proporcionará una base sólida para análisis estadísticos más avanzados.

1. Análisis univariante

a. Indicadores de posición

Media

Entremos un poco más en detalle. La estimación de localización más básica es la media. La media es la suma de todos los valores, dividida por el número de valores. Encontrará el símbolo (que se pronuncia «x-barra») utilizado para representar la media de una muestra extraída de una población. La fórmula para calcular la media de un conjunto de valores es la siguiente images/EI02-04.png.
Una variación de la media es la media truncada. Para calcularla, primero ordenamos los valores y, a continuación, eliminamos un número fijo de valores en cada extremo antes de calcular la media de los valores restantes. Si denominamos x1 al valor más pequeño y xnal valor más grande de nuestro conjunto ordenado, la fórmula de la media truncada (en la que se omiten k valores en cada extremo) es images/eq03.png.
La ventaja de la media truncada es que limita la influencia de los valores extremos. Otro tipo de media es la media ponderada, que se calcula multiplicando cada valor de los datos por un peso especificado por el usuario y dividiendo después su suma por la suma de los pesos. La fórmula de la media ponderada es images/eq04.png.

Mediana y estimadores robustos

La robustez de los indicadores estadísticos es un aspecto crucial del análisis de datos, sobre todo en Business Intelligence, donde los datos a menudo pueden contener valores atípicos o extremos. Aquí es donde entran en juego la mediana y otros estimadores...

Inferencia estadística

1. Noción de intervalo de confianza

El intervalo de confianza es un concepto fundamental de la estadística inferencial, que desempeña un papel crucial en la estimación de parámetros poblacionales a partir de muestras. En el contexto de la Business Intelligence, proporciona un medio riguroso de cuantificar la incertidumbre asociada a las estimaciones, permitiendo una toma de decisiones basada en una mejor información.

Un intervalo de confianza es un rango de valores, calculado a partir de los datos de una muestra, que tiene una probabilidad determinada de contener el verdadero valor del parámetro poblacional. Por ejemplo, un intervalo de confianza del 95 % para la media de una población significa que, si repitiéramos muchas veces el muestreo y el cálculo del intervalo, alrededor del 95 % de estos intervalos contendrían la verdadera media de la población.

Para ilustrar este concepto, veamos un ejemplo concreto en Python. Supongamos que queremos estimar la facturación media por cliente de una empresa de comercio electrónico:

import numpy as np  
from scipy import stats  
  
# Simulate revenue data per client  
np.random.seed(0)  
revenues = np.random.normal(loc=100, scale=20, size=1000)  
  
# Calculate the sample mean and standard deviation  
sample_mean = np.mean(revenues)  
sample_std_dev = np.std(revenues, ddof=1)  
  
# Calculate the 95% confidence interval  
sample_size = len(revenues)  
margin_of_error = stats.t.ppf((1 + 0.95) / 2, df=sample_size-1) * 
(sample_std_dev / np.sqrt(sample_size))  
confidence_interval = (sample_mean - margin_of_error, sample_mean 
+ margin_of_error)  
  
print(f"Sample mean: {sample_mean:.2f}")  
print(f"95% confidence interval: {confidence_interval}") 

La salida es:

Sample mean: 99.09  
95% confidence interval: 97.87, 100.32 

En el ejemplo, calculamos un intervalo de confianza del 95 % para los ingresos medios por cliente. La interpretación correcta de este intervalo es crucial: no significa que haya un 95 % de probabilidades de que la verdadera media de la población se encuentre dentro de este intervalo, sino que, si repitiéramos este procedimiento muchas...

Técnicas avanzadas de análisis estadístico

1. Regresión lineal simple y múltiple

La regresión lineal es una técnica fundamental en estadística y aprendizaje automático, utilizada para modelizar la relación entre una variable dependiente y una o más variables independientes. Se aplica ampliamente en campos como la economía, la biología, la psicología y la ingeniería para predecir y comprender fenómenos lineales.

a. Regresión lineal simple

La regresión lineal simple consiste en que una única variable independiente (x) predice una variable dependiente (y). El modelo trata de establecer una relación lineal entre estas dos variables, expresada mediante la ecuación:

images/eq06.png
Donde y es la variable dependiente (a predecir), x es la variable independiente (predictora), images/eq26.png es la intersección (intercepto), images/eq13.png es la pendiente de la recta (coeficiente de regresión) y images/eq27.png es el término de error.
El objetivo es estimar los parámetros images/eq26.png y images/eq13.png de forma que se minimice la suma de los cuadrados de los residuos (diferencias entre los valores observados y previstos). Este método se conoce como método de mínimos cuadrados ordinarios (MCO).

Estimación de parámetros

Para estimar images/eq26.png y images/eq13.png, utilizamos las siguientes fórmulas:
images/eq07.png
images/eq08.png
Donde images/eq22.png y images/eq22b.png son las medias de x e y respectivamente.

b. Interpretación de los coeficientes

En el contexto de las regresiones lineales, la interpretación de los coeficientes depende de dos parámetros fundamentales de la ecuación y = ax + b. El coeficiente "a" (la pendiente) nos proporciona información crucial sobre la relación entre nuestras variables: representa el cambio medio en nuestra variable dependiente y por cada incremento unitario en nuestra variable independiente x. Para ilustrarlo, si tenemos una pendiente a = 2, significa que, por término medio, y aumentará dos unidades cada vez que x aumente una unidad. El coeficiente "b" (la intersección y) representa el valor teórico de y cuando x es cero. Es importante señalar que la interpretación del intercepto no siempre es relevante en un contexto práctico, sobre todo en situaciones en las que la variable x nunca puede tomar el valor cero en el contexto del estudio.

He aquí un ejemplo en Python que utiliza la biblioteca...

Caso de estudio: A/B testing en marketing

1. Presentación del contexto y de los objetivos

En el complejo mundo del marketing digital, las empresas buscan constantemente formas de optimizar sus campañas publicitarias. Para ello, recurren a una poderosa técnica: las pruebas A/B. Este método consiste en realizar un experimento aleatorio en el que se presentan simultáneamente dos o más versiones de una variable a diferentes segmentos de audiencia (una página web, un elemento de página, un banner, etc.). El objetivo es determinar qué versión tiene mayor impacto y estimula mejor los indicadores comerciales.

Las empresas de marketing suelen interesarse por dos cuestiones fundamentales:

  • ¿Será un éxito la campaña?

  • Si la campaña tiene éxito, ¿qué parte de ese éxito puede atribuirse a la publicidad?

En este estudio de caso, analizaremos un conjunto de datos de un experimento de pruebas A/B en marketing. Nuestro objetivo será determinar si los anuncios fueron eficaces, estimar los ingresos potenciales generados por estos anuncios y evaluar si la diferencia entre los grupos es estadísticamente significativa.

2. Diseño del experimento A/B

El experimento se diseñó de la siguiente manera:

  • Grupo experimental (tratamiento): la mayoría de las personas fueron expuestas a las publicidades.

  • Grupo de control: una pequeña proporción de personas vio un anuncio de servicio público (PSA - Public Service Announcement) o nada en absoluto, en el lugar exacto donde normalmente se habría mostrado el anuncio.

Esta configuración permite comparar directamente el efecto de la publicidad con una situación en la que no se muestra ninguna.

3. Recogida y preparación de datos

Los datos recogidos para este experimento incluyen las siguientes variables:

  • Index: número de línea;

  • user id: identificador único para el usuario;

  • test group: grupo de prueba al que se ha asignado el usuario ("ad" o "psa");

  • converted: indica si el usuario ha comprado el producto (True o False);

  • total ads: número total de anuncios vistos por el usuario;

  • most ads day: día en el que el usuario ha visto el mayor número de anuncios;

  • most ads hour: hora del día en la que el usuario ha visto un mayor número de anuncios.

Empecemos por importar...