Este libro sobre Business Intelligence con Python es una guía completa que sumerge a los lectores en el mundo del análisis de datos empresariales. Si bien enfatiza el aspecto práctico y operativo de BI, se destaca por su enfoque integral, que cubre todo el proceso de BI, desde la recopilación de datos brutos hasta la creación de paneles para la toma de decisiones basadas en la información, incluido el análisis y la visualización de datos. Es un recurso indispensable para profesionales de datos, analistas y estudiantes que buscan tener habilidades prácticas de BI para dominar el arte de transformar datos en conocimientos estratégicos utilizando Python.

El libro comienza con una introducción a los fundamentos de BI y explica por qué Python se ha convertido en una herramienta imprescindible en este campo. A continuación guía al lector a través de la instalación y configuración de un entorno de desarrollo robusto, con énfasis en las mejores prácticas de codificación y gestión de proyectos.

Los siguientes capítulos analizan en profundidad los aspectos esenciales de BI con Python:

• la extracción y limpieza de datos de diversas fuentes (archivos, bases de datos, API, web scraping);

• el análisis estadístico en profundidad, incluidas técnicas descriptivas e inferenciales;

• el diseño e implementación de data warehouses;

• la automatización de pipelines de datos con herramientas como Airflow y Luigi;

• la creación de paneles interactivos e informes impactantes con Streamlit, Taipy y Dash;

• y las consideraciones éticas, de seguridad y de cumplimiento del RGPD en los proyectos de BI.

Cada capítulo está enriquecido con ejemplos concretos, estudios de casos y ejercicios prácticos, lo que permite a los lectores aplicar inmediatamente los conceptos aprendidos.

Características

Encuadernación rústica - 17 x 21 cm
ISBN: 978-2-409-05092-3
EAN: 9782409050923
Ref. ENI: EITBIPYT

Características

HTML
ISBN: 978-2-409-05093-0
EAN: 9782409050930
Ref. ENI: LNEITBIPYT

Prólogo

1. Introducción
2. ¿A quién va dirigido este libro?
3. Objetivos y enfoque
4. Lo que no es Business Intelligence con Python
5. Estructura y progresión
6. Lo que aprenderá
7. En conclusión

Python como principal herramienta de BI

1. ¿Qué es la Business Intelligence?
1. 1.1 Definición y desarrollo
2. 1.2 Componentes clave de la Business Intelligence
3. 1.3 Beneficios y evolución de la Business Intelligence
4. 1.4 Enfoque programático de la BI
2. ¿Por qué Python?
1. 2.1 Preámbulo
2. 2.2 Tendencias
3. Python para Business Intelligence
4. ¿Cuáles son las ventajas de utilizar Python para Business Intelligence?
5. Configuración del entorno
1. 5.1 Instalación de Python
  1. 5.1.1 ¿Qué versión de Python elegir?
  2. 5.1.2 Instalación en Ubuntu
  3. 5.1.3 Instalación en Windows 11
  4. 5.1.4 Instalación en Windows 11 sin derechos de administrador
2. 5.2 Elección de un IDE
  1. 5.2.1 Exploración de datos con Jupyter Notebooks
  2. 5.2.2 Entornos de desarrollo integrados (IDE) para producción
6. Algunas buenas prácticas antes de empezar
1. 6.1 Control de versiones
  1. 6.1.1 Cree su repositorio
  2. 6.1.2 Clonación del repositorio
  3. 6.1.3 Añadir archivos y commit
  4. 6.1.4 Creación de ramas
  5. 6.1.5 Pull requests
2. 6.2 Estructure su proyecto
3. 6.3 Escriba código limpio y fácil de mantener
  1. 6.3.1 Buenas prácticas de formato y sintaxis
  2. 6.3.2 Documentación automática
  3. 6.3.3 Entornos virtuales
  4. 6.3.4 Logging con Python
  5. 6.3.5 Pruebe su código
  6. 6.3.6 Depuración
  7. 6.3.7 Integración continua con GitHub Actions

Extraer sus datos de cualquier fuente

1. Presentación de la biblioteca pandas
1. 1.1 ¿Qué es un DataFrame?
2. 1.2 Estructura de un DataFrame
3. 1.3 Principales atributos de un DataFrame
  1. 1.3.1 Atributo shape
  2. 1.3.2 Atributo columns
  3. 1.3.3 Atributo index
  4. 1.3.4 Atributo dtypes
  5. 1.3.5 Métodos head() y tail()
2. Archivos planos u otros formatos estructurados
1. 2.1 CSV, TXT y TSV
2. 2.2 XLS, XLSX
3. 2.3 JSON
4. 2.4 XML
5. 2.5 PDF
6. 2.6 Caso especial de datos tabulares almacenados como imágenes
3. Bases de datos relacionales
1. 3.1 ¿Qué es una base de datos relacional?
2. 3.2 ¿Cuáles son las bases de datos más comunes?
3. 3.3 Bases de datos PostgreSQL
4. 3.4 Bases de datos MySQL
5. 3.5 Bases de datos SQLite
4. Bases de datos NoSQL
1. 4.1 ¿Qué es una base de datos NoSQL?
2. 4.2 Conexión a una base de datos MongoDB
5. Almacenes de datos
1. 5.1 ¿Qué es un almacén de datos?
2. 5.2 Elección de soluciones NoSQL
3. 5.3 Conexión a bases de datos con Python
  1. 5.3.1 BigQuery
  2. 5.3.2 Snowflake
  3. 5.3.3 Buenas prácticas
6. Servidores FTP/SFTP
1. 6.1 ¿Qué es FTP?
2. 6.2 ¿Qué es SSH?
3. 6.3 Conexión con Python
7. Interfaz de programación de aplicaciones (API)
1. 7.1 ¿Por qué utilizar una interfaz de programación de aplicaciones?
2. 7.2 Algunas definiciones y un poco de teoría
  1. 7.2.1 Tipos de peticiones
  2. 7.2.2 Puntos finales
3. 7.3 Códigos de respuesta
4. 7.4 El resultado de la petición
  1. 7.4.1 Atributo text
  2. 7.4.2 Atributo raw
  3. 7.4.3 Atributo content
  4. 7.4.4 Método json
5. 7.5 Las bibliotecas requests y json
  1. 7.5.1 Presentación de la biblioteca requests
  2. 7.5.2 Presentación de la biblioteca json
  3. 7.5.3 Instalación
  4. 7.5.4 Utilización de la API sin autenticación
  5. 7.5.5 Llamadas concurrentes a la API con multithreading
  6. 7.5.6 Peticiones API con autenticación
6. 7.6 Buenas prácticas
7. 7.7 Ilustración práctica
8. 7.8 Para practicar
8. Web scraping
1. 8.1 HTML/CSS básico
  1. 8.1.1 HTML (HyperText Markup Language)
  2. 8.1.2 CSS (Cascading Style Sheets)
2. 8.2 Utilización de requests y BeautifulSoup
3. 8.3 Metodología
4. 8.4 Web Scraping con selenium

Preparar sus datos para sacarles todo su potencial

1. La calidad de los datos: un recordatorio
1. 1.1 ¿Qué es la calidad de los datos?
2. 1.2 ¿Por qué es importante la DQD?
3. 1.3 Los principales criterios de la DQD
  1. 1.3.1 Precisión (accuracy)
  2. 1.3.2 Integridad (completeness)
  3. 1.3.3 Coherencia (consistency)
  4. 1.3.4 Vigencia (timeliness)
  5. 1.3.5 Validez (validity)
  6. 1.3.6 Singularidad (uniqueness)
2. Depuración de datos
1. 2.1 Primeros pasos con la biblioteca pandas
2. 2.2 Presentación de nuestro conjunto de datos
3. 2.3 Manipulación básica de un conjunto de datos
  1. 2.3.1 Método head()
  2. 2.3.2 Atributo shape
  3. 2.3.3 Atributo columns
4. 2.4 Creación de subconjuntos
  1. 2.4.1 Selección de columnas
  2. 2.4.2 Selecciones mediante los métodos loc e iloc
  3. 2.4.3 Selecciones condicionales
5. 2.5 Limpieza del conjunto de datos
  1. 2.5.1 Gestión de duplicados
  2. 2.5.2 Valores perdidos
  3. 2.5.3 Modificación de elementos
6. 2.6 Procesamientos avanzados
  1. 2.6.1 Valores atípicos
  2. 2.6.2 Valores aproximados
  3. 2.6.3 Series temporales
3. Los cuatro pilares del manejo de datos con pandas
1. 3.1 Filtrado avanzado de un DataFrame con operadores binarios
2. 3.2 Unir DataFrames con concat y merge
3. 3.3 Fusión de DataFrames con el método merge
4. 3.4 Clasificación y ordenación de los valores de un DataFrame: métodos sort_values y sort_index
5. 3.5 Agrupación de elementos en un DataFrame: métodos groupby, agg y crosstab

Analizar y comprender sus datos

1. Introducción
1. 1.1 Tipos de variables
2. 1.2 Nociones de población y muestra
3. 1.3 Leyes estadísticas de probabilidad
2. Estadística descriptiva
1. 2.1 Análisis univariante
  1. 2.1.1 Indicadores de posición
  2. 2.1.2 Indicadores de dispersión
2. 2.2 Análisis bivariante
  1. 2.2.1 Correlación entre variables cuantitativas
  2. 2.2.2 Asociación entre variables cualitativas
  3. 2.2.3 Relación entre las variables cualitativas y cuantitativas
3. Inferencia estadística
1. 3.1 Noción de intervalo de confianza
2. 3.2 Principios de las pruebas de hipótesis
3. 3.3 Pruebas paramétricas
  1. 3.3.1 Prueba de normalidad
  2. 3.3.2 Prueba t de Student
  3. 3.3.3 ANOVA unidireccional
4. 3.4 Pruebas no paramétricas
  1. 3.4.1 Prueba de Mann-Whitney
  2. 3.4.2 Prueba de Kruskal-Wallis
4. Técnicas avanzadas de análisis estadístico
1. 4.1 Regresión lineal simple y múltiple
  1. 4.1.1 Regresión lineal simple
  2. 4.1.2 Interpretación de los coeficientes
2. 4.2 Regresión lineal múltiple
  1. 4.2.1 Estimación de parámetros
  2. 4.2.2 Interpretación de los coeficientes
3. 4.3 Evaluación en profundidad del modelo
4. 4.4 Límites y consideraciones
5. 4.5 Predictive Power Score
5. Caso de estudio: A/B testing en marketing
1. 5.1 Presentación del contexto y de los objetivos
2. 5.2 Diseño del experimento A/B
3. 5.3 Recogida y preparación de datos
4. 5.4 Análisis estadístico de los resultados
  1. 5.4.1 Estadísticas descriptivas
  2. 5.4.2 Pruebas de hipótesis para comparaciones de grupos
  3. 5.4.3 Cálculo e interpretación del tamaño del efecto
5. 5.5 Visualización de los resultados
6. 5.6 Interpretación y toma de decisiones basadas en datos
7. 5.7 Limitaciones y consideraciones para futuras pruebas

Crear un Data Warehouse

1. Introducción
1. 1.1 Definiciones preliminares
  1. 1.1.1 OLTP (Online Transaction Processing)
  2. 1.1.2 OLAP (Online Analytical Processing)
2. 1.2 ¿Qué es un Data Warehouse?
2. Las características y ventajas de un Data Warehouse
1. 2.1 Las principales características
2. 2.2 Ventajas de un Data Warehouse
3. Los componentes de una arquitectura analítica
4. Los diferentes tipos de arquitectura de un proyecto analítico
1. 4.1 Arquitectura Single Tier
2. 4.2 Arquitectura Two Tier
3. 4.3 Arquitectura Three Tier
4. 4.4 Conclusión
5. Normalización/desnormalización
6. Diferentes métodos de diseño de DWH
1. 6.1 Metodología de diseño Inmon
2. 6.2 Metodología de diseño Kimball
3. 6.3 Metodología de diseño de OBT simple
4. 6.4 Metodología de diseño Data Vault
5. 6.5 El ciclo de vida de un proyecto de Data Warehouse
7. Los distintos tipos de tablas en un Data Warehouse
1. 7.1 Las tablas de hechos (fact tables)
2. 7.2 Las tablas de dimensiones (dimension tables)
8. Esquemas
1. 8.1 Star Schema (esquema en estrella)
2. 8.2 Snowflake Schema (esquema de copo de nieve)
9. Proyecto Data Warehouse
1. 9.1 Requisitos previos
  1. 9.1.1 Ubuntu
  2. 9.1.2 Windows
  3. 9.1.3 Windows
2. 9.2 Script en Python
3. 9.3 Creación del diagrama ERD
4. 9.4 Solicitudes

Automatizar su pipeline

1. Introducción a los ETL y la automatización de pipelines de datos
1. 1.1 Definición e importancia de los ETL
2. 1.2 Ventajas de la automatización de los pipelines de datos
3. 1.3 Visión general de las herramientas de automatización: Airflow y Luigi
2. Apache Airflow: una potente herramienta para orquestar workflows
1. 2.1 Presentación de Airflow
2. 2.2 Conceptos clave: DAG, Tasks, Operators
3. 2.3 Instalación y configuración básica (Linux)
4. 2.4 Cree un pipeline simple con Airflow
5. 2.5 Ventajas y casos de uso
3. Luigi: una alternativa ligera para la automatización de tareas
1. 3.1 Introducción a Luigi
2. 3.2 Conceptos fundamentales: Tasks, Targets, Parameters
3. 3.3 Instalación y configuración
4. 3.4 Creación de un pipeline básico con Luigi
5. 3.5 Principales ventajas y casos de uso
4. Comparación entre Airflow y Luigi
1. 4.1 Arquitectura y diseño
2. 4.2 Definición y gestión de workflows
3. 4.3 Planificación y ejecución
4. 4.4 Integración y escalabilidad
5. 4.5 Escalabilidad y rendimiento
6. 4.6 Comunidad y soporte
5. Buenas prácticas para diseñar pipelines de datos con Python
1. 5.1 Modularidad y reutilización del código
2. 5.2 Gestión de errores y recuperación en caso de fallo
3. 5.3 Logging y monitoring
4. 5.4 Control de versiones de pipelines
5. 5.5 Pruebas y validación de datos
6. 5.6 Documentación de códigos y procesos
6. Caso práctico: creación de un pipeline ETL completo
1. 6.1 Definición de requisitos y flujo de datos
  1. 6.1.1 Estructura del código
  2. 6.1.2 Funciones ETL (etl_functions.py)
  3. 6.1.3 DAG Airflow
  4. 6.1.4 Ventajas de este enfoque
2. 6.2 Implementación con Airflow
3. 6.3 Implementación con Luigi
4. 6.4 Comparación de enfoques y debate
7. Conclusión y perspectivas
1. 7.1 Resumen de los puntos claves
2. 7.2 Tendencias futuras en la automatización de pipelines de datos

Visualizar sus datos

1. Introducción a la visualización de datos
2. ¿Por qué visualizar los datos?
1. 2.1 Más allá de las cifras: la importancia de la visualización
2. 2.2 Python: una herramienta sin límites
3. Visión general de las diferentes bibliotecas gráficas con Python
1. 3.1 Un ecosistema rico y diverso
2. 3.2 El trío ganador Matplotlib Seaborn y Plotly
3. 3.3 matplotlib
  1. 3.3.1 Instalación
  2. 3.3.2 Presentación del conjunto de datos
  3. 3.3.3 Gráficos de línea
  4. 3.3.4 Diagrama de barras
  5. 3.3.5 Nube de puntos
4. 3.4 Seaborn
  1. 3.4.1 Instalación
  2. 3.4.2 Conjunto de datos
  3. 3.4.3 Histogramas
  4. 3.4.4 Diagrama de cajas y bigotes
  5. 3.4.5 Nube de puntos
  6. 3.4.6 Matriz de correlación
  7. 3.4.7 Pairplot
5. 3.5 Plotly
  1. 3.5.1 Introducción
  2. 3.5.2 Instalación
  3. 3.5.3 Gráfico en cascada
  4. 3.5.4 Indicadores
  5. 3.5.5 Manómetros
  6. 3.5.6 Embudo
  7. 3.5.7 Mapas
  8. 3.5.8 Treemaps
6. 3.6 Gráficos a medida
  1. 3.6.1 Gráficos combinados
  2. 3.6.2 Gráficos de cinta
  3. 3.6.3 Area chart
4. Buenas prácticas de diseño
5. Caso práctico

Paneles de control e informes

1. De los datos a las decisiones: sacar el máximo partido del panel de control
2. Storytelling: el arte de hacer hablar a los datos
3. Domine los paneles de control BI con Python
1. 3.1 Streamlit
  1. 3.1.1 Instalación
  2. 3.1.2 Los componentes
  3. 3.1.3 Optimizaciones
  4. 3.1.4 Nuestro primer panel de control Streamlit
2. 3.2 Taipy
  1. 3.2.1 Instalación
  2. 3.2.2 Los componentes básicos
  3. 3.2.3 Primer panel de control Taipy
  4. 3.2.4 Creación de interfaces con taipy.gui.builder
3. 3.3 Dash
  1. 3.3.1 Instalación
  2. 3.3.2 Los componentes básicos
  3. 3.3.3 Elementos de la estructura de página
  4. 3.3.4 Control e interactividad
  5. 3.3.5 Creación de paneles de control con Dash
4. Cree impactantes informes de BI (y rápido)
1. 4.1 Jupyter Notebooks
2. 4.2 Quarto
5. Difunda y comparta sus análisis
1. 5.1 Desarrollo local
2. 5.2 Preparativos para la implementación
3. 5.3 Opciones de despliegue
  1. 5.3.1 Plataformas de despliegue específicas para cada framework
  2. 5.3.2 Plataformas cloud versátiles
  3. 5.3.3 Alojamiento estático con generación del lado del cliente
  4. 5.3.4 Servidores privados virtuales (VPS)
4. 5.4 Seguridad y acceso
5. 5.5 Mantenimiento y actualización

Ética, seguridad y RGPD

1. Introducción
1. 1.1 Importancia de la ética la seguridad y el RGPD en la Business Intelligence
2. 1.2 Desafíos actuales en el procesamiento de datos empresariales
2. Ética en la Business Intelligence
1. 2.1 Principios éticos fundamentales en BI
  1. 2.1.1 Transparencia
  2. 2.1.2 Equidad
  3. 2.1.3 Responsabilidad
2. 2.2 Sesgo en los datos y el análisis
  1. 2.2.1 Tipos comunes de sesgo
  2. 2.2.2 Consecuencias del sesgo en las decisiones empresariales
3. 2.3 Toma de decisiones éticas basadas en datos
4. 2.4 Gobernanza ética de datos
3. Seguridad de los datos en la Business Intelligence
1. 3.1 La importancia de la seguridad de los datos en las empresas
2. 3.2 Amenazas comunes a la seguridad de los datos
  1. 3.2.1 Ciberataques
  2. 3.2.2 Filtraciones internas de datos
  3. 3.2.3 El error humano
3. 3.3 Mejores prácticas para la seguridad de los datos
  1. 3.3.1 Control de acceso y autenticación
  2. 3.3.2 Cifrado de datos
  3. 3.3.3 Copias de seguridad y planes de recuperación en caso de siniestro
4. 3.4 Capacitación y concienciación de los empleados sobre la seguridad
4. RGPD y cumplimiento en Business Intelligence
1. 4.1 Visión general del RGPD
2. 4.2 Principios claves del RGPD aplicables a la BI
  1. 4.2.1 Consentimiento y base jurídica del procesamiento
  2. 4.2.2 Minimización de datos
  3. 4.2.3 Limitación de la finalidad
3. 4.3 Derechos individuales en virtud del RGPD
  1. 4.3.1 Derecho de acceso
  2. 4.3.2 Derecho de supresión
  3. 4.3.3 Derecho a la portabilidad de los datos
4. 4.4 Cumplimiento del RGPD en proyectos de BI
  1. 4.4.1 Evaluación de impacto de la protección de datos (EIPD
  2. 4.4.2 Privacy by Design y Privacy by Default
5. 4.5 Gestión de la violación de datos y notificación
5. Integración de la ética la seguridad y el RGPD en los procesos de BI
1. 5.1 Creación de una cultura corporativa centrada en la ética y la protección de datos
2. 5.2 Integración de consideraciones éticas y de confidencialidad en el ciclo de vida del proyecto de BI
3. 5.3 Auditorías y evaluaciones periódicas
4. 5.4 Colaboración entre equipos (BI, jurídico, seguridad, cumplimiento)
6. Futuros desafíos y oportunidades
1. 6.1 Evolución en la normativa sobre protección de datos
2. 6.2 Innovaciones tecnológicas y sus implicaciones éticas
3. 6.3 Equilibrio entre innovación y protección de datos
7. Conclusión
8. Recursos complementarios
1. 8.1 Directrices y marcos éticos
2. 8.2 Herramientas y recursos para la seguridad de datos
5. índice

Gaël PENESSOT

Con 15 años de experiencia en Python y análisis de datos, Gaël Penessot combina experiencia técnica y visión empresarial. Comparte su pasión por los datos y el BI a través de formación, contenido de LinkedIn y misiones de consultoría, haciendo accesibles las herramientas esenciales del análisis moderno. Con este libro, continúa con su deseo de compartir sus conocimientos y permite a los lectores aplicar inmediatamente los conceptos para la creación de herramientas de BI con el lenguaje Python.

Más información