Domine la ciencia de datos con Python

Éric DEMANGEL

Dominar las técnicas de modelado y la comprensión de los datos, verdadero combustible de la inteligencia artificial, se ha convertido en una habilidad clave en una sociedad transformada por la revolución digital. Tanto si está empezando como si busca nuevas habilidades y competencias, este libro le guía a través del mundo de la ciencia de datos, una disciplina que trasciende los límites de la programación para extraer información relevante y diseñar sistemas que puedan ofrecer soluciones...

Consultar extractos del libro Extracto de la edición impresa

Nivel Medio a Experto
Número de páginas 511 páginas
Publicación octubre 2025

Nivel Medio a Experto
Publicación octubre 2025

Presentación

Dominar las técnicas de modelado y la comprensión de los datos, verdadero combustible de la inteligencia artificial, se ha convertido en una habilidad clave en una sociedad transformada por la revolución digital.

Tanto si está empezando como si busca nuevas habilidades y competencias, este libro le guía a través del mundo de la ciencia de datos, una disciplina que trasciende los límites de la programación para extraer información relevante y diseñar sistemas que puedan ofrecer soluciones concretas en todas las áreas.

Diseñado como un verdadero manual de usuario, este libro le acompaña a través de todas las etapas del procesamiento y análisis de datos: recopilación, preparación, exploración, modelado predictivo y aplicación. Con Python y sus librerías imprescindibles, descubrirá un método claro y muchos ejemplos concretos para convertir sus datos en conocimiento y valor añadido, de tal manera que pueda aplicar inmediatamente los conceptos aprendidos.

Usted aprenderá a:

• entender los mecanismos principales de la ciencia de datos,

• importar, manipular y visualizar datos complejos con herramientas como Pandas, Seaborn y Matplotlib,

• analizar las variables con Scipy y Statmodels,

• aplicar algoritmos de Machine Learning para resolver problemas reales sobre sus datos, imágenes o texto,

• automatizar y estructurar sus análisis en un entorno rico y accesible.

Características

Encuadernación rústica - 17 x 21 cm
ISBN: 978-2-409-05212-5
EAN: 9782409052125
Ref. ENI: EITPYTDATA

Características

HTML
ISBN: 978-2-409-05213-2
EAN: 9782409052132
Ref. ENI: LNEITPYTDATA

Índice

Prefacio

Introducción

Introducción

Datos en todas partes
1. 1. Fuente de los datos
  1. a. La Web
  2. b. Datos privados
  3. c. Creemos nuestros propios datos
2. 2. Forma de los datos
3. 3. Volumen
Ciencia de datos
1. 1. Feature engineering
  1. a. Recogida de datos
  2. b. Limpieza
  3. c. Exploración
  4. d. Análisis
2. 2. Modelado
  1. a. Selección y preparación de los datos
  2. b. Separación de los datos
  3. c. Fase de experimentación y evaluación
  4. d. Finalización
  5. e. Presentación de los resultados
  6. f. Mantenimiento
Python
1. 1. Fortalezas naturales de Python
2. 2. Librerías especializadas
3. 3. Incluso más

Conceptos básicos y entornos de Python

Los notebooks
1. 1. Principio del notebook
  1. a. Funcionamiento por celdas
  2. b. Posibilidad de anotar el código
  3. c. Visualización de contenido interactivo
2. 2. Cómo crear un notebook
  1. a. Instalación directa del módulo Jupyter
  2. b. Instalación de la suite Anaconda
  3. c. Google Colaboratory
Comandos básicos
1. 1. Adquisición de datos
  1. a. Definición de carpeta de trabajo
  2. b. Acceso a los datos
2. 2. Definición de los datos
  1. a. Cambio de tipo
  2. b. Gestión de las fechas
  3. c. Tamaño de almacenamiento por tipo
3. 3. Estructuración del código
  1. a. PEP8
  2. b. Optimización del código
Uso avanzado
1. 1. Gestión de las librerías
  1. a. Instalación
  2. b. Actualización
  3. c. Eliminación
2. 2. El entorno virtual
  1. a. Desplegar un entorno virtual
  2. b. Uso de un entorno virtual en un notebook
3. 3. Conceptos útiles para la ciencia de datos
  1. a. El pipeline
  2. b. Programación orientada a objetos (POO)
  3. c. Los decoradores
  4. d. Gestión de errores

Preparar los datos con Pandas y NumPy

Pandas, la librería de Python imprescindible para la manipulación de datos
1. 1. Instalación
2. 2. Estructura y tipo de datos
3. 3. Posibilidades que ofrece
NumPy, el pilar del cálculo numérico
1. 1. La estructura ndarray
  1. a. Una estructura homogénea
  2. b. Indexación
  3. c. Modificar estructuras
  4. d. Vectorización
2. 2. La potencia al servicio del cálculo científico
3. 3. Las posibilidades que ofrece NumPy
  1. a. Operaciones matemáticas básicas
  2. b. Álgebra lineal y cálculos estadísticos
  3. c. Creación de imágenes
Recogida de datos
1. 1. Adquisición y control de los datos
  1. a. Formatos de archivo de datos clásicos
  2. b. Adquisición de datos en la práctica
2. 2. Manipulaciones avanzadas de datos
  1. a. Concatenación
  2. b. Fusión
  3. c. Agregación
  4. d. Exportación de datos
Limpieza de datos
1. 1. Selección de datos
2. 2. Control de calidad de los datos
  1. a. Definir el tipo de datos correcto
  2. b. Administración de problemas de codificación
3. 3. Identificación de valores atípicoso aberrantes
  1. a. Z-score y método de los cuartiles
  2. b. Local Outlier Factor
4. 4. Gestión de valores outliers
  1. a. Eliminación de valores
  2. b. Cambio en la distribución
  3. c. Retención de valores aberrantes
5. 5. Imputación
  1. a. Imputación por el valor más frecuente(moda)
  2. b. Imputación por la media o la mediana
  3. c. Imputación por regresión
  4. d. Imputación basada en los vecinos máscercanos (KNN)
  5. e. Otros tipos de imputaciones

DataViz con Matplotlib, Seaborn, Plotly

Introducción a la visualización de datos
1. 1. La visualización al servicio de la comprensión
2. 2. Metodología
  1. a. Contextualización de las búsquedas
  2. b. Público objetivo
  3. c. Las múltiples posibilidades de los gráficos
  4. d. Reglas que hay que respetar con los gráficos
Las principales librerías para la visualización: Matplotlib, Seaborn y Plotly-Express
1. 1. Matplotlib
  1. a. Presentación de Matplotlib
  2. b. Primeros pasos con Matplotlib
  3. c. Personalización y opciones avanzadas
2. 2. Seaborn
  1. a. Presentación de Seaborn
  2. b. Simplificación de la exploraciónde relaciones complejas
3. 3. Plotly.express
  1. a. La versión simplificada de Plotly
  2. b. La interactividad de Plotly-Express
  3. c. El futuro de Plotly-Express
Los diferentes tipos de gráficos
1. 1. Los desafíos
  1. a. El camino hacia el gráfico adecuado
  2. b. Aspectos importantes
  3. c. Restricciones
2. 2. Gráficos univariantes
  1. a. Gráficos univariantes para datos numéricos
  2. b. Gráficos univariantes para datos categóricos
  3. c. Resumen
3. 3. Gráficos bivariantes y multivariantes
  1. a. Gráficos bivariantes para variables de lamisma naturaleza
  2. b. Gráficos bivariantes sobre variables de diferentenaturaleza
  3. c. Gráficos multivariantes
4. 4. Otros tipos de gráficos
  1. a. La cartografía
  2. b. Los datos temporales
  3. c. Otras soluciones gráficas

Análisis de datos

Introducción al análisis de datos
1. 1. Definición y función del análisisde datos
2. 2. Desafíos
  1. a. Innovación y creatividad
  2. b. Conocimiento de limitaciones específicas
  3. c. Mejora de la toma de decisiones
Estadísticas descriptivas e inferenciales
1. 1. Descripción de las variables cuantitativas
  1. a. Medidas de tendencia central
  2. b. Medidas de dispersión
  3. c. La distribución
2. 2. Descripción de las variables categóricas
  1. a. Frecuencia, proporción y gestiónde las modalidades raras
  2. b. Tabla de contingencia
  3. c. Índices de diversidad
3. 3. Estadística inferencial
  1. a. Conceptos básicos
  2. b. Hipótesis nulas y alternativas
  3. c. P-value
  4. d. Significatividad
  5. e. Margen de error e impacto de los efectivos en el intervalode confianza
Módulos de Python para el análisis de datos
1. 1. Las capacidades limitadas de los módulosconvencionales
2. 2. Módulos especializados en estadística
  1. a. Scipy
  2. b. Statmodels
Pruebas estadísticas de normalidad
1. 1. Contexto y objetivo
2. 2. Los Q-Q plots
  1. a. Definición y trazado del gráfico
  2. b. Interpretación
3. 3. Principio general de funcionamiento de las pruebasde normalidad
  1. a. Principio de funcionamiento
  2. b. Las diferentes pruebas de normalidad
Pruebas estadísticas bivariantes
1. 1. Pruebas bivariantes entre variables de la misma naturaleza
  1. a. Correlaciones entre variables numéricas
  2. b. Pruebas de independencia entre variables categóricas
2. 2. Pruebas bivariantes entre variables de diferente naturaleza
  1. a. Pruebas comparativas con dos modalidades
  2. b. Pruebas comparativas con tres o más modalidades
  3. c. Conclusiones sobre las pruebas bivariantes
Análisis multivariante
1. 1. Análisis de la varianza multivariante (MANOVA)
  1. a. Presentación y campos de aplicación
  2. b. Caso de práctico de uso
2. 2. Análisis de componentes múltiples(ACM)
3. 3. Análisis de componentes principales (ACP)
  1. a. Uno de los pilares de la ciencia de datos
  2. b. Uso en un caso práctico
  3. c. Pieza de los valores propios
  4. d. Círculo de correlaciones
  5. e. El gráfico de individuos

Machine Learning con Scikit Learn

Introducción al Machine Learning: conceptos y tipos de modelos
1. 1. El aprendizaje no supervisado
  1. a. Definición
  2. b. Reducción dimensional
  3. c. El clustering
2. 2. Aprendizaje supervisado
  1. a. Introducción
  2. b. Regresión
  3. c. Clasificación
3. 3. El texto y la imagen
  1. a. Definiciones de conceptos
  2. b. El texto y el NLP
  3. c. El tratamiento de las imágenes
Presentación de Scikit-Learn, la librería de Python para la ciencia de datos
1. 1. Una oferta sencilla y completa de funcionalidades
2. 2. Métodos comunes a las diferentes funciones
  1. a. El método fit()
  2. b. Los métodos transform() y fit_transform()
  3. c. El método predict()
  4. d. El método score()
  5. e. Los métodos get_params() y set_params()
3. 3. Soporte para la licencia BSD y una comunidad activa
Las grandes etapas de un proyecto de Machine Learning
1. 1. La preparación de los datos
  1. a. La separación de las variables explicativasde la variable objetivo
  2. b. La separación entre los datos de entrenamientoy los de prueba
  3. c. Las transformaciones de las variables
  4. d. La implementación dirigida de las transformaciones
  5. e. Finalizar la preparación de los datos
2. 2. Experimentación
  1. a. Definición de métricas para la evaluación
  2. b. Los algoritmos de optimización de hiperparámetros
  3. c. El modelo de base (DummyRegressor y DummyClassifier)
  4. d. Pruebas de los distintos algoritmos con diferentescombinaciones de parámetros
  5. e. Evaluación y elección final
Conclusiones de la modelización

Aprendizaje supervisado

Introducción
Las familias de algoritmos
1. 1. Los algoritmos lineales
  1. a. Las regresiones
  2. b. Las regresiones regularizadas
  3. c. Las máquinas vectoriales de soporte (SVM)
2. 2. Los algoritmos semilineales (modelos de núcleo)
3. 3. Los algoritmos no lineales
  1. a. Los vecinos más cercanos (KNN)
  2. b. El árbol de decisión
  3. c. Los métodos de conjunto
  4. d. Redes neuronales
La regresión en la práctica
1. 1. Preparación de los datos
  1. a. Importación de los datos
  2. b. Separación de las variables explicativasde la variable objetivo
  3. c. Separación de los datos de entrenamientoy de prueba
  4. d. Transformaciones de las variables
  5. e. Finalización de la preparación delos datos
2. 2. Función de cálculo y visualizaciónde las regresiones
3. 3. Modelado de una regresión
  1. a. Modelo de base (DummyRegressor)
  2. b. Prueba de algoritmos simultáneos
  3. c. El pipeline
La clasificación en la práctica
1. 1. Preparación de los datos
  1. a. Importación de los datos
  2. b. Separación entre las variables explicativasy la variable objetivo
  3. c. Separación de los datos de entrenamientoy de prueba
  4. d. Transformación de columnas
  5. e. Formato de los nombres
  6. f. Ajuste del tipo de variables
2. 2. Función de cálculo y visualizaciónde las clasificaciones
3. 3. Experimentos
  1. a. Modelo de base (DummyClassifier)
  2. b. Algoritmos que compiten entre sí
Conclusión

Aprendizaje no supervisado

Introducción
La reducción dimensional
1. 1. El ACP en la práctica para analizar
  1. a. Preparación de los datos
  2. b. Series de los valores propios
  3. c. El círculo de correlaciones
  4. d. El gráfico de los individuos
2. 2. El ACP en la práctica para el modelado
3. 3. Otros algoritmos de reducción dimensional
Clustering
1. 1. La práctica del clustering con K-means
  1. a. Adquisición y preparación de losdatos
  2. b. Pruebas para determinar el número de clústeres
  3. c. Elección del clustering
  4. d. El score ARI
2. 2. Otros algoritmos de clustering
  1. a. GMM
  2. b. MeanShift
  3. c. DBSCAN

Modelado del texto y la imagen

El modelado de texto
1. 1. Los módulos del NLP
  1. a. NLTK
  2. b. TextBlob
  3. c. spaCy
2. 2. Puesta en práctica del NLP
  1. a. Preprocesamiento de los datos
  2. b. Extractores de características
  3. c. Modelado
3. 3. Introducción a los modelos avanzados en NLP
  1. a. Representaciones de palabras
  2. b. Codificación de frases
  3. c. Transformers y modelos contextuales
  4. d. Larges Languages Models(LLM)
El modelado de imágenes
1. 1. Las soluciones de Machine Learning destinadas a las imágenes
  1. a. Pillow para iniciarse en el pretratamiento
  2. b. Scikit-image
  3. c. OpenCV
2. 2. Métodos de modelado de imágenes
  1. a. Segmentar
  2. b. Detectar
  3. c. Clasificar
3. 3. Ir más allá con las CNN
  1. a. Cómo funcionan las CNN
  2. b. Transfer learning
  3. c. Iniciación a TensorFlow y Keras
  4. d. Ejemplos de uso de CNN

Realizar un proyecto de ciencia de datos con Python

Introducción
El tema: determinar el precio de los vehículos de ocasión
1. 1. Los datos
2. 2. Las etapas del proyecto
  1. a. El notebook de EDA
  2. b. El notebook de modelado
  3. c. Los imprevistos de los datos
Modelado en la práctica
1. 1. Notebook 1: EDA
  1. a. Adquisición de datos y comprobaciones iniciales
  2. b. Limpieza de los datos
  3. c. Exploración y análisis
2. 2. Notebook 2: modelado simple
  1. a. Adquisición y selección de los datos
  2. b. Modelado
  3. c. Resultados
3. 3. Notebook 3: modelado mixto
  1. a. Adquisición y selección de datos
  2. b. Modelado
  3. c. Resultados
Conclusión

Conclusión

El papel central de los datos y su comprensión
Evoluciones que lo transforman y aceleran todo
1. 1. La evolución de los equipos tecnológicos
2. 2. La mejora de los modelos
3. 3. La difusión al público en generaly la integración gradual de los desafíos
Importancia de la teoría e invitación a la exploración

Autor

Éric DEMANGEL

Eric DEMANGEL es científico de datos freelance desde 2020 tras acumular 11 años de experiencia como analista de datos, en una empresa de estudios de mercados. Apasionado de la enseñanza, también ha asumido el papel de mentor de datos, con el que guía a sus alumnos con una curiosidad insaciable y un deseo constante de transformar los datos en conocimiento. A través de sus enseñanzas, se esfuerza por hacer que este complejo campo sea accesible para todos, simplificando sus conceptos y compartiendo su experiencia de una manera clara y pedagógica.

Más información

Domine la ciencia de datos con Python

Información adicional

Información adicional

Características

Características

Éric DEMANGEL

Novedades