1. Libros y videos
  2. Domine la ciencia de datos con Python -

Domine la ciencia de datos con Python

Información adicional

  • 5% de descuento en todos los libros
  • Envío gratis a partir de 25 € de compra
  • Versión online gratis por un año

Información adicional

  • 5% de descuento en todos los libros
  • Versión online digital, no descargable
  • Consultable en línea durante 10 años inmediatamente después de la validación del pago.
Dominar las técnicas de modelado y la comprensión de los datos, verdadero combustible de la inteligencia artificial, se ha convertido en una habilidad clave en una sociedad transformada por la revolución digital. Tanto si está empezando como si busca nuevas habilidades y competencias, este libro le guía a través del mundo de la ciencia de datos, una disciplina que trasciende los límites de la programación para extraer información relevante y diseñar sistemas que puedan ofrecer soluciones...
Consultar extractos del libro Extracto de la edición impresa
  • Nivel Medio a Experto
  • Publicación octubre 2025
  • Nivel Medio a Experto
  • Publicación octubre 2025

Dominar las técnicas de modelado y la comprensión de los datos, verdadero combustible de la inteligencia artificial, se ha convertido en una habilidad clave en una sociedad transformada por la revolución digital.

Tanto si está empezando como si busca nuevas habilidades y competencias, este libro le guía a través del mundo de la ciencia de datos, una disciplina que trasciende los límites de la programación para extraer información relevante y diseñar sistemas que puedan ofrecer soluciones concretas en todas las áreas.

Diseñado como un verdadero manual de usuario, este libro le acompaña a través de todas las etapas del procesamiento y análisis de datos: recopilación, preparación, exploración, modelado predictivo y aplicación. Con Python y sus librerías imprescindibles, descubrirá un método claro y muchos ejemplos concretos para convertir sus datos en conocimiento y valor añadido, de tal manera que pueda aplicar inmediatamente los conceptos aprendidos.

Usted aprenderá a:

• entender los mecanismos principales de la ciencia de datos,

• importar, manipular y visualizar datos complejos con herramientas como Pandas, Seaborn y Matplotlib,

• analizar las variables con Scipy y Statmodels,

• aplicar algoritmos de Machine Learning para resolver problemas reales sobre sus datos, imágenes o texto,

• automatizar y estructurar sus análisis en un entorno rico y accesible.

Características

  • Encuadernación rústica - 17 x 21 cm
  • ISBN: 978-2-409-05212-5
  • EAN: 9782409052125
  • Ref. ENI: EITPYTDATA

Características

  • HTML
  • ISBN: 978-2-409-05213-2
  • EAN: 9782409052132
  • Ref. ENI: LNEITPYTDATA
Prefacio
  1. Introducción
Introducción
  1. Datos en todas partes
    1. 1. Fuente de los datos
      1. a. La Web
      2. b. Datos privados
      3. c. Creemos nuestros propios datos
    2. 2. Forma de los datos
    3. 3. Volumen
  2. Ciencia de datos
    1. 1. Feature engineering
      1. a. Recogida de datos
      2. b. Limpieza
      3. c. Exploración
      4. d. Análisis
    2. 2. Modelado
      1. a. Selección y preparación de los datos
      2. b. Separación de los datos
      3. c. Fase de experimentación y evaluación
      4. d. Finalización
      5. e. Presentación de los resultados
      6. f. Mantenimiento
  3. Python
    1. 1. Fortalezas naturales de Python
    2. 2. Librerías especializadas
    3. 3. Incluso más
Conceptos básicos y entornos de Python
  1. Los notebooks
    1. 1. Principio del notebook
      1. a. Funcionamiento por celdas
      2. b. Posibilidad de anotar el código
      3. c. Visualización de contenido interactivo
    2. 2. Cómo crear un notebook
      1. a. Instalación directa del módulo Jupyter
      2. b. Instalación de la suite Anaconda
      3. c. Google Colaboratory
  2. Comandos básicos
    1. 1. Adquisición de datos
      1. a. Definición de carpeta de trabajo
      2. b. Acceso a los datos
    2. 2. Definición de los datos
      1. a. Cambio de tipo
      2. b. Gestión de las fechas
      3. c. Tamaño de almacenamiento por tipo
    3. 3. Estructuración del código
      1. a. PEP8
      2. b. Optimización del código
  3. Uso avanzado
    1. 1. Gestión de las librerías
      1. a. Instalación
      2. b. Actualización
      3. c. Eliminación
    2. 2. El entorno virtual
      1. a. Desplegar un entorno virtual
      2. b. Uso de un entorno virtual en un notebook
    3. 3. Conceptos útiles para la ciencia de datos
      1. a. El pipeline
      2. b. Programación orientada a objetos (POO)
      3. c. Los decoradores
      4. d. Gestión de errores
Preparar los datos con Pandas y NumPy
  1. Pandas, la librería de Python imprescindible para la manipulación de datos
    1. 1. Instalación
    2. 2. Estructura y tipo de datos
    3. 3. Posibilidades que ofrece
  2. NumPy, el pilar del cálculo numérico
    1. 1. La estructura ndarray
      1. a. Una estructura homogénea
      2. b. Indexación
      3. c. Modificar estructuras
      4. d. Vectorización
    2. 2. La potencia al servicio del cálculo científico
    3. 3. Las posibilidades que ofrece NumPy
      1. a. Operaciones matemáticas básicas
      2. b. Álgebra lineal y cálculos estadísticos
      3. c. Creación de imágenes
  3. Recogida de datos
    1. 1. Adquisición y control de los datos
      1. a. Formatos de archivo de datos clásicos
      2. b. Adquisición de datos en la práctica
    2. 2. Manipulaciones avanzadas de datos
      1. a. Concatenación
      2. b. Fusión
      3. c. Agregación
      4. d. Exportación de datos
  4. Limpieza de datos
    1. 1. Selección de datos
    2. 2. Control de calidad de los datos
      1. a. Definir el tipo de datos correcto
      2. b. Administración de problemas de codificación
    3. 3. Identificación de valores atípicoso aberrantes
      1. a. Z-score y método de los cuartiles
      2. b. Local Outlier Factor
    4. 4. Gestión de valores outliers
      1. a. Eliminación de valores
      2. b. Cambio en la distribución
      3. c. Retención de valores aberrantes
    5. 5. Imputación
      1. a. Imputación por el valor más frecuente(moda)
      2. b. Imputación por la media o la mediana
      3. c. Imputación por regresión
      4. d. Imputación basada en los vecinos máscercanos (KNN)
      5. e. Otros tipos de imputaciones
DataViz con Matplotlib, Seaborn, Plotly
  1. Introducción a la visualización de datos
    1. 1. La visualización al servicio de la comprensión
    2. 2. Metodología
      1. a. Contextualización de las búsquedas
      2. b. Público objetivo
      3. c. Las múltiples posibilidades de los gráficos
      4. d. Reglas que hay que respetar con los gráficos
  2. Las principales librerías para la visualización: Matplotlib, Seaborn y Plotly-Express
    1. 1. Matplotlib
      1. a. Presentación de Matplotlib
      2. b. Primeros pasos con Matplotlib
      3. c. Personalización y opciones avanzadas
    2. 2. Seaborn
      1. a. Presentación de Seaborn
      2. b. Simplificación de la exploraciónde relaciones complejas
    3. 3. Plotly.express
      1. a. La versión simplificada de Plotly
      2. b. La interactividad de Plotly-Express
      3. c. El futuro de Plotly-Express
  3. Los diferentes tipos de gráficos
    1. 1. Los desafíos
      1. a. El camino hacia el gráfico adecuado
      2. b. Aspectos importantes
      3. c. Restricciones
    2. 2. Gráficos univariantes
      1. a. Gráficos univariantes para datos numéricos
      2. b. Gráficos univariantes para datos categóricos
      3. c. Resumen
    3. 3. Gráficos bivariantes y multivariantes
      1. a. Gráficos bivariantes para variables de lamisma naturaleza
      2. b. Gráficos bivariantes sobre variables de diferentenaturaleza
      3. c. Gráficos multivariantes
    4. 4. Otros tipos de gráficos
      1. a. La cartografía
      2. b. Los datos temporales
      3. c. Otras soluciones gráficas
Análisis de datos
  1. Introducción al análisis de datos
    1. 1. Definición y función del análisisde datos
    2. 2. Desafíos
      1. a. Innovación y creatividad
      2. b. Conocimiento de limitaciones específicas
      3. c. Mejora de la toma de decisiones
  2. Estadísticas descriptivas e inferenciales
    1. 1. Descripción de las variables cuantitativas
      1. a. Medidas de tendencia central
      2. b. Medidas de dispersión
      3. c. La distribución
    2. 2. Descripción de las variables categóricas
      1. a. Frecuencia, proporción y gestiónde las modalidades raras
      2. b. Tabla de contingencia
      3. c. Índices de diversidad
    3. 3. Estadística inferencial
      1. a. Conceptos básicos
      2. b. Hipótesis nulas y alternativas
      3. c. P-value
      4. d. Significatividad
      5. e. Margen de error e impacto de los efectivos en el intervalode confianza
  3. Módulos de Python para el análisis de datos
    1. 1. Las capacidades limitadas de los módulosconvencionales
    2. 2. Módulos especializados en estadística
      1. a. Scipy
      2. b. Statmodels
  4. Pruebas estadísticas de normalidad
    1. 1. Contexto y objetivo
    2. 2. Los Q-Q plots
      1. a. Definición y trazado del gráfico
      2. b. Interpretación
    3. 3. Principio general de funcionamiento de las pruebasde normalidad
      1. a. Principio de funcionamiento
      2. b. Las diferentes pruebas de normalidad
  5. Pruebas estadísticas bivariantes
    1. 1. Pruebas bivariantes entre variables de la misma naturaleza
      1. a. Correlaciones entre variables numéricas
      2. b. Pruebas de independencia entre variables categóricas
    2. 2. Pruebas bivariantes entre variables de diferente naturaleza
      1. a. Pruebas comparativas con dos modalidades
      2. b. Pruebas comparativas con tres o más modalidades
      3. c. Conclusiones sobre las pruebas bivariantes
  6. Análisis multivariante
    1. 1. Análisis de la varianza multivariante (MANOVA)
      1. a. Presentación y campos de aplicación
      2. b. Caso de práctico de uso
    2. 2. Análisis de componentes múltiples(ACM)
    3. 3. Análisis de componentes principales (ACP)
      1. a. Uno de los pilares de la ciencia de datos
      2. b. Uso en un caso práctico
      3. c. Pieza de los valores propios
      4. d. Círculo de correlaciones
      5. e. El gráfico de individuos
Machine Learning con Scikit Learn
  1. Introducción al Machine Learning: conceptos y tipos de modelos
    1. 1. El aprendizaje no supervisado
      1. a. Definición
      2. b. Reducción dimensional
      3. c. El clustering
    2. 2. Aprendizaje supervisado
      1. a. Introducción
      2. b. Regresión
      3. c. Clasificación
    3. 3. El texto y la imagen
      1. a. Definiciones de conceptos
      2. b. El texto y el NLP
      3. c. El tratamiento de las imágenes
  2. Presentación de Scikit-Learn, la librería de Python para la ciencia de datos
    1. 1. Una oferta sencilla y completa de funcionalidades
    2. 2. Métodos comunes a las diferentes funciones
      1. a. El método fit()
      2. b. Los métodos transform() y fit_transform()
      3. c. El método predict()
      4. d. El método score()
      5. e. Los métodos get_params() y set_params()
    3. 3. Soporte para la licencia BSD y una comunidad activa
  3. Las grandes etapas de un proyecto de Machine Learning
    1. 1. La preparación de los datos
      1. a. La separación de las variables explicativasde la variable objetivo
      2. b. La separación entre los datos de entrenamientoy los de prueba
      3. c. Las transformaciones de las variables
      4. d. La implementación dirigida de las transformaciones
      5. e. Finalizar la preparación de los datos
    2. 2. Experimentación
      1. a. Definición de métricas para la evaluación
      2. b. Los algoritmos de optimización de hiperparámetros
      3. c. El modelo de base (DummyRegressor y DummyClassifier)
      4. d. Pruebas de los distintos algoritmos con diferentescombinaciones  de parámetros
      5. e. Evaluación y elección final
  4. Conclusiones de la modelización
Aprendizaje supervisado
  1. Introducción
  2. Las familias de algoritmos
    1. 1. Los algoritmos lineales
      1. a. Las regresiones
      2. b. Las regresiones regularizadas
      3. c. Las máquinas vectoriales de soporte (SVM)
    2. 2. Los algoritmos semilineales (modelos de núcleo)
    3. 3. Los algoritmos no lineales
      1. a. Los vecinos más cercanos (KNN)
      2. b. El árbol de decisión
      3. c. Los métodos de conjunto
      4. d. Redes neuronales
  3. La regresión en la práctica
    1. 1. Preparación de los datos
      1. a. Importación de los datos
      2. b. Separación de las variables explicativasde la variable objetivo
      3. c. Separación de los datos de entrenamientoy de prueba
      4. d. Transformaciones de las variables
      5. e. Finalización de la preparación delos datos
    2. 2. Función de cálculo y visualizaciónde las regresiones
    3. 3. Modelado de una regresión
      1. a. Modelo de base (DummyRegressor)
      2. b. Prueba de algoritmos simultáneos
      3. c. El pipeline
  4. La clasificación en la práctica
    1. 1. Preparación de los datos
      1. a. Importación de los datos
      2. b. Separación entre las variables explicativasy la variable objetivo
      3. c. Separación de los datos de entrenamientoy de prueba
      4. d. Transformación de columnas
      5. e. Formato de los nombres
      6. f. Ajuste del tipo de variables
    2. 2. Función de cálculo y visualizaciónde las clasificaciones
    3. 3. Experimentos
      1. a. Modelo de base (DummyClassifier)
      2. b. Algoritmos que compiten entre sí
  5. Conclusión
Aprendizaje no supervisado
  1. Introducción
  2. La reducción dimensional
    1. 1. El ACP en la práctica para analizar
      1. a. Preparación de los datos
      2. b. Series de los valores propios
      3. c. El círculo de correlaciones
      4. d. El gráfico de los individuos
    2. 2. El ACP en la práctica para el modelado
    3. 3. Otros algoritmos de reducción dimensional
  3. Clustering
    1. 1. La práctica del clustering con K-means
      1. a. Adquisición y preparación de losdatos
      2. b. Pruebas para determinar el número de clústeres
      3. c. Elección del clustering
      4. d. El score ARI
    2. 2. Otros algoritmos de clustering
      1. a. GMM
      2. b. MeanShift
      3. c. DBSCAN
Modelado del texto y la imagen
  1. El modelado de texto
    1. 1. Los módulos del NLP
      1. a. NLTK
      2. b. TextBlob
      3. c. spaCy
    2. 2. Puesta en práctica del NLP
      1. a. Preprocesamiento de los datos
      2. b. Extractores de características
      3. c. Modelado
    3. 3. Introducción a los modelos avanzados en NLP
      1. a. Representaciones de palabras
      2. b. Codificación de frases
      3. c. Transformers y modelos contextuales
      4. d. Larges Languages Models(LLM)
  2. El modelado de imágenes
    1. 1. Las soluciones de Machine Learning destinadas a las imágenes
      1. a. Pillow para iniciarse en el pretratamiento
      2. b. Scikit-image
      3. c. OpenCV
    2. 2. Métodos de modelado de imágenes
      1. a. Segmentar
      2. b. Detectar
      3. c. Clasificar
    3. 3. Ir más allá con las CNN
      1. a. Cómo funcionan las CNN
      2. b. Transfer learning
      3. c. Iniciación a TensorFlow y Keras
      4. d. Ejemplos de uso de CNN
Realizar un proyecto de ciencia de datos con Python
  1. Introducción
  2. El tema: determinar el precio de los vehículos de ocasión
    1. 1. Los datos
    2. 2. Las etapas del proyecto
      1. a. El notebook de EDA
      2. b. El notebook de modelado
      3. c. Los imprevistos de los datos
  3. Modelado en la práctica
    1. 1. Notebook 1: EDA
      1. a. Adquisición de datos y comprobaciones iniciales
      2. b. Limpieza de los datos
      3. c. Exploración y análisis
    2. 2. Notebook 2: modelado simple
      1. a. Adquisición y selección de los datos
      2. b. Modelado
      3. c. Resultados
    3. 3. Notebook 3: modelado mixto
      1. a. Adquisición y selección de datos
      2. b. Modelado
      3. c. Resultados
  4. Conclusión
Conclusión
  1. El papel central de los datos y su comprensión
  2. Evoluciones que lo transforman y aceleran todo
    1. 1. La evolución de los equipos tecnológicos
    2. 2. La mejora de los modelos
    3. 3. La difusión al público en generaly la integración gradual de los desafíos
  3. Importancia de la teoría e invitación a la exploración

Éric DEMANGEL

Eric DEMANGEL es científico de datos freelance desde 2020 tras acumular 11 años de experiencia como analista de datos, en una empresa de estudios de mercados. Apasionado de la enseñanza, también ha asumido el papel de mentor de datos, con el que guía a sus alumnos con una curiosidad insaciable y un deseo constante de transformar los datos en conocimiento. A través de sus enseñanzas, se esfuerza por hacer que este complejo campo sea accesible para todos, simplificando sus conceptos y compartiendo su experiencia de una manera clara y pedagógica.

Novedades

Ver más