El dato Guía de supervivencia en el mundo de los datos

Benoit CAYLA

Este libro es un auténtico manual práctico, dirigido a cualquier persona que tenga que trabajar con datos (directores de proyectos, CDO, arquitectos, ingenieros de datos o incluso Data Scientists), que desee ampliar sus conocimientos sobre la gestión de datos o que satisfaga necesidades puntuales en las operaciones que se deban llevar a cabo. El objetivo es presentar todos los conceptos y nociones útiles cuando esté involucrado en un proyecto de integración de datos. Cada capítulo se puede leer...

Consultar extractos del libro Extracto del libro

Nivel Iniciado a Medio
Número de páginas 419 páginas
Publicación marzo 2024

Nivel Medio a Experto
Publicación marzo 2024

Presentación

Este libro es un auténtico manual práctico, dirigido a cualquier persona que tenga que trabajar con datos (directores de proyectos, CDO, arquitectos, ingenieros de datos o incluso Data Scientists), que desee ampliar sus conocimientos sobre la gestión de datos o que satisfaga necesidades puntuales en las operaciones que se deban llevar a cabo. El objetivo es presentar todos los conceptos y nociones útiles cuando esté involucrado en un proyecto de integración de datos. Cada capítulo se puede leer independientemente de los demás y los ejemplos apoyan las afirmaciones del autor.

El lector comienza con una aclaración esencial de los diferentes conceptos que giran en torno a los datos. Esta introducción nos permite demostrar que los datos son un concepto más complejo de lo que pensamos. Posteriormente, el libro aborda el almacenamiento de datos, lo que conduce de manera natural a la noción de integración de estos datos y a sus impactos en el Sistema de Información.

Debido a que los datos son cambiantes, el autor establece los medios que se deben implementar para una gestión de datos efectiva. Esto permite al lector entender mejor cómo definir un marco que será controlado y gestionado y explicar cómo las empresas que implementan Data Fabric o Data Mesh pueden ofrecer servicios de datos relevantes. Posteriormente, el libro detalla los métodos de análisis y de visualización de datos que permiten detectar problemas en la calidad de los datos que seguidamente se tendrán que limpiar y transformar para aumentar el valor de la información confiable.

En última instancia, se invitará al lector a echar un vistazo al mundo de la IA. Los principios y conceptos principales en torno al Machine Learning y al Deep Learning se explican de forma sencilla para que el lector pueda entender mejor cómo funcionan los algoritmos gracias a los datos. Finalmente, el autor explica cómo funcionan las grandes arquitecturas de datos (Data Warehouse, Data Lake, MDM, Data Hub y EDI) detallando sus principios y sus diferencias.

Índice

Introducción

Érase una vez unos datos
¿Por qué este libro?
¿A quién va dirigido este libro?

Datos en todas sus facetas

Introducción
¿Qué son los datos?
Propiedades físicas
1. 1. El tipo
  1. a. Bits y bytes
  2. b. Números enteros
  3. c. Números decimales
  4. d. Los textos
  5. e. Las fechas
  6. f. Las imágenes
  7. g. El vídeo
  8. h. El sonido
2. 2. El dominio
3. 3. Variabilidad
  1. a. Variable cuantitativa
  2. b. Variable categórica
Propiedades de exposición
1. 1. El formato
  1. a. Fecha
  2. b. Los números
  3. c. Formatos de moneda
  4. d. Expresiones regulares
2. 2. Localización e internacionalización
Propiedades estructurales
1. 1. Granularidad
2. 2. La estructura
  1. a. Datos estructurados
  2. b. Datos semiestructurados
  3. c. Datos no estructurados
3. 3. Mediciones y dispersión
  1. a. Elementos de medición
  2. b. Distribución
Propiedades funcionales
1. 1. El contexto
2. 2. Sensibilidad
  1. a. Datos personales
  2. b. Otros datos sensibles
  3. c. Medición de la sensibilidad
Vocabulario de datos

Persistencia

Introducción
Archivos
1. 1. El archivo CSV
2. 2. El archivo XML
3. 3. El archivo JSON
Bases de datos
1. 1. Familias de bases de datos
2. 2. Modelización
  1. a. Enfoque de modelización
  2. b. Tipos de modelización
3. 3. Integridad referencial
4. 4. Indexación de datos
  1. a. Principio de funcionamiento
  2. b. Creación de índices
  3. c. Tipos de índices
Bases de datos relacionales (SGBD-R)
1. 1. Lenguaje SQL
2. 2. LMD / SQL
  1. a. El comando SELECT
  2. b. La cláusula UPDATE
  3. c. La cláusula INSERT
  4. d. La cláusula DELETE
  5. e. Operaciones con conjuntos: uniones
  6. f. Operaciones con conjuntos: unión
3. 3. Transacciones
Sistemas OLTP y OLAP
Sistema distribuido y teorema CAP
Bases de datos NoSQL
El Big Data
1. 1. Las 3 V
2. 2. Hadoop
  1. a. HDFS
  2. b. MapReduce
  3. c. YARN
3. 3. Gestión de datos con Hadoop
  1. a. Hive
  2. b. HBase
  3. c. Sqoop
  4. d. Cassandra
  5. e. MongoDB
4. 4. Herramientas de programación
  1. a. Pig
  2. b. Spark
Tendencias actuales
1. 1. Bases de datos en la nube (Database as a Service:DBaaS)
2. 2. El MDS (Modern Data Stack)

Integración de datos

Introducción
Características
1. 1. Arquitectura para la integración de datos
2. 2. Los principales modelos de integración dedatos
  1. a. Difusión de datos
  2. b. Migración de datos
  3. c. Sincronización
3. 3. Modos de transmisión
4. 4. Tipo de conexión
  1. a. Acceso síncrono
  2. b. Acceso asíncrono
5. 5. Métodos de tratamiento de datos
  1. a. Tratamiento de los datos por lotes o Batch Processing
  2. b. Tratamiento de datos en tiempo real
  3. c. Tratamiento de datos en flujos o Stream Processing
  4. d. Resumen
Principios de funcionamiento
1. 1. Pasos para una buena integración de datos
2. 2. Escalabilidad y tolerancia a fallos
3. 3. Conectores
Soluciones de integración de datos
1. 1. ETL
  1. a. Conectores
  2. b. Flujos ETL (mappings)
  3. c. Características
2. 2. ELT
3. 3. Virtualización de datos
Soluciones orientadas a los buses
1. 1. El bus de mensajes
2. 2. Modo punto a punto
3. 3. Modo publicación-suscripción
4. 4. Para recordar

Analizar y hacer más fiables los datos

Introducción
Preparar los datos
Análisis descriptivo
1. 1. Análisis básicos
2. 2. Correlación entre columnas
3. 3. Detectar enlaces entre tablas (entre conjuntos dedatos)
Análisis exploratorio y visualización de datos
1. 1. Visualizar para analizar mejor
2. 2. Los principios de la Gestalt
3. 3. Primitivas gráficas
4. 4. Representaciones gráficas
  1. a. Texto simple
  2. b. Las tablas
  3. c. La nube de puntos
  4. d. Las curvas
  5. e. Gráficos de superficie
  6. f. Diagrama de barras
  7. g. Histogramas
  8. h. Mapas de calor
  9. i. Las cajas con bigotes
  10. j. Los mapas
  11. k. Otras visualizaciones
5. 5. Utilizar DataViz para analizar datos
  1. a. La proximidad mejora la asociación visual
  2. b. Reducir el conjunto de datos si es necesario
  3. c. Ordenar los datos
  4. d. Consolidar datos
  5. e. Prohibir las sobrecargas
  6. f. Jugar con los colores
  7. g. Consejos visuales
6. 6. Primera impresión
Algunos ejemplos de análisis
1. 1. Análisis de datos por cohortes
2. 2. Análisis inferencial
3. 3. Análisis predictivo
4. 4. Análisis causal
Calidad de los datos
1. 1. ¿Por qué es importante la calidadde los datos?
2. 2. Criterios de calidad de los datos
3. 3. ¿Cómo se garantiza la calidad delos datos?
4. 4. Análisis, indicadores y normas
5. 5. Las normas
  1. a. Fórmulas
  2. b. Reglas de control y cálculos de conjuntos
  3. c. Reglas de estandarización
  4. d. Análisis
6. 6. Duplicación
  1. a. Aspectos principales
  2. b. Detección de líneas duplicadas
  3. c. Principio de eliminación de duplicados porReconciliación-Consolidación
  4. d. Primera etapa: partición (divisiónen grupos)
  5. e. Segunda etapa: la consolidación
  6. f. Tercera etapa: re-partición y asociación
  7. g. Cuarta etapa: consolidación de datos (GoldenRecord)

Gestión de datos

Introducción
El equipo de gestión de datos
Metadatos
1. 1. Los retos de la gestión de metadatos
2. 2. Metadatos técnicos
3. 3. Metadatos de negocio - Glosario empresarial
  1. a. Taxonomía
  2. b. Jerarquías
  3. c. Cómo funciona
Linaje de datos
1. 1. Introducción
2. 2. Capas de linaje
3. 3. Modo de funcionamiento
4. 4. Análisis de impacto
5. 5. Navegación
El catálogo de metadatos
Seguridad de los datos
1. 1. Anonimización frente a seudonimización
2. 2. Cifrado de la información
  1. a. Cifrado simétrico
  2. b. Cifrado asimétrico
  3. c. Funciones de cifrado
3. 3. Enmascaramiento permanente de datos
4. 4. Enmascaramiento dinámico de datos
5. 5. Técnicas y métodos
Fábrica de datos (Data Fabric)
Mallado de datos (Data Mesh)

Saque el máximo partido a sus datos con la IA

Introducción
El uso de la IA
1. 1. Tomar decisiones
2. 2. Visión por ordenador
3. 3. Tratamiento de la información textual (NLP)
Machine Learning
1. 1. Principio de aprendizaje
2. 2. Enfoque determinista frente a probabilista
3. 3. Tipos de aprendizaje
4. 4. El proyecto de Machine Learning
  1. a. Primera etapa: definición de objetivos
  2. b. Etapa intermedia: acceso a los datos y análisis
  3. c. Segunda etapa: preparación de los datos
  4. d. Tercera etapa: desglose del conjunto de datos
  5. e. Cuarta etapa: formación
  6. f. Quinta etapa: evaluación y puntuación
  7. g. Sexta etapa: despliegue e industrialización
5. 5. Sesgo y varianza
  1. a. El sesgo
  2. b. Varianza
  3. c. ¿Sesgo y/o varianza?
Redes neuronales
1. 1. ¿Qué es una red neuronal?
2. 2. Cómo funciona una neurona
3. 3. Arquitecturas de redes neuronales
  1. a. Entrenamiento de redes neuronales
  2. b. Redes neuronales artificiales (ANN)
  3. c. Redes neuronales convolucionales (CNN)
  4. d. Redes neuronales recurrentes (RNN)
  5. e. Redes de tipo AutoEncoder
  6. f. Redes GAN
4. 4. Transfer Learning
La IA eXplainable
1. 1. Por qué y cómo explicar un modelo
2. 2. Algoritmos interpretables
3. 3. LIME
4. 4. SHAP
5. 5. PDP

Principales soluciones de gestión de datos

Introducción
El Data Warehouse
1. 1. Principios generales de cargar de un Data Warehouse
2. 2. Modelización
3. 3. Data Marts
4. 4. Los cubos/OLAP
Data Lake
1. 1. El lago de datos
2. 2. Base tecnológica
3. 3. ¿Lago o almacén de datos?
El repositorio (MDM)
1. 1. Introducción
2. 2. Arquitecturas MDM
  1. a. Soluciones analíticas o de consolidación
  2. b. Arquitecturas de tipo Registro
  3. c. Soluciones de coexistencia
  4. d. Soluciones centralizadas
3. 3. Principales funciones del MDM multidominio
  1. a. Modelización
  2. b. Alimentación
  3. c. Comunicación con sistemas externos
  4. d. Gestión
  5. e. Trazabilidad de los datos de origen
  6. f. Histórico de datos
El Data Hub
1. 1. Tipos de Data Hub
2. 2. Tipos de almacenamiento
3. 3. Centralización y modelización dedatos
EDI
1. 1. Principios de funcionamiento del EDI
2. 2. EDI y las organizaciones
3. 3. Ventajas e inconvenientes
4. 4. Servicios EDI
Resumen

Glosario

Introducción

Autor

Benoit CAYLA

Benoit CAYLA es ingeniero informático con más de 20 años de experiencia en la gestión y el uso de datos. Ha utilizado su experiencia para ayudar e inpulsar a una gran variedad de proyectos como la integración, gestión, análisis, la IA, implementación de soluciones MDM o PIM para varias empresas especializadas en datos (incluidas IBM, Informatica y Tableau). Estas experiencias tan enriquecedoras le han llevado a intervenir en proyectos de mayor escala, en torno a la gestión y valorización de datos, principalmente en sectores de actividad como la industria, la gran distribución, los seguros y las finanzas. Apasionado por la IA (Machine Learning, NLP y Deep Learning), el autor se unió a Blue Prism en 2019 y hoy trabaja como experto en datos/IA y procesos. Su sentido educativo y su experiencia le llevaron también a dirigir un blog en francés (datacorner.fr), destinado a mostrar cómo entender, analizar y utilizar los datos de la forma más sencilla posible.

Más información

El dato Guía de supervivencia en el mundo de los datos

Información adicional

Características

Información adicional

Características

Benoit CAYLA

Novedades