¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
  1. Manuales
  2. El dato - Guía de supervivencia en el mundo de los datos

El dato Guía de supervivencia en el mundo de los datos

Información adicional

  • 5% de descuento en todos los libros
  • Envío gratis a partir de 25 € de compra
  • Versión online gratis por un año

Características

  • Encuadernación rústica - 17 x 21 cm
  • ISBN: 978-2-409-04466-3
  • EAN: 9782409044663
  • Ref. ENI: DPTHS-DATA

Información adicional

  • 5% de descuento en todos los libros
  • Versión online digital, no descargable
  • Consultable en línea durante 10 años inmediatamente después de la validación del pago.

Características

  • HTML
  • ISBN: 978-2-409-04467-0
  • EAN: 9782409044670
  • Ref. ENI: LNDPTHS-DATA
Este libro es un auténtico manual práctico, dirigido a cualquier persona que tenga que trabajar con datos (directores de proyectos, CDO, arquitectos, ingenieros de datos o incluso Data Scientists), que desee ampliar sus conocimientos sobre la gestión de datos o que satisfaga necesidades puntuales en las operaciones que se deban llevar a cabo. El objetivo es presentar todos los conceptos y nociones útiles cuando esté involucrado en un proyecto de integración de datos. Cada capítulo se puede leer...
Consultar extractos del libro Extracto del libro
  • Nivel Iniciado a Medio
  • Número de páginas 419 páginas
  • Publicación marzo 2024
  • Nivel Medio a Experto
  • Publicación marzo 2024
Este libro es un auténtico manual práctico, dirigido a cualquier persona que tenga que trabajar con datos (directores de proyectos, CDO, arquitectos, ingenieros de datos o incluso Data Scientists), que desee ampliar sus conocimientos sobre la gestión de datos o que satisfaga necesidades puntuales en las operaciones que se deban llevar a cabo. El objetivo es presentar todos los conceptos y nociones útiles cuando esté involucrado en un proyecto de integración de datos. Cada capítulo se puede leer independientemente de los demás y los ejemplos apoyan las afirmaciones del autor.

El lector comienza con una aclaración esencial de los diferentes conceptos que giran en torno a los datos. Esta introducción nos permite demostrar que los datos son un concepto más complejo de lo que pensamos. Posteriormente, el libro aborda el almacenamiento de datos, lo que conduce de manera natural a la noción de integración de estos datos y a sus impactos en el Sistema de Información.

Debido a que los datos son cambiantes, el autor establece los medios que se deben implementar para una gestión de datos efectiva. Esto permite al lector entender mejor cómo definir un marco que será controlado y gestionado y explicar cómo las empresas que implementan Data Fabric o Data Mesh pueden ofrecer servicios de datos relevantes. Posteriormente, el libro detalla los métodos de análisis y de visualización de datos que permiten detectar problemas en la calidad de los datos que seguidamente se tendrán que limpiar y transformar para aumentar el valor de la información confiable.

En última instancia, se invitará al lector a echar un vistazo al mundo de la IA. Los principios y conceptos principales en torno al Machine Learning y al Deep Learning se explican de forma sencilla para que el lector pueda entender mejor cómo funcionan los algoritmos gracias a los datos. Finalmente, el autor explica cómo funcionan las grandes arquitecturas de datos (Data Warehouse, Data Lake, MDM, Data Hub y EDI) detallando sus principios y sus diferencias.
Introducción
  1. Érase una vez unos datos
  2. ¿Por qué este libro?
  3. ¿A quién va dirigido este libro?
Datos en todas sus facetas
  1. Introducción
  2. ¿Qué son los datos?
  3. Propiedades físicas
    1. 1. El tipo
      1. a. Bits y bytes
      2. b. Números enteros
      3. c. Números decimales
      4. d. Los textos
      5. e. Las fechas
      6. f. Las imágenes
      7. g. El vídeo
      8. h. El sonido
    2. 2. El dominio
    3. 3. Variabilidad
      1. a. Variable cuantitativa
      2. b. Variable categórica
  4. Propiedades de exposición
    1. 1. El formato
      1. a. Fecha
      2. b. Los números
      3. c. Formatos de moneda
      4. d. Expresiones regulares
    2. 2. Localización e internacionalización
  5. Propiedades estructurales
    1. 1. Granularidad
    2. 2. La estructura
      1. a. Datos estructurados
      2. b. Datos semiestructurados
      3. c. Datos no estructurados
    3. 3. Mediciones y dispersión
      1. a. Elementos de medición
      2. b. Distribución
  6. Propiedades funcionales
    1. 1. El contexto
    2. 2. Sensibilidad
      1. a. Datos personales
      2. b. Otros datos sensibles
      3. c. Medición de la sensibilidad
  7. Vocabulario de datos
Persistencia
  1. Introducción
  2. Archivos
    1. 1. El archivo CSV
    2. 2. El archivo XML
    3. 3. El archivo JSON
  3. Bases de datos
    1. 1. Familias de bases de datos
    2. 2. Modelización
      1. a. Enfoque de modelización
      2. b. Tipos de modelización
    3. 3. Integridad referencial
    4. 4. Indexación de datos
      1. a. Principio de funcionamiento
      2. b. Creación de índices
      3. c. Tipos de índices
  4. Bases de datos relacionales (SGBD-R)
    1. 1. Lenguaje SQL
    2. 2. LMD / SQL
      1. a. El comando SELECT
      2. b. La cláusula UPDATE
      3. c. La cláusula INSERT
      4. d. La cláusula DELETE
      5. e. Operaciones con conjuntos: uniones
      6. f. Operaciones con conjuntos: unión
    3. 3. Transacciones
  5. Sistemas OLTP y OLAP
  6. Sistema distribuido y teorema CAP
  7. Bases de datos NoSQL
  8. El Big Data
    1. 1. Las 3 V
    2. 2. Hadoop
      1. a. HDFS
      2. b. MapReduce
      3. c. YARN
    3. 3. Gestión de datos con Hadoop
      1. a. Hive
      2. b. HBase
      3. c. Sqoop
      4. d. Cassandra
      5. e. MongoDB
    4. 4. Herramientas de programación
      1. a. Pig
      2. b. Spark
  9. Tendencias actuales
    1. 1. Bases de datos en la nube (Database as a Service:DBaaS)
    2. 2. El MDS (Modern Data Stack)
Integración de datos
  1. Introducción
  2. Características
    1. 1. Arquitectura para la integración de datos
    2. 2. Los principales modelos de integración dedatos
      1. a. Difusión de datos
      2. b. Migración de datos
      3. c. Sincronización
    3. 3. Modos de transmisión
    4. 4. Tipo de conexión
      1. a. Acceso síncrono
      2. b. Acceso asíncrono
    5. 5. Métodos de tratamiento de datos
      1. a. Tratamiento de los datos por lotes o Batch Processing
      2. b. Tratamiento de datos en tiempo real
      3. c. Tratamiento de datos en flujos o Stream Processing
      4. d. Resumen
  3. Principios de funcionamiento
    1. 1. Pasos para una buena integración de datos
    2. 2. Escalabilidad y tolerancia a fallos
    3. 3. Conectores
  4. Soluciones de integración de datos
    1. 1. ETL
      1. a. Conectores
      2. b. Flujos ETL (mappings)
      3. c. Características
    2. 2. ELT
    3. 3. Virtualización de datos
  5. Soluciones orientadas a los buses
    1. 1. El bus de mensajes
    2. 2. Modo punto a punto
    3. 3. Modo publicación-suscripción
    4. 4. Para recordar
Analizar y hacer más fiables los datos
  1. Introducción
  2. Preparar los datos
  3. Análisis descriptivo
    1. 1. Análisis básicos
    2. 2. Correlación entre columnas
    3. 3. Detectar enlaces entre tablas (entre conjuntos dedatos)
  4. Análisis exploratorio y visualización de datos
    1. 1. Visualizar para analizar mejor
    2. 2. Los principios de la Gestalt
    3. 3. Primitivas gráficas
    4. 4. Representaciones gráficas
      1. a. Texto simple
      2. b. Las tablas
      3. c. La nube de puntos
      4. d. Las curvas
      5. e. Gráficos de superficie
      6. f. Diagrama de barras
      7. g. Histogramas
      8. h. Mapas de calor
      9. i. Las cajas con bigotes
      10. j. Los mapas
      11. k. Otras visualizaciones
    5. 5. Utilizar DataViz para analizar datos
      1. a. La proximidad mejora la asociación visual
      2. b. Reducir el conjunto de datos si es necesario
      3. c. Ordenar los datos
      4. d. Consolidar datos
      5. e. Prohibir las sobrecargas
      6. f. Jugar con los colores
      7. g. Consejos visuales
    6. 6. Primera impresión
  5. Algunos ejemplos de análisis
    1. 1. Análisis de datos por cohortes
    2. 2. Análisis inferencial
    3. 3. Análisis predictivo
    4. 4. Análisis causal
  6. Calidad de los datos
    1. 1. ¿Por qué es importante la calidadde los datos?
    2. 2. Criterios de calidad de los datos
    3. 3. ¿Cómo se garantiza la calidad delos datos?
    4. 4. Análisis, indicadores y normas
    5. 5. Las normas
      1. a. Fórmulas
      2. b. Reglas de control y cálculos de conjuntos
      3. c. Reglas de estandarización
      4. d. Análisis
    6. 6. Duplicación
      1. a. Aspectos principales
      2. b. Detección de líneas duplicadas
      3. c. Principio de eliminación de duplicados porReconciliación-Consolidación
      4. d. Primera etapa: partición (divisiónen grupos)
      5. e. Segunda etapa: la consolidación
      6. f. Tercera etapa: re-partición y asociación
      7. g. Cuarta etapa: consolidación de datos (GoldenRecord)
Gestión de datos
  1. Introducción
  2. El equipo de gestión de datos
  3. Metadatos
    1. 1. Los retos de la gestión de metadatos
    2. 2. Metadatos técnicos
    3. 3. Metadatos de negocio - Glosario empresarial
      1. a. Taxonomía
      2. b. Jerarquías
      3. c. Cómo funciona
  4. Linaje de datos
    1. 1. Introducción
    2. 2. Capas de linaje
    3. 3. Modo de funcionamiento
    4. 4. Análisis de impacto
    5. 5. Navegación
  5. El catálogo de metadatos
  6. Seguridad de los datos
    1. 1. Anonimización frente a seudonimización
    2. 2. Cifrado de la información
      1. a. Cifrado simétrico
      2. b. Cifrado asimétrico
      3. c. Funciones de cifrado
    3. 3. Enmascaramiento permanente de datos
    4. 4. Enmascaramiento dinámico de datos
    5. 5. Técnicas y métodos
  7. Fábrica de datos (Data Fabric)
  8. Mallado de datos (Data Mesh)
Saque el máximo partido a sus datos con la IA
  1. Introducción
  2. El uso de la IA
    1. 1. Tomar decisiones
    2. 2. Visión por ordenador
    3. 3. Tratamiento de la información textual (NLP)
  3. Machine Learning
    1. 1. Principio de aprendizaje
    2. 2. Enfoque determinista frente a probabilista
    3. 3. Tipos de aprendizaje
    4. 4. El proyecto de Machine Learning
      1. a. Primera etapa: definición de objetivos
      2. b. Etapa intermedia: acceso a los datos y análisis
      3. c. Segunda etapa: preparación de los datos
      4. d. Tercera etapa: desglose del conjunto de datos
      5. e. Cuarta etapa: formación
      6. f. Quinta etapa: evaluación y puntuación
      7. g. Sexta etapa: despliegue e industrialización
    5. 5. Sesgo y varianza
      1. a. El sesgo
      2. b. Varianza
      3. c. ¿Sesgo y/o varianza?
  4. Redes neuronales
    1. 1. ¿Qué es una red neuronal?
    2. 2. Cómo funciona una neurona
    3. 3. Arquitecturas de redes neuronales
      1. a. Entrenamiento de redes neuronales
      2. b. Redes neuronales artificiales (ANN)
      3. c. Redes neuronales convolucionales (CNN)
      4. d. Redes neuronales recurrentes (RNN)
      5. e. Redes de tipo AutoEncoder
      6. f. Redes GAN
    4. 4. Transfer Learning
  5. La IA eXplainable
    1. 1. Por qué y cómo explicar un modelo
    2. 2. Algoritmos interpretables
    3. 3. LIME
    4. 4. SHAP
    5. 5. PDP
Principales soluciones de gestión de datos
  1. Introducción
  2. El Data Warehouse
    1. 1. Principios generales de cargar de un Data Warehouse
    2. 2. Modelización
    3. 3. Data Marts
    4. 4. Los cubos/OLAP
  3. Data Lake
    1. 1. El lago de datos
    2. 2. Base tecnológica
    3. 3. ¿Lago o almacén de datos?
  4. El repositorio (MDM)
    1. 1. Introducción
    2. 2. Arquitecturas MDM
      1. a. Soluciones analíticas o de consolidación
      2. b. Arquitecturas de tipo Registro
      3. c. Soluciones de coexistencia
      4. d. Soluciones centralizadas
    3. 3. Principales funciones del MDM multidominio
      1. a. Modelización
      2. b. Alimentación
      3. c. Comunicación con sistemas externos
      4. d. Gestión
      5. e. Trazabilidad de los datos de origen
      6. f. Histórico de datos
  5. El Data Hub
    1. 1. Tipos de Data Hub
    2. 2. Tipos de almacenamiento
    3. 3. Centralización y modelización dedatos
  6. EDI
    1. 1. Principios de funcionamiento del EDI
    2. 2. EDI y las organizaciones
    3. 3. Ventajas e inconvenientes
    4. 4. Servicios EDI
  7. Resumen
Glosario
  1. Introducción
Autor : Benoit CAYLA

Benoit CAYLA

Benoit CAYLA es ingeniero informático con más de 20 años de experiencia en la gestión y el uso de datos. Ha utilizado su experiencia para ayudar e inpulsar a una gran variedad de proyectos como la integración, gestión, análisis, la IA, implementación de soluciones MDM o PIM para varias empresas especializadas en datos (incluidas IBM, Informatica y Tableau). Estas experiencias tan enriquecedoras le han llevado a intervenir en proyectos de mayor escala, en torno a la gestión y valorización de datos, principalmente en sectores de actividad como la industria, la gran distribución, los seguros y las finanzas. Apasionado por la IA (Machine Learning, NLP y Deep Learning), el autor se unió a Blue Prism en 2019 y hoy trabaja como experto en datos/IA y procesos. Su sentido educativo y su experiencia le llevaron también a dirigir un blog en francés (datacorner.fr), destinado a mostrar cómo entender, analizar y utilizar los datos de la forma más sencilla posible.
Más información

Novedades

Ver más