¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
  1. Libros
  2. El dato
  3. Principales soluciones de gestión de datos
Extrait - El dato Guía de supervivencia en el mundo de los datos
Extractos del libro
El dato Guía de supervivencia en el mundo de los datos Volver a la página de compra del libro

Principales soluciones de gestión de datos

Introducción

En los capítulos anteriores hemos examinado las principales herramientas o soluciones para acceder a los datos, moverlos, analizarlos, rectificarlos, almacenarlos y añadirles valor. Hay muchos enfoques diferentes que se pueden utilizar para abordar las distintas naturalezas y características de los datos y, sobre todo, para satisfacer necesidades múltiples y diversas.

Así pues, disponemos de un conjunto de herramientas y soluciones lo suficientemente completo como para responder a prácticamente todos los casos de uso de datos. Por otra parte, aunque las posibilidades de entrelazar estas herramientas y soluciones son prácticamente infinitas, existen algunos patrones clásicos de arquitectura de datos, como:

  • Data Warehouse (o almacén de datos),

  • Data Lake,

  • soluciones de repositorio o MDM (Master Data Management),

  • Data Hub,

  • Herramientas EDI.

El Data Warehouse

El Data Warehouse responde claramente a las necesidades de análisis de datos (Analytics). Es lo contrario de las aplicaciones o plataformas de intercambio de datos como el Data Hub, más orientadas a la gestión de datos operativos (datos calientes). La diferencia es significativa, ya que el objetivo de este tipo de almacenamiento de información es permitir a los usuarios analizar datos fríos (estables) para que puedan deducir tendencias, comprender acontecimientos pasados y, por qué no, hacer predicciones.

El almacén de datos tiene un nombre muy apropiado, ya que su propósito es almacenar datos estratégicos en un espacio gigante para su posterior análisis. Por tanto, los datos operativos se copiarán en él de forma regular, construyendo un historial de datos accesible. La consecuencia inmediata es que este almacén crecerá en volumen, y es en esta acumulación de datos donde reside su riqueza. Otra característica real del Data Warehouse es que los datos que se introducen en él nunca se modifican. En realidad, lo único que se hace es añadir información. Nunca borrará físicamente datos de la base de datos, sino que será preferible borrarlos de manera lógica (mediante una marca), por ejemplo.

Además de estas características ligadas al almacenamiento de datos (volumen e inserción por sí sola), hay una tercera propiedad esencial que tendrá consecuencias estructurales: la capacidad de realizar consultas eficaces (mediante herramientas analíticas) sobre los datos almacenados. Desde una perspectiva más analítica que operativa, cabe pensar que el tiempo de respuesta ya no será siempre el factor más importante. Teniendo en cuenta que el tiempo de respuesta de un análisis es diferente del que se espera en una aplicación operativa, los analistas no van a esperar varios minutos o incluso horas para obtener sus resultados. La escala de valores de los tiempos de respuesta no es la misma, como tampoco lo son los volúmenes almacenados. En un almacén de datos, los volúmenes de datos pueden estallar rápidamente (alcanzando varios Tera Bytes, o incluso más) lo que es un parámetro importante a tener en cuenta, ya que es vital que cada consulta tenga los tiempos de respuesta...

Data Lake

Un lago de datos (Data Lake) es un espacio de almacenamiento generalizado para toda la empresa. Su objetivo es permitir la agregación de datos de cualquier tipo, en cualquier momento y sin límites reales. Por lo tanto, un Data Lake debe permitir y facilitar la ingestión y el almacenamiento de todo tipo de datos, ya sean estructurados, semiestructurados o no estructurados. Asimismo, debe ser muy flexible por lo que  la consecuencia inmediata de esta condición, es que no se impone ninguna modelización.

Así pues, no hay esquema de almacenamiento ni normalización de datos, y los flujos de datos entrantes se limitan a depositar sus datos en el Data Lake. Por tanto, la fase de integración se simplifica enormemente desde el punto de vista del control, aunque se tenga que hacer frente a la limitación del volumen. Además, el Data Lake debe ofrecer a los usuarios una serie de herramientas para encontrar, procesar y transformar la información depositada, a menudo en bruto.

El verdadero inconveniente de esta flexibilidad es que el Data Lake se puede convertir rápidamente en un caos. De hecho, como no hay una catalogación estricta de los datos entrantes, el Data Lake pronto puede contener datos duplicados, incoherentes o, peor aún, totalmente desconocidos (o por lo pronto datos cuyo significado u origen nadie conoce). Es también por este motivo que las soluciones suelen...

El repositorio (MDM)

1. Introducción

Abordar los repositorios empresariales es como tocar el Santo Grial de la gestión de los datos de referencia. No olvidemos la idea principal que subyace a la gestión de los datos: garantizar la fiabilidad y el control de la gestión de los datos y su conocimiento, a lo largo del tiempo. Ya hemos visto cómo las soluciones de gestión permiten cartografiar, auditar y comprender mejor los datos a medida que se almacenan en el sistema de información. También hemos analizado los recursos que hay que poner en marcha para poder ofrecer datos de calidad, en los que se pueda confiar en todo momento. A pesar de todas estas iniciativas, pronto nos damos cuenta de que es realmente complejo, si no imposible, controlar el crecimiento de datos procedentes de múltiples fuentes operativas (como Big Data, sensores, IOT, logs, etc.). Por lo tanto, nos enfrentamos a un gran reto global, que consiste en dominar estos datos. Para lograrlo, merece la pena empezar por una parte de ellos. ¿Por qué no empezar por controlar la más estable y constante, es decir, los datos de referencia?

A diferencia de los datos transaccionales u operativos, los datos de referencia constituyen una base de datos básicos en la que las aplicaciones operativas y de inteligencia empresarial pueden y deben confiar plenamente. Por tanto, los datos de referencia son el denominador común de los datos corporativos. Están destinados a ser compartidos y reutilizados por varios sistemas y varias organizaciones internas.

Por ejemplo, una factura. Una factura es un conjunto de datos operativos como la fecha de facturación, el importe y las cantidades. Pero nuestra factura también utiliza otros datos, como las referencias y descripciones de los productos adquiridos, información sobre el proveedor, etc. Por supuesto, esta información de referencia puede ser reutilizada por otras aplicaciones (ajenas a la facturación), como la gestión de stocks, etc.

Por tanto, el MDM (Master Data Management) es un medio o solución para gestionar datos de referencia, a menudo con fines interfuncionales.

Históricamente, las soluciones MDM se han dividido en dos tipos. Hay que decir que cuando MDM se desarrolló por primera vez, estos dos tipos de información estaban (y siguen estando) en el centro de los principales...

El Data Hub

La función del Data Hub (como su nombre indica) es facilitar el intercambio de datos entre varios sistemas dispares, con fines operativos y, por qué no, decisorios (en contraposición a las iniciativas puramente decisorias). Por tanto, se trata de un servicio global y centralizado de interconexión de los datos de la empresa. Algunos definen el Data Hub como una zona virtual de almacenamiento de datos, aunque en realidad es mucho más que eso, entre otras cosas porque también debe ser capaz de gestionar intercambios a diferentes latencias entre aplicaciones o sistemas que no fueron diseñados para compartir información. 

El hecho de que los intercambios de datos sean operativos significa que son más numerosos y menos voluminosos. También implica que los tiempos de respuesta (a veces en tiempo real) sean un aspecto importante de este tipo de plataformas. Inicialmente, las grandes soluciones de Data Hub solo gestionaban (por el momento) datos estructurados o semiestructurados, pero con la llegada del Big Data, esta característica está cambiando y ya no es raro encontrar un Data Hub antes de un Data Lake, por ejemplo.

1. Tipos de Data Hub

Los Data Hubs pueden ser de varios tipos:

  • El hub de aplicación: dentro de una aplicación o una solución empresarial compleja, el papel de este tipo de hub es facilitar los intercambios entre los distintos componentes de software...

EDI

Los EDI (Intercambio electrónico de datos o Electronic Data Interchange) son soluciones destinadas a permitir el intercambio de datos entre diferentes empresas. La necesidad dista mucho de ser nueva, y las primeras soluciones EDI vieron la luz en los años 80, o incluso antes. Pero lo que les ha dado (y les sigue dando) tanto éxito, es la noción de estandarización que a menudo se les asocia.

1. Principios de funcionamiento del EDI

La idea básica que subyace al EDI es muy sencilla: debe permitir que distintas organizaciones intercambien datos, en lo que se conoce como intercambios B2B (Business To Business). Quien dice organizaciones diferentes, dice datos y calidades diferentes; es necesario por tanto reunir lo que se opone entre sí.

Hubo que empezar por definir al menos los protocolos (normas) de intercambio de estos datos, para tener en cuenta los distintos tipos que se deben intercambiar y luego, por supuesto, los propios datos intercambiados.

Hablamos de mensajes EDI, e incluso de transacciones EDI, para describir los datos que van a circular entre las partes. En la práctica, estos mensajes EDI son ficheros estandarizados (y veremos más adelante que hoy en día existe un gran número de normas, en función del tipo de intercambio y de la naturaleza de los datos intercambiados). Los documentos en tránsito pueden ser órdenes de pedido, descripciones de productos, facturas, solicitudes de presupuesto, transacciones bancarias, etc.

Cuando hablamos de EDI, hay que tener en cuenta que la mayoría de las veces son organizaciones independientes las que han definido las normas (y por tanto son garantes de ellas). Dichas normas permiten la aplicación de:

  • la estructura y el formato de los mensajes EDI,

  • las transacciones EDI y protocolos asociados,

  • las reglas de gestión adecuadas (sobre todo en lo que respecta a la calidad de los datos),

  • seguridad de los intercambios.

En términos generales, existen dos tipos de EDI: los EDI diseñados para permitir conexiones punto a punto y los EDI centralizados.

Conexiones EDI punto a punto

Este es el ejemplo más simple...

Resumen

Para su información, a continuación se muestra un cuadro resumen de las principales soluciones de gestión de datos y sus características:

 

Data Hub

Data Warehouse

Data Lake

MDM

EDI

Datos operativos

No

Inteligencia empresarial (analítica)

No

No

No

Datos de referencia

No (excepto MDM en modo hub)

No

No

No

Carga mediante ETL/ELT

Posible

Posible

Datos estructurados

Datos semiestructurados

No

No

Datos no estructurados

No

No

No

Gestión de grandes volúmenes

No

No

No

Modelización

No

No (salvo gestión de caché)

Certificación de datos (calidad de los datos)

No

Parcialmente

Integración de datos bidireccional

No

No

Integración de datos en tiempo real

No

No

Necesidad de una gestión sólida

No

No

No