Índice

Informática profesional y datasciences

1. La tecnología

Las plataformas de aplicaciones Big Data se han desarrollado a través de diversas ofertas open source o propietarias.

Conviene tener en mente que es posible implementar soluciones de data sciences en las grandes «cloud» (Amazon, Azure, BlueMix...), sabiendo que los contextos que necesitan el despliegue de muchos nodos (nodos Hadoop, típicamente) no se prestan fácilmente a implementaciones en la cloud.

Concentrémonos en las herramientas open source que pueden desplegarse en el seno de una organización (on-premises).

El ecosistema Big Data más conocido se denomina HadoopHadoop. La fundación Apache alberga las suites de aplicaciones correspondientes, así como muchas otras suites de aplicaciones: https://www.apache.org/. Apache

Apache

He aquí ciertos componentes de la fundación Apache que resultan particularmente importantes y útiles, entre una lista demasiado larga como para ser estudiada aquí con detalle:

  • HadoopHadoop es un sistema distribuido, que comprende un sistema de archivos distribuido y redundante llamado HDFS (el factor de redundancia de los datos es, al menos, igual a 3) y la implementación de un algoritmo de paralelización extremadamente eficaz llamado Mapreduce.

  • HDFS permite acceder a los archivos de texto o .csv (formato Excel) en condiciones de rendimiento extraordinarias, sea cual sea su tamaño. Por otro lado, el uso de esta tecnología solo tiene sentido para archivos relativamente ...