Informática profesional y data sciences

1. La tecnología

Las plataformas de software de Big Data se despliegan a través de ofertas open source o propietarias.

Tenga en cuenta que es posible implementar soluciones de data science en grandes «clouds» (Amazon, Azure, IBM Cloud/BlueMix, etc.), sabiendo que los contextos que requieren el despliegue de muchos nodos (normalmente nodos Hadoop) no se prestan a las implementaciones en la nube.

Centrémonos en las herramientas open source que se pueden desplegar dentro de una organización (onpremises).

El ecosistema de Big Data más famoso se llama Hadoop. La fundación Apache alberga los paquetes de software correspondientes, así como muchos otros paquetes de software: https://www.apache.org/. Hadoop Apache

Apache

Veamos algunos componentes particularmente centrales y útiles de la base de Apache, de una lista demasiado larga para estudiarla en detalle aquí:

  • Hadoop es un sistema distribuido, que incluye un sistema de archivos distribuido y redundante llamado HDFS (el factor de redundancia de datos es al menos 3) y la implementación de un algoritmo de paralelización extremadamente eficiente, llamado Mapreduce. Hadoop

  • HDFS puede permitir el acceso a archivos de texto o .csv (formato Excel) en condiciones de rendimiento extraordinarias, independientemente de su tamaño. Además, el uso de esta tecnología solo tiene sentido para archivos relativamente grandes. HDFS también puede alojar archivos de varias bases...

Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Pequeño bestiario de los data sciences
Siguiente
Notaciones