DataViz con Matplotlib, Seaborn, Plotly
Introducción a la visualización de datos
La visualización es un elemento fundamental en el análisis de datos. A menudo denominado data mining o data exploration, este enfoque consiste en explorar datos con el objetivo de descubrir patrones, tendencias, relaciones o incluso información oculta que permita comprender completamente el objeto de estudio.
1. La visualización al servicio de la comprensión
Al estilo de los detectives, vamos a intentar comprender la información contenida apoyándonos en toda una serie de gráficos que actúan como indicios. La elección es amplia y resulta importante seleccionar los más relevantes en cada caso. Al final, el objetivo es representar información compleja de una manera clara y comprensible. Ello requiere algunos conocimientos básicos, respetar ciertas reglas y, sobre todo, practicar.
Veamos juntos cómo organizarnos para llevar a cabo nuestra investigación de la mejor manera posible.
2. Metodología
a. Contextualización de las búsquedas
La exploración siempre se lleva a cabo con un propósito. No se trata de crear imágenes al azar. Antes de dar el paso, es importante definir nuestro ámbito de intervención: ¿qué buscamos?. Los datos que tenemos a menudo superan el alcance de nuestras necesidades y no todas las variables son necesariamente útiles. Estas preguntas...
Las principales librerías para la visualización: Matplotlib, Seaborn y Plotly-Express
1. Matplotlib
a. Presentación de Matplotlib
Matplotlib es una librería de visualización de datos de código abierto, desarrollada originalmente por John D. Hunter en 2003. Desde su inicio, se ha convertido en una de las más populares en el ecosistema de Python para la visualización de datos. A menudo se considera esencial para aquellos que quieren aprender sobre visualización en Python.
Matplotlib ofrece una amplia variedad de funciones y posibilidades de personalización para crear diferentes tipos de gráficos, como histogramas, diagramas de dispersión, gráficos de barras, diagramas de caja y muchos más.
En el corazón de Matplotlib se encuentra pyplot, un submódulo que proporciona una interfaz simplificada para crear gráficos y visualizaciones con Matplotlib. El uso de pyplot es un paso fundamental en el aprendizaje de Matplotlib porque a través de este módulo se crean y manipulan la mayoría de los gráficos. Casi siempre nos encontraremos con la siguiente forma de importarlo:
import matplotlib.pyplot as plt
El alias plt se utiliza mucho y es muy recomendable su uso.
Además de su amplia gama de posibilidades gráficas, la librería interactúa perfectamente con NumPy o Pandas y proporciona la funcionalidad básica a Seaborn.
b. Primeros pasos con Matplotlib
Vamos a dibujar un primer gráfico simple con Matplotlib que requiere cuatro pasos: importación, datos, trazado y visualización.
# 1 / Importar Matplotlib
import matplotlib.pyplot as plt # No ponga mayúsculas
# 2 / Nuestros datos
x = [1, 2, 3, 4, 5]
y = [2, 5, 8, 3, 12]
# 3 / Trazado del gráfico
plt.plot(x, y)
# 4 / Visualización
plt.show() # Este comando solicita la visualización
plt.show() puede ser reemplazado por «;» . Debe aparecer al final del programa.

En este punto, solo tenemos una pantalla minimalista sin ningún formato.
Pero podremos simplemente agregar elementos intercalando tantas líneas de comandos como capas nuevas deseamos. He aquí el código anterior con un título, nombres en los ejes, una línea...
Los diferentes tipos de gráficos
1. Los desafíos
a. El camino hacia el gráfico adecuado
Elegir el tipo de gráfico adecuado para representar un conjunto de datos no siempre es sencillo. Es esencial comenzar por definir claramente el propósito del gráfico y asegurarnos de tener una comprensión profunda del tema en cuestión. Esta etapa de investigación y reflexión a menudo ayuda a fortalecer nuestro conocimiento del problema. A continuación, es crucial seleccionar el tipo de gráfico más apropiado entre las múltiples opciones disponibles, asegurándonos de que responda a nuestras preguntas de manera efectiva. Por último, hay que prestar especial atención a la finalización y al formato del gráfico, ya que estos elementos refuerzan el mensaje que transmite.
b. Aspectos importantes
La creación de un gráfico eficaz tiene que ver con la simplicidad y la claridad. Es esencial que la información sea accesible de inmediato, revelando todos los aspectos del objeto. Más allá de la simple elección del tipo de gráfico, hay que valorar la búsqueda de los colores adecuados, una fuente claramente legible, así como cualquier otro enfoque destinado a garantizar un formato claro y aireado. El gráfico no se debe considerar de forma aislada, sino como un todo coherente en el que cada elemento, desde el contenido hasta la forma, contribuye a la transmisión eficiente de la información.
c. Restricciones
Al crear los gráficos, será necesario lidiar con ciertas restricciones.
Restricciones de escala
Entre estas, los problemas de escala son frecuentes, especialmente cuando los valores extremos alteran la disposición de los otros puntos, acumulándolos en una esquina del gráfico. Para solucionar el problema, no siempre es posible aumentar el tamaño del gráfico debido a las limitaciones de espacio, lo que puede llevarnos a cambiar la escala de los ejes. Sin embargo, este cambio no está exento de consecuencias en la representación fiel de las distribuciones, lo que puede dar lugar a distorsiones. En la siguiente ilustración se destaca el impacto de este cambio.

Restricciones de legibilidad
También se debe tener especial cuidado con garantizar la legibilidad de los textos. Esta restricción...