La calidad de los datos: un recordatorio

La calidad de los datos es un elemento fundamental que hay que tener en cuenta antes de abordar técnicas de limpieza y procesamiento de datos. Para cualquier organización que quiera tomar decisiones con conocimiento de causa y sacar el máximo partido de su información, este aspecto no puede pasarse por alto. Todos los procedimientos que examinaremos en este capítulo tienen un único objetivo: proporcionar a los distintos equipos datos fiables.

1. ¿Qué es la calidad de los datos?

La calidad de los datos refleja la capacidad de una organización para mantener la exactitud y sostenibilidad de su información a lo largo del tiempo. Como expertos en la materia, debemos ofrecer datos irreprochables, basados en indicadores claros y fácilmente interpretables. Empezaremos por examinar en detalle los seis criterios que definen las dimensiones de calidad de los datos (DQD).

Esta noción engloba tanto las características intrínsecas de los datos como los métodos aplicados para garantizarlas. En esencia, la calidad de los datos se define por su capacidad para servir a los fines previstos.

Una iniciativa de calidad de datos es un proceso a largo plazo, integrado en todo el ciclo de vida de los datos. Requiere un cambio cultural en la forma en que la organización gestiona sus datos. Es un enfoque global que afecta a toda la empresa y a sus prácticas cotidianas.

Es importante señalar que la introducción de datos erróneos en un proceso producirá inevitablemente datos inexactos en la salida. Por consiguiente, una estrategia basada en datos de mala calidad dará lugar a decisiones ineficaces, con consecuencias directas en el retorno de la inversión.

Créditos: https://dataedo.com/

2. ¿Por qué es importante la DQD?

La calidad de los datos suele verse comprometida por diversos factores. Entre ellos se encuentra el error humano en el momento de su introducción inicial. Errores tipográficos, diferentes convenciones de nomenclatura entre fuentes de datos o abreviaturas incorrectas son una fuente frecuente de problemas. Además, una información inicialmente exacta puede quedar obsoleta con el tiempo, al cambiar el contexto.

Si la calidad de los datos se ve comprometida, habrá consecuencias costosas para las empresas. He aquí...

Depuración de datos

1. Primeros pasos con la biblioteca pandas

pandas es una potente y versátil biblioteca de Python diseñada para la manipulación y el análisis de datos. Fue desarrollada por Wes McKinney, un investigador que empezó a construir lo que se convertiría en pandas. El nombre «pandas» deriva de «Panel Data», un término econométrico para conjuntos de datos que incluyen observaciones a lo largo de varios periodos.

pandas es particularmente adecuada para trabajar con datos tabulares, similares a una hoja de cálculo de Excel o una tabla SQL. Las principales estructuras de datos gestionadas por esta biblioteca son series, que almacenan datos a lo largo de una dimensión, y DataFrames, que lo hacen a lo largo de dos dimensiones (filas y columnas). Estas estructuras de datos facilitan su manipulación, así como su limpieza, preprocesamiento, análisis y visualización.

pandas es muy utilizada en el análisis de datos. A menudo se presenta como la herramienta ideal para manipular datos que pueden organizarse en filas y columnas. Es más, dominar pandas es una habilidad muy buscada por los reclutadores, ya que muchas empresas de todos los sectores recurren cada vez más a la ciencia de datos.

Existen varias alternativas a pandas, entre ellas polars, dask y cudf. Cada una de estas soluciones tiene sus ventajas, en particular la velocidad de procesamiento en comparación con pandas. No las trataremos en este libro, ya que pandas sigue siendo la librería más utilizada para el análisis de datos en Python. Su riqueza y versatilidad, así como su amplia adopción en la comunidad de análisis de datos, la convierten en una herramienta esencial.

2. Presentación de nuestro conjunto de datos

En este capítulo, trabajaremos con un conjunto de datos que está disponible gratuitamente en la plataforma Kaggle.

El comercio electrónico se ha convertido en un nuevo canal de apoyo al desarrollo empresarial. A través del comercio electrónico, las empresas pueden acceder a un mercado más amplio y establecer una mayor presencia proporcionando canales de distribución más baratos y eficientes para sus productos o servicios. El comercio electrónico también ha cambiado la forma en que las personas compran y consumen...

Los cuatro pilares del manejo de datos con pandas

Filtrar, unir, ordenar y agrupar: estas cuatro operaciones constituyen la base de la manipulación de datos con pandas. Permiten explorar, transformar y sintetizar conjuntos de datos de forma eficiente, abriendo la puerta al análisis en profundidad y al descubrimiento de conocimiento.

Filtrado: afine su enfoque seleccionando subconjuntos precisos de datos relevantes para su análisis.
Unión: combine varios conjuntos de datos para obtener una visión holística y explorar las relaciones entre distintas fuentes de información.
Clasificación: organice y priorice los datos para facilitar su análisis y visualización.
Agrupamiento: agrupe datos por similitudes y explore tendencias y agregaciones a diferentes niveles de granularidad.

Estas cuatro operaciones esenciales le permitirán modelar fácilmente sus conjuntos de datos y sacar el máximo partido de ellos para extraer información valiosa.

1. Filtrado avanzado de un DataFrame con operadores binarios

El filtrado consiste en seleccionar un subconjunto de filas de un DataFrame que verifiquen una condición. El filtrado corresponde a lo que antes se llamaba indexación condicional, pero el término « filtrado» es el más utilizado en la gestión de bases de datos.

No podemos utilizar los operadores lógicos and y or para filtrar varias condiciones. Esto se debe a que estos operadores crean una ambigüedad que pandas es incapaz de manejar al filtrar filas.

Los operadores binarios son adecuados para filtrar con varias condiciones:

el operador "y": &
el operador "o": |
el operador "no": - o ~.

Estos operadores son similares a los operadores lógicos, pero sus métodos de evaluación no son los mismos.

El operador &

El operador & se utiliza para filtrar un DataFrame en función de varias condiciones que deben comprobarse simultáneamente.

Considere el siguiente DataFrame df que contiene información sobre los empleados de una empresa:

	employee	team	salary
1	Melissa	HR	55
2	Madison	Data	72
3	Johan	Sales	60
4	Santiago	Data	51

Si queremos encontrar un empleado en el equipo Data con un salario superior a 60k€, podemos filtrar las líneas df con el siguiente código:

# Filtrar el DataFrame con las 2 condiciones anteriores  
print(df[(df['team']...

Preparar sus datos para sacarles todo su potencial