Conectarse a los datos
Conceptos clave
Flujo de los datos
Comprender cómo fluyen los datos y cómo se almacenan cuando se usa Power BI Desktop puede ser útil, sobre todo para elegir la conexión, actualizar, crear columnas o medidas e incluso para usar el propio informe.
Volvamos al diagrama del capítulo anterior:
El primer punto clave se refiere al tipo de conexión: la volumetría de los datos o la necesidad de tiempo (casi) real puede llevarlo a usar una conexión «en vivo» en su base de datos (modo directo); en este caso, en efecto, los datos permanecen en la base, que se consulta con cada operación en el archivo a costa de un esfuerzo significativo en dicha base.
Los tipos de conexión se especifican en la siguiente sección.
En este primer caso, los datos circulan «bajo demanda» y no se almacenan localmente. Algo tan simple como mostrar un total en la parte inferior de una tabla o filtrar un gráfico lleva a volver a interrogar a la fuente. El rendimiento depende del rendimiento del sistema de base de datos:
En los otros casos, la aplicación será más eficiente si los datos se recuperan de forma local (modo de importación): la fuente de datos solo se consulta una vez, durante la ejecución o actualización de la consulta; luego, los datos se almacenan localmente, dentro del archivo.
En este contexto, Power BI se basa en una herramienta muy poderosa:...
Conectarse
Power BI ofrece una amplia biblioteca de conectores, e incluso esta evoluciona con cada nueva versión del software: describirlos todos resultaría muy tedioso, pero sí es posible identificar las características más importantes y el funcionamiento de los principales conectores.
Encontrará una descripción muy completa de la mayoría de los conectores en el sitio del editor: https://docs.microsoft.com/es-es/power-bi/desktop-data-sources
Los tres tipos de conexión
Una primera elección fundamental consiste en definir el tipo de conexión: importada o directa.
-
La opción más habitual es importar los datos: una vez que se lanza la consulta, Power BI recupera y almacena localmente todos los datos.
-
La principal ventaja de este tipo de conexión radica en el rendimiento de Power BI a la hora de crear informes, las posibilidades de elaborar modelos y la capacidad de respuesta a las acciones de filtrado del usuario.
-
La desventaja es que la estación de trabajo en la que se diseña o se utiliza el informe debe tener suficiente potencia en términos de RAM (para almacenamiento de datos) y CPU (para cálculos).
-
Otro posible inconveniente es el límite de tamaño del archivo: 1 GB para la versión estándar, 10 GB para las versiones Pro y Premium.
-
Por último, este tipo de conexión implica la actualización de datos manual o programada, lo opuesto a la visualización de datos en tiempo real.
A pesar de estos inconvenientes, la importación de datos es el modo al que hay que dar preferencia.
-
También es posible conectarse directamente a determinadas fuentes (bases de datos).
-
En este caso, el interés es tener siempre informes actualizados, sin necesidad de actualizar los datos. Una simple acción (filtro o selección en el visual) es suficiente para actualizar los datos. Además, la potencia de la estación de trabajo ya no es un criterio limitante.
-
En contraposición, un inconveniente es la capacidad del origen: debe ser lo suficientemente potente como para aceptar una conexión directa. El rendimiento de la aplicación puede verse afectado.
-
Además, no todos los orígenes de datos están disponibles.
-
Las posibilidades de creación de modelos de datos son limitadas (dado que ya se han definido...
Realizar transformaciones en el editor Power Query
Acceder a los datos y prepararlos se considera, con razón, el paso clave para crear un buen informe.
La importancia del trabajo que requiere este paso (en términos de esfuerzo y tiempo) no debe subestimarse de ninguna manera.
Esta fase del ciclo de trabajo puede ser asumida, en ciertos casos, por un perfil puramente técnico (departamento de informática, especialista en sistemas de información o administrador de base de datos), ya que requiere un buen conocimiento del modelo de datos, relaciones entre entidades o tipificación de datos.
Como tal, puede ser objeto de una misión en sí misma, cuyo objetivo es entregar un conjunto de datos listo para usar; posteriormente se permitirá que los expertos empresariales se hagan cargo y realicen sus análisis.
La preparación de datos consiste, por ejemplo, en:
-
Escribir los datos en el formato correcto,
-
filtrar,
-
conservar o eliminar las filas de un archivo plano,
-
dividir una columna,
-
agregar una columna,
-
reestructurar las tablas,
-
o incluso agregar los datos.
En cualquier caso, esto implica preparar la solicitud que se envía, cuando se actualiza el informe, al origen de datos. En la mayoría de los casos, y hasta cierto punto, es la propia fuente la que realizará las operaciones de transformación, asegurando así un tiempo de procesamiento óptimo.
En detalle, los pasos de transformación...
Limpiar los datos
Veamos ahora en detalle las distintas operaciones de limpieza de datos. Según el tipo de origen y su calidad, deberá realizar una o más de estas operaciones.
Elegir (o quitar) columnas
Esta herramienta le permite seleccionar o deseleccionar rápidamente las columnas que desea conservar, utilizando casillas de verificación.
El tamaño máximo del archivo (1 GB para la versión gratuita, 10 GB para la versión Premium), así como sobre todo el volumen de datos manejados (que determina en gran medida el rendimiento de la aplicación) son un fuerte aliciente para quedarse solo con las columnas y filas realmente útiles para el informe.
Seleccione la tabla Ventas.
Seleccione la columna Comentario y a continuación la pestaña Inicio - grupo Administrar columnas - haga clic en el botón Quitar columnas.
Este paso también puede realizarse mediante un clic derecho en la columna.
Tenga en cuenta el nuevo paso Columnas quitadas en el panel Configuración de la consulta. La cruz a su izquierda cancela la operación. Cuando aparece una rueda dentada a la derecha, significa que puede modificar el paso.
Reducir las filas
Esta herramienta permite mantener o eliminar filas de acuerdo con ciertos criterios comunes (fila vacía, duplicada o fila parásita). Tenga en cuenta que, según el tamaño de su cinta de opciones, puede ver Reducir filas o directamente Conservar filas y Quitar filas.
Seleccione la tabla Familias y quite las dos últimas filas (TestF y ZZ) usando la opción Quitar filas inferiores...
Agregar columnas
La columna agregada, ya sea calculada por el origen de datos o por el lenguaje M de Power BI, se almacena físicamente en el modelo tabular: es decir, ocupa espacio y aumenta el tamaño del archivo. Se vuelve a calcular para cada fila de la tabla cuando se actualizan los datos. En Power BI, esta noción tiene un nombre muy específico: contexto de fila, cuya importancia veremos cuando hablemos de fórmulas en lenguaje DAX.
Una medida calculada no se almacena físicamente; solo se evalúa (calcula) ahí si se utiliza. Por lo tanto, no usa espacio o RAM, pero consume CPU.
Crear una columna a partir de los ejemplos
La herramienta Columna a partir de los ejemplos de la pestaña Agregar columna es una de esas herramientas «mágicas» de Power BI para agregar una columna: consiste, una vez seleccionadas la columna o las columnas originales, en indicar en la nueva columna lo que usted quiere ver. A continuación, Power BI «adivinará» el tipo de transformación que desea realizar y deducirá su fórmula.
Esta herramienta a veces solicita más de un ejemplo de la transformación esperada; lo suficiente para permitir que Power BI infiera una regla sin ambigüedades.
Seleccione la tabla Categorías.
Active la herramienta Columna a partir de los ejemplos (en la pestaña Agregar columna) y a continuación la opción A partir de todas las columnas.
Vamos a crear una nueva columna Subfamilia a partir de los dos primeros caracteres de la categoría y del último carácter de la familia.
En la columna que aparece...
Otros dos ejemplos de transformación
Además de las transformaciones del contenido de la columna, algunas de las cuales vimos en el apartado anterior, dos operaciones comunes permiten trabajar con la estructura de los datos.
La primera consiste en usar una tabla dinámica como fuente y restaurar la estructura en columnas que necesita Power BI (se trata, por lo tanto, de «descruzar» o eliminar la dinamización de la tabla). La segunda consiste en agregar las filas de una o más tablas a las de otra tabla con la misma estructura. Por ejemplo, si una hoja contiene datos del mes de enero; la siguiente, datos del mes de febrero, etc., es posible que desee agrupar estos datos en una sola tabla, en particular para poder compararlos.
Eliminar la dinamización de una tabla dinámica
La estructura en forma de tabla es necesaria para Power BI: por tabla, debemos entender una estructura basada en las columnas que identifican campos distintos, cada fila de los cuales constituye un valor.
Por ello, el uso de datos de una tabla dinámica (o TD) no es directamente posible para Power BI: es necesaria una operación inicial, que permitirá reestructurar los datos cruzados en una tabla en columnas, sin perder ninguna información.
Un buen ejemplo es el archivo Tabla dinámica.xlsx. Se ha creado una tabla dinámica, que muestra los importes de ventas por trimestre (filas) y año (columnas):
Para utilizar estos datos en Power BI, primero debe reestructurar esta tabla en columnas (Año, Trimestre, Ventas) generando así una tabla de 16 filas (4 años de 4 trimestres).
Abra un nuevo archivo de Power BI.
Conéctese a un origen de Excel y apunte...
Las herramientas de gestión de la consulta
La mayoría de las operaciones descritas en esta sección tienen lugar en el panel de Consultas, a la izquierda de la pantalla del editor Power Query. Se trata de trabajar sobre las características de la consulta o del propio origen.
Agregar un nuevo origen
En un archivo, siempre es posible agregar nuevos datos. Pueden proceder de la base de datos o del archivo que ya se ha utilizado, o de cualquier otra fuente.
La pregunta importante aquí es si es necesario y posible o no crear una relación entre los dos orígenes. Siempre que los datos se usen por separado (es decir, en visuales distintos), la relación no es necesaria. En otro caso, sí se vuelve imprescindible.
Para agregar una nueva fuente, use el botón Orígenes recientes de la pestaña Inicio - grupo Datos de Power BI o de Power Query y encontrará el proceso habitual. La configuración de la relación, si es necesario, se realizará en otra pantalla: la vista Modelo, en Power BI.
Cambiar el nombre, duplicar y eliminar una consulta
Las operaciones de gestión habituales de consultas están disponibles haciendo un clic derecho en la consulta, en el panel Consultas de Power Query:
-
Cambiar nombre a una consulta para darle un nombre más simple o significativo.
-
Duplicar una consulta (es decir, crear una copia de la tabla, manteniendo los pasos de transformación)....
Finalizar el modelo de datos con la vista Modelo
La sección Realizar transformaciones en el editor Power Query de este capítulo analizaba una serie de transformaciones esenciales a la hora de conectarse a un origen: se trataba de trabajar en la estructura de los datos y preparar un orden de consulta antes de enviarlo al origen.
La mejora de la presentación de los datos, un paso que se produce después de que el origen ha devuelto su respuesta y a lo largo de toda la vida del informe, se refiere más específicamente a la visibilidad, la visualización y la organización de los datos, y a la mejora de la «experiencia de usuario». Este paso no siempre es necesario, pero ofrecerá una ventaja a la hora de construir los elementos visuales.
En este libro, nos limitamos a mejoras comunes, pero este paso puede ir mucho más allá, especialmente en una perspectiva de optimización y rendimiento del modelo, a través de las funciones de modelado del lenguaje DAX.
Para ilustrar algunos ejemplos comunes de transformaciones, partiremos del archivo Libros.pbix.
Se puede acceder a la vista Modelo en Power BI. Si se encuentra en la ventana Power Query, debe haber hecho clic en Cerrar y aplicar para acceder a ella.
Para abrir la vista Modelo, haga clic en la pestaña Modelo, a la izquierda de la pantalla:
La vista Modelo tiene dos funciones esenciales:
-
comprobar las relaciones entre tablas y, si es necesario, crear, modificar o eliminar relaciones,
-
mejorar el modelo de datos, en particular agrupando campos en carpetas y realizando operaciones de transformación en varios campos al mismo tiempo (en particular para el formato de datos).
El uso adecuado de esta ventana requiere comprender cuáles son los diferentes tipos de relaciones y sus roles en Power BI. En pocas palabras, la relación tiene como objetivo permitir la propagación de un filtro: si crea una tabla de ventas mensuales en 2018, obtiene 12 importes diferentes, y si filtra un visual para que solo muestre las ventas relacionadas con la categoría Literatura, este visual se transforma en consecuencia. Estos efectos se basan esencialmente en la relación entre las tablas que contienen el año o categoría y la tabla donde se encuentra la información para calcular el importe.
Comprender las cardinalidades
La cardinalidad indica la naturaleza...