Manipulación de las fuentes de datos
Desde el primer contacto con la herramienta, se encuentra en terreno conocido.
La pestaña Sources
La herramienta se presenta como un dashboard. La pestaña de inicio enumera las Sources de datos disponibles. Se ofrece un nuevo espacio de trabajo al usuario (llamado BigMLIntroProject) y permite acceder a varias fuentes de datos de demostración. Por lo tanto, un nuevo usuario puede explorar inmediatamente las funcionalidades disponibles. Para esta parte del libro, vamos a utilizar el archivo .csv «Diabetes Diagnosis» que contiene datos biológicos y fisiológicos de varias mujeres de la población indígena Pima (en los Estados Unidos). Estos datos forman parte de un estudio de diabetes y fueron publicados por el National Institute of Diabetes and Digestive and Kidney Diseases.
Para cada fuente, se indican los siguientes elementos:
-
Su extensión: BigML gestiona formatos de archivos de entrada .csv, .json, .txt, .xls (.numbers para ©Apple). También puede recibir formatos comprimidos, como archivos .zip, .gz o .bz2. Tener una herramienta capaz de procesar varios formatos en un solo lugar es muy cómodo.
-
Su nombre, el número de variables y su tipo.
-
Su fecha de importación o creación.
-
Su tamaño.
-
El número de datasets generados a partir de esta fuente.
Menú desplegable de una fuente de datos
A la derecha de la línea que indica su fuente, hay un menú desplegable con varias etiquetas que vamos...