División del juego de datos

El primer pictograma (a la derecha del nombre de su dataset en forma de histograma) abre el menú de transformación y muestreo.

 Haga clic en este enlace para acceder a la configuración del split de su dataset. En la pantalla anterior tenemos la ruta > 1-Clic sin parametrización (en la vista principal Dataset). Por defecto, el split está en las proporciones 80/20 y resulta ser aleatorio. split

images/EP18-100.png

Ubicación de la función split

En esta parte de los parámetros del split, indicamos la distribución entre juegos de entrenamiento y de prueba. En otras palabras, construye su modelo con el 80 % de los datos de su dataset y se evalúa su rendimiento utilizando el 20 % restante.

Puede agregar un seed para fijar el comportamiento de su generador aleatorio o elegir una división lineal de su dataframe (generalmente se usa cuando está seguro de tener un juego ya «aleatorizado»).

Le animamos a que se plantee la cuestión de la nomenclatura elegida para los archivos que se generarán posteriormente (se puede referir a lo que decíamos unas líneas antes).

 Ahora haga clic en el botón Create Training|Test: los dos nuevos datasets correspondientes a la división 80/20 aparecen en la pestaña Dataset de su dashboard.

images/EP18-110.png

Elección de argumento del split

Volviendo a la vista general de los Datasets, podemos estudiar nuestros conjuntos de datos y comprobar que se corresponden con nuestra distribución...

Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Manipulación de los datasets
Siguiente
Creación de un modelo de machine learning