Dividir los datos
Ahora que ya has hecho todas tus manipulaciones, el último paso antes de modelar es ¡dividir los datos!
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Utiliza el método DataFrame
.randomSplit()para dividirpiped_dataen dos partes,trainingcon el 60 % de los datos, ytestcon el 40 % de los datos, pasando la lista[.6, .4]al método.randomSplit().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)