Divida os dados
Agora que você já fez todas as manipulações, a última etapa antes da modelagem é dividir os dados!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Use o método de DataFrames
.randomSplit()para dividirpiped_dataem duas partes,trainingcom 60% dos dados etestcom 40% dos dados, passando a lista[.6, .4]para o método.randomSplit().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)