Crie o pipeline
Finalmente você está pronto para criar um Pipeline!
Pipeline é uma classe do módulo pyspark.ml que combina todos os Estimators e Transformers que você já criou. Isso permite que você reutilize o mesmo processo de modelagem várias vezes, envolvendo-o em um objeto simples. Legal, não é?
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Importe
Pipelinedepyspark.ml.Chame o construtor
Pipeline()com o argumento de palavra-chavestagespara criar umPipelinechamadoflights_pipe.stagesdeve ser uma lista com todos os estágios pelos quais você deseja que os dados passem no pipeline. Aqui é só:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)