Junções II
No PySpark, as junções são realizadas usando o método de DataFrames .join(). Esse método recebe três argumentos. O primeiro é o segundo DataFrame que você deseja combinar com o primeiro. O segundo argumento, on, é o nome da coluna-chave (ou colunas-chave) como uma string. O nome da coluna-chave (ou colunas-chave) deve ser o mesmo em cada tabela. O terceiro argumento, how, especifica o tipo de junção a ser realizada. Neste curso, sempre usaremos o valor how="leftouter".
O conjunto de dados flights e um novo conjunto de dados chamado airports já estão em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Examine o DataFrame
airportschamando.show(). Observe qual coluna-chave permite que você junteairportsà tabelaflights.Renomeie a coluna
faadeairportscomodest, reatribuindo o resultado deairports.withColumnRenamed("faa", "dest")aairports.Junte
flightscom o DataFrameairportscom base na colunadestchamando o método.join()comflights. Salve o resultado comoflights_with_airports.O primeiro argumento deve ser o outro DataFrame,
airports.O argumento
ondeve ser a coluna-chave.O argumento
howdeve ser"leftouter".
Chame
.show()comflights_with_airportspara examinar os dados novamente. Observe as novas informações que foram adicionadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)