Junções II

No PySpark, as junções são realizadas usando o método de DataFrames .join(). Esse método recebe três argumentos. O primeiro é o segundo DataFrame que você deseja combinar com o primeiro. O segundo argumento, on, é o nome da coluna-chave (ou colunas-chave) como uma string. O nome da coluna-chave (ou colunas-chave) deve ser o mesmo em cada tabela. O terceiro argumento, how, especifica o tipo de junção a ser realizada. Neste curso, sempre usaremos o valor how="leftouter".

O conjunto de dados flights e um novo conjunto de dados chamado airports já estão em seu espaço de trabalho.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

Examine o DataFrame airports chamando .show(). Observe qual coluna-chave permite que você junte airports à tabela flights.
Renomeie a coluna faa de airports como dest, reatribuindo o resultado de airports.withColumnRenamed("faa", "dest") a airports.
Junte flights com o DataFrame airports com base na coluna dest chamando o método .join() com flights. Salve o resultado como flights_with_airports.
- O primeiro argumento deve ser o outro DataFrame, airports.
- O argumento on deve ser a coluna-chave.
- O argumento how deve ser "leftouter".
Chame .show() com flights_with_airports para examinar os dados novamente. Observe as novas informações que foram adicionadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)

Editar e executar o código