Rejoindre les DataFrame
Dans les deux prochains chapitres, vous travaillerez à la construction d'un modèle qui prédit si un vol sera retardé ou non, sur la base des données relatives aux vols avec lesquelles nous avons travaillé. Ce modèle comprendra également des informations sur l'avion qui a emprunté cette route. La première étape consiste donc à joindre les deux tableaux : flights et planes!
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Tout d'abord, renommez la colonne
yeardeplanesenplane_yearafin d'éviter les noms de colonnes en double. - Créez un nouveau DataFrame appelé
model_dataen joignant le tableauflightsàplanesen utilisant la colonnetailnumcomme clé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")