Abandonner l'intermédiaire
Vous savez maintenant comment introduire des données dans Spark via pandas, mais vous vous demandez probablement pourquoi traiter avec pandas? Ne serait-il pas plus simple de lire un fichier texte directement dans Spark ? Bien sûr que oui !
Heureusement, votre site SparkSession dispose d'un attribut .read qui propose plusieurs méthodes pour lire différentes sources de données dans les DataFrame Spark. Vous pouvez ainsi créer un DataFrame à partir d'un fichier .csv, comme vous le feriez avec un DataFrame classique ( pandas ) !
La variable file_path est une chaîne de caractères contenant le chemin d'accès au fichier airports.csv. Ce fichier contient des informations sur différents aéroports du monde entier.
Un site SparkSession nommé spark est disponible dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Utilisez la méthode
.read.csv()pour créer un DataFrame Spark appeléairportsLe premier argument est
file_pathPassez l'argument
header=Truepour que Spark sache qu'il doit prendre les noms de colonnes à partir de la première ligne du fichier.
Imprimez ce DataFrame en appelant
.show().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()