CSV-Daten in einen DataFrame laden
In der vorherigen Übung hast du gesehen, wie man einen DataFrame aus einem RDD erstellt. Im Allgemeinen ist das Laden von Daten aus einer CSV-Datei die gängigste Methode zur Erstellung von DataFrames. In dieser Übung erstellst du einen PySpark-DataFrame aus der Datei people.csv, die dir bereits als file_path zur Verfügung steht, und bestätigst, dass das erstellte Objekt ein PySpark-DataFrame ist.
Zur Erinnerung: Die SparkSession spark und die Variable file_path (Pfad zur Datei people.csv) sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle einen DataFrame aus der Variable
file_path, die den Pfad zu der Dateipeople.csventhält. - Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))