CSV-Daten in einen DataFrame laden

In der vorherigen Übung hast du gesehen, wie man einen DataFrame aus einem RDD erstellt. Im Allgemeinen ist das Laden von Daten aus einer CSV-Datei die gängigste Methode zur Erstellung von DataFrames. In dieser Übung erstellst du einen PySpark-DataFrame aus der Datei people.csv, die dir bereits als file_path zur Verfügung steht, und bestätigst, dass das erstellte Objekt ein PySpark-DataFrame ist.

Zur Erinnerung: Die SparkSession spark und die Variable file_path (Pfad zur Datei people.csv) sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

Erstelle einen DataFrame aus der Variable file_path, die den Pfad zu der Datei people.csv enthält.
Bestätige, dass die Ausgabe ein PySpark-DataFrame ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))

Code bearbeiten und ausführen