Carga de CSV en el DataFrame
En el ejercicio anterior viste un método para crear un DataFrame a partir de un RDD. Generalmente, cargar datos desde el archivo CSV es el método más común de creación de DataFrames. En este ejercicio crearás un DataFrame de PySpark a partir del archivo people.csv que ya se te ha proporcionado como file_path y confirmarás que el objeto creado es un DataFrame de PySpark.
Recuerda que ya tienes spark de SparkSession y una variable file_path (la ruta del archivo people.csv) disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Crea un DataFrame a partir de la variable
file_path, que es la ruta del archivopeople.csv. - Confirma la salida como DataFrame de PySpark.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))