Einen Vektor erstellen
Der letzte Schritt in der Pipeline besteht darin, alle Spalten, die unsere Merkmale enthalten, zu einer einzigen Spalte zusammenzufassen. Dies muss vor der Modellerstellung geschehen, da jede Spark-Modellerstellungsroutine erwartet, dass die Daten in dieser Form vorliegen. Dies kann erreicht werden, indem jeder Wert einer Spalte als Eintrag in einem Vektor gespeichert wird. Aus der Sicht des Modells ist dann jede Beobachtung ein Vektor, der alle Informationen über sie enthält, und ein Label, das dem Modellierer sagt, welchem Wert diese Beobachtung entspricht.
Aus diesem Grund enthält das Untermodul pyspark.ml.feature eine Klasse namens VectorAssembler. Dieser Transformer nimmt alle von dir angegebenen Spalten und kombiniert sie zu einer neuen Vektorspalte.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Erstelle einen
VectorAssembler, indem duVectorAssembler()mit deninputColsNamen als Liste und demoutputColNamen"features"aufrufst.- Die Liste der Spalten sollte
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"]sein.
- Die Liste der Spalten sollte
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)