Duplikate finden
Ein neues Update der Datenpipeline, die in ride_sharing einfließt, hat die Spalte ride_id hinzugefügt, die einen eindeutigen Bezeichner für jede Fahrt darstellt.
Das Update fiel jedoch mit radikal kürzeren durchschnittlichen Fahrtdauern und unregelmäßigen, in der Zukunft liegenden Geburtsdaten der Nutzer zusammen. Am wichtigsten ist, dass die Anzahl der Fahrten über Nacht um 20 % gestiegen ist, was darauf schließen lässt, dass es sowohl vollständige als auch unvollständige Duplikate im DataFrame ride_sharing gibt.
In dieser Übung wirst du diesen Verdacht bestätigen, indem du diese Duplikate findest. Ein Auszug von ride_sharing befindet sich in deiner Umgebung, ebenso wie alle Pakete, mit denen du bisher gearbeitet hast.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Anleitung zur Übung
- Finde doppelte Zeilen von
ride_idim DataFrameride_sharingund setzekeepaufFalse. - Erstelle anhand von
duplicateseine Teilmenge vonride_sharing. Sortiere nun nachride_idund ordne die Ergebnisseduplicated_rideszu. - Drucke die Spalten
ride_id,durationunduser_birth_yearausduplicated_ridesin dieser Reihenfolge aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])