Duplikate finden

Ein neues Update der Datenpipeline, die in ride_sharing einfließt, hat die Spalte ride_id hinzugefügt, die einen eindeutigen Bezeichner für jede Fahrt darstellt.

Das Update fiel jedoch mit radikal kürzeren durchschnittlichen Fahrtdauern und unregelmäßigen, in der Zukunft liegenden Geburtsdaten der Nutzer zusammen. Am wichtigsten ist, dass die Anzahl der Fahrten über Nacht um 20 % gestiegen ist, was darauf schließen lässt, dass es sowohl vollständige als auch unvollständige Duplikate im DataFrame ride_sharing gibt.

In dieser Übung wirst du diesen Verdacht bestätigen, indem du diese Duplikate findest. Ein Auszug von ride_sharing befindet sich in deiner Umgebung, ebenso wie alle Pakete, mit denen du bisher gearbeitet hast.

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Anleitung zur Übung

Finde doppelte Zeilen von ride_id im DataFrame ride_sharing und setze keep auf False.
Erstelle anhand von duplicates eine Teilmenge von ride_sharing. Sortiere nun nach ride_id und ordne die Ergebnisse duplicated_rides zu.
Drucke die Spalten ride_id, duration und user_birth_year aus duplicated_rides in dieser Reihenfolge aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel erfährst du, wie du einige der häufigsten Probleme mit unreinen Daten lösen kannst. Du konvertierst Datentypen, wendest Bereichsbeschränkungen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.

Exercise 1: Datentypbeschränkungen Exercise 2: Häufig verwendete Datentypen Exercise 3: Numerische Daten oder ... ?Exercise 4: Summieren von Zeichenketten und Verketten von Zahlen Exercise 5: Einschränkungen des Datenbereichs Exercise 6: Einschränkungen bei der Reifengröße Exercise 7: Zurück in die Zukunft Exercise 8: Eindeutigkeitsbeschränkungen Exercise 9: Wie groß ist deine Teilmenge?Exercise 10: Duplikate finden

Aktuelle Übung

Exercise 11: Behandlung von Duplikaten

Kategoriale und Textdaten gehören oft zu den unübersichtlichsten Teilen eines Datensatzes, weil sie unstrukturiert sind. In diesem Kapitel erfährst du, wie du Unstimmigkeiten bei Leerzeichen und Großschreibung in Kategoriebeschriftungen behebst, mehrere Kategorien zu einer zusammenfasst und Zeichenketten neu formatierst, um die Konsistenz zu gewährleisten.

Exercise 1: Zugehörigkeitsbeschränkungen Exercise 2: Nur für Mitglieder Exercise 3: Konsistenz finden Exercise 4: Kategoriale Variablen Exercise 5: Kategorien von Fehlern Exercise 6: Inkonsistente Kategorien Exercise 7: Kategorien neu zuordnen Exercise 8: Bereinigen von Textdaten Exercise 9: Titel entfernen und Namen erfassen Exercise 10: Beschreibend bleiben

In diesem Kapitel geht's um fortgeschrittenere Probleme bei der Datenbereinigung, z. B. wie du sicherstellst, dass alle Gewichte in Kilogramm statt in Pfund angegeben sind. Außerdem bekommst du super Fähigkeiten, mit denen du checken kannst, ob Werte richtig hinzugefügt wurden und ob fehlende Werte deine Analysen nicht beeinträchtigen.

Exercise 1: Einheitlichkeit Exercise 2: Zweideutige Daten Exercise 3: Einheitliche Währungen Exercise 4: Einheitliche Datumsangaben Exercise 5: Feldübergreifende Validierung Exercise 6: Feldübergreifend oder nicht feldübergreifend?Exercise 7: Wie steht es um unsere Datenintegrität?Exercise 8: Vollständigkeit Exercise 9: Ist es ein Zufall, dass das fehlt?Exercise 10: Fehlende Investoren Exercise 11: Folge dem Geld

Die Datensatzverknüpfung ist eine leistungsstarke Technik, mit der mehrere Datensätze zusammengeführt werden können, wenn die Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, wie du Datensätze verknüpfen kannst, indem du die Ähnlichkeit zwischen Zeichenfolgen berechnest. Anschließend wendest du deine neuen Kenntnisse an, um zwei Datensätze mit Restaurantbewertungen zu einem sauberen Master-Datensatz zusammenzufügen.

Exercise 1: Zeichenketten vergleichen Exercise 2: Minimale Editierdistanz Exercise 3: Der Abschneidepunkt Exercise 4: Kategorien neu ordnen II Exercise 5: Paare generieren Exercise 6: Verlinken oder nicht verlinken?Exercise 7: Restaurantpaare Exercise 8: Ähnliche Restaurants Exercise 9: DataFrames verknüpfen Exercise 10: Den richtigen Index finden Exercise 11: Verbinde sie miteinander!Exercise 12: Herzlichen Glückwunsch!