Localização de duplicatas
Uma nova atualização do pipeline de dados que alimenta ride_sharing adicionou a coluna ride_id, que representa um identificador exclusivo para cada viagem.
No entanto, a atualização coincidiu com tempos de duração média de viagem radicalmente mais curtos e datas de nascimento de usuários irregulares definidas no futuro. O mais importante é que o número de viagens realizadas aumentou 20% da noite para o dia, o que leva você a pensar que pode haver duplicatas completas e incompletas no DataFrame ride_sharing.
Neste exercício, você confirmará essa suspeita encontrando essas duplicatas. Uma amostra do ride_sharing está em seu ambiente, bem como todos os pacotes com os quais você trabalhou até agora.
Este exercício faz parte do curso
Limpeza de dados em Python
Instruções do exercício
- Encontre linhas duplicadas de
ride_idno DataFrameride_sharingenquanto você definekeepcomoFalse. - Faça um subconjunto de
ride_sharingemduplicates, classifique porride_ide atribua os resultados aduplicated_rides. - Imprima as colunas
ride_id,durationeuser_birth_yeardeduplicated_ridesnessa ordem.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])