Localização de duplicatas

Uma nova atualização do pipeline de dados que alimenta ride_sharing adicionou a coluna ride_id, que representa um identificador exclusivo para cada viagem.

No entanto, a atualização coincidiu com tempos de duração média de viagem radicalmente mais curtos e datas de nascimento de usuários irregulares definidas no futuro. O mais importante é que o número de viagens realizadas aumentou 20% da noite para o dia, o que leva você a pensar que pode haver duplicatas completas e incompletas no DataFrame ride_sharing.

Neste exercício, você confirmará essa suspeita encontrando essas duplicatas. Uma amostra do ride_sharing está em seu ambiente, bem como todos os pacotes com os quais você trabalhou até agora.

Este exercício faz parte do curso

Limpeza de dados em Python

Instruções do exercício

Encontre linhas duplicadas de ride_id no DataFrame ride_sharing enquanto você define keep como False.
Faça um subconjunto de ride_sharing em duplicates, classifique por ride_id e atribua os resultados a duplicated_rides.
Imprima as colunas ride_id, duration e user_birth_year de duplicated_rides nessa ordem.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])

Editar e executar o código

Este exercício faz parte do curso

Limpeza de dados em Python

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Neste capítulo, você aprenderá a superar alguns dos problemas mais comuns de dados sujos. Você converterá tipos de dados, aplicará restrições de intervalo para remover pontos de dados futuros e removerá pontos de dados duplicados para evitar contagem dupla.

Exercise 1: Restrições de tipo de dados Exercise 2: Tipos de dados comuns Exercise 3: Dados numéricos ou ... ?Exercise 4: Soma de strings e concatenação de números Exercise 5: Restrições de intervalo de dados Exercise 6: Restrições de tamanho de pneu Exercise 7: De volta para o futuro Exercise 8: Restrições de exclusividade Exercise 9: Qual é o tamanho do seu subconjunto?Exercise 10: Localização de duplicatas

Exercício atual

Exercise 11: Tratamento de duplicatas

Os dados categóricos e de texto podem ser algumas das partes mais confusas de um conjunto de dados devido à sua natureza não estruturada. Neste capítulo, você aprenderá a corrigir inconsistências de espaço em branco e de letras maiúsculas nos rótulos de categoria, a recolher várias categorias em uma só e a reformatar strings para obter consistência.

Exercise 1: Restrições de associação Exercise 2: Somente para membros Exercise 3: Encontrar consistência Exercise 4: Variáveis categóricas Exercise 5: Categorias de erros Exercise 6: Categorias inconsistentes Exercise 7: Remapeamento de categorias Exercise 8: Limpeza de dados de texto Exercise 9: Remoção de títulos e nomes Exercise 10: Mantendo-o descritivo

Neste capítulo, você vai mergulhar em problemas mais avançados de limpeza de dados, como garantir que todos os pesos estejam escritos em quilogramas em vez de libras. Você também vai aprender habilidades super importantes que vão te ajudar a verificar se os valores foram adicionados corretamente e se os valores que faltam não vão prejudicar suas análises.

Exercise 1: Uniformidade Exercise 2: Datas ambíguas Exercise 3: Moedas uniformes Exercise 4: Datas uniformes Exercise 5: Validação entre campos Exercise 6: Com ou sem campo cruzado?Exercise 7: Como está a integridade de nossos dados?Exercise 8: Completude Exercise 9: Isso é uma ausência aleatória?Exercise 10: Investidores ausentes Exercise 11: Siga o dinheiro

A vinculação de registros é uma técnica poderosa usada para mesclar vários conjuntos de dados, usada quando os valores têm erros de digitação ou grafias diferentes. Neste capítulo, você vai aprender a conectar registros calculando a semelhança entre strings — depois, vai usar suas novas habilidades para juntar dois conjuntos de dados de avaliações de restaurantes em um único conjunto de dados mestre limpo.

Exercise 1: Comparação de strings Exercise 2: Distância mínima de edição Exercise 3: O ponto de corte Exercise 4: Remapeamento de categorias II Exercise 5: Geração de pares Exercise 6: Criar ou não criar um link?Exercise 7: Pares de restaurantes Exercise 8: Restaurantes similares Exercise 9: Vinculação de DataFrames Exercise 10: Obtendo o índice correto Exercise 11: Conectando-os!Exercise 12: Parabéns!