Neste artigo, adotamos um conjunto de dados da população de diferentes estados nos Estados Unidos, que está disponível em um .Formato de arquivo CSV. Vamos ler o .Arquivo CSV para mostrar o conteúdo original deste arquivo, como segue:
importar pandas como PDNa captura de tela a seguir, você pode ver o conteúdo duplicado deste arquivo:
Identificando duplicatas em pandas python
É necessário determinar se os dados que você está usando têm linhas duplicadas. Para verificar a duplicação de dados, você pode usar qualquer um dos métodos abordados nas seções a seguir.
Método 1:
Leia o arquivo CSV e passe -o para o quadro de dados. Em seguida, identifique as linhas duplicadas usando o duplicado () função. Por fim, use a instrução de impressão para exibir as linhas duplicadas.
importar pandas como PDMétodo 2:
Usando este método, o IS_DUplicado A coluna será adicionada ao final da tabela e marcada como 'verdadeira' no caso de linhas duplicadas.
importar pandas como PDDerrubando duplicatas em pandas python
As linhas duplicadas podem ser removidas do seu quadro de dados usando a seguinte sintaxe:
Drop_duplicates (subcet = ", keep =", inplace = false)
Os três parâmetros acima são opcionais e são explicados em mais detalhes abaixo:
manter: Este parâmetro tem três valores diferentes: primeiro, último e falso. O primeiro valor mantém a primeira ocorrência e remove as duplicatas subsequentes, o último valor mantém apenas a última ocorrência e remove todas as duplicatas anteriores, e o valor falso remove todas as linhas duplicadas.
subconjunto: Etiqueta usada para identificar as linhas duplicadas
no lugar: contém duas condições: verdadeiro e falso. Este parâmetro removerá linhas duplicadas se estiver definido como true.
Remova duplicatas mantendo apenas a primeira ocorrência
Quando você usa "Keep = First", apenas a primeira ocorrência de linha será mantida e todas as outras duplicatas serão removidas.
Exemplo
Neste exemplo, apenas a primeira linha será mantida e as duplicatas restantes serão excluídas:
importar pandas como PDNa captura de tela a seguir, a ocorrência de primeira linha retida é destacada em vermelho e as duplicações restantes são removidas:
Remova duplicatas mantendo apenas a última ocorrência
Quando você usa "Keep = Last", todas as linhas duplicadas, exceto a última ocorrência, serão removidas.
Exemplo
No exemplo a seguir, todas as linhas duplicadas são removidas, exceto apenas a última ocorrência.
importar pandas como PDNa imagem a seguir, as duplicatas são removidas e apenas a última ocorrência de filas é mantida:
Remova todas as linhas duplicadas
Para remover todas as linhas duplicadas de uma tabela, defina "Keep = false", da seguinte forma:
importar pandas como PDComo você pode ver na imagem a seguir, todas as duplicatas são removidas do quadro de dados:
Remova duplicatas relacionadas de uma coluna especificada
Por padrão, a função verifica todas as linhas duplicadas de todas as colunas no quadro de dados fornecido. Mas você também pode especificar o nome da coluna usando o parâmetro de subconjunto.
Exemplo
No exemplo a seguir, todas as duplicatas relacionadas são removidas da coluna 'Estados'.
importar pandas como PDConclusão
Este artigo mostrou como remover linhas duplicadas de um quadro de dados usando o Drop_duplicates () função em pandas python. Você também pode limpar seus dados de duplicação ou redundância usando esta função. O artigo também mostrou como identificar quaisquer duplicados em seu quadro de dados.