Como soltar linhas duplicadas em pandas python

O Python é uma das linguagens de programação mais populares para análise de dados e também suporta vários pacotes Python Centric Centers. Os pacotes de pandas são alguns dos pacotes Python mais populares e podem ser importados para análise de dados. Em quase todos os conjuntos de dados, geralmente existem linhas duplicadas, o que pode causar problemas durante a análise de dados ou operação aritmética. A melhor abordagem para análise de dados é identificar quaisquer linhas duplicadas e removê -las do seu conjunto de dados. Usando a função Pandas Drop_duplicates (), você pode cair facilmente ou remover registros duplicados de um quadro de dados.
Este artigo mostra como encontrar duplicatas nos dados e remover as duplicatas usando as funções do Pandas Python.

Neste artigo, adotamos um conjunto de dados da população de diferentes estados nos Estados Unidos, que está disponível em um .Formato de arquivo CSV. Vamos ler o .Arquivo CSV para mostrar o conteúdo original deste arquivo, como segue:

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
Imprimir (df_state)

Na captura de tela a seguir, você pode ver o conteúdo duplicado deste arquivo:

Identificando duplicatas em pandas python

É necessário determinar se os dados que você está usando têm linhas duplicadas. Para verificar a duplicação de dados, você pode usar qualquer um dos métodos abordados nas seções a seguir.

Método 1:

Leia o arquivo CSV e passe -o para o quadro de dados. Em seguida, identifique as linhas duplicadas usando o duplicado () função. Por fim, use a instrução de impressão para exibir as linhas duplicadas.

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
Dup_rows = df_state [df_state.duplicado ()]
print ("\ n \ nduplicate linhas: \ n ".formato (dup_rows))

Método 2:

Usando este método, o IS_DUplicado A coluna será adicionada ao final da tabela e marcada como 'verdadeira' no caso de linhas duplicadas.

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
df_state ["is_duplicate"] = df_state.duplicado ()
print ("\ n ".formato (df_state))

Derrubando duplicatas em pandas python

As linhas duplicadas podem ser removidas do seu quadro de dados usando a seguinte sintaxe:
Drop_duplicates (subcet = ", keep =", inplace = false)
Os três parâmetros acima são opcionais e são explicados em mais detalhes abaixo:
manter: Este parâmetro tem três valores diferentes: primeiro, último e falso. O primeiro valor mantém a primeira ocorrência e remove as duplicatas subsequentes, o último valor mantém apenas a última ocorrência e remove todas as duplicatas anteriores, e o valor falso remove todas as linhas duplicadas.
subconjunto: Etiqueta usada para identificar as linhas duplicadas
no lugar: contém duas condições: verdadeiro e falso. Este parâmetro removerá linhas duplicadas se estiver definido como true.

Remova duplicatas mantendo apenas a primeira ocorrência

Quando você usa "Keep = First", apenas a primeira ocorrência de linha será mantida e todas as outras duplicatas serão removidas.

Exemplo

Neste exemplo, apenas a primeira linha será mantida e as duplicatas restantes serão excluídas:

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
Dup_rows = df_state [df_state.duplicado ()]
print ("\ n \ nduplicate linhas: \ n ".formato (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (Keep = 'First')
print ('\ n \ nResult DataFrame após a remoção duplicada: \ n', df_rm_dup.cabeça (n = 5))

Na captura de tela a seguir, a ocorrência de primeira linha retida é destacada em vermelho e as duplicações restantes são removidas:

Remova duplicatas mantendo apenas a última ocorrência

Quando você usa "Keep = Last", todas as linhas duplicadas, exceto a última ocorrência, serão removidas.

Exemplo

No exemplo a seguir, todas as linhas duplicadas são removidas, exceto apenas a última ocorrência.

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
Dup_rows = df_state [df_state.duplicado ()]
print ("\ n \ nduplicate linhas: \ n ".formato (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (mantenha = 'último')
print ('\ n \ nResult DataFrame após a remoção duplicada: \ n', df_rm_dup.cabeça (n = 5))

Na imagem a seguir, as duplicatas são removidas e apenas a última ocorrência de filas é mantida:

Remova todas as linhas duplicadas

Para remover todas as linhas duplicadas de uma tabela, defina "Keep = false", da seguinte forma:

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
Dup_rows = df_state [df_state.duplicado ()]
print ("\ n \ nduplicate linhas: \ n ".formato (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (Keep = False)
print ('\ n \ nResult DataFrame após a remoção duplicada: \ n', df_rm_dup.cabeça (n = 5))

Como você pode ver na imagem a seguir, todas as duplicatas são removidas do quadro de dados:

Remova duplicatas relacionadas de uma coluna especificada

Por padrão, a função verifica todas as linhas duplicadas de todas as colunas no quadro de dados fornecido. Mas você também pode especificar o nome da coluna usando o parâmetro de subconjunto.

Exemplo

No exemplo a seguir, todas as duplicatas relacionadas são removidas da coluna 'Estados'.

importar pandas como PD
df_state = pd.read_csv ("c:/usuários/dell/desktop/população_ds.CSV ")
Dup_rows = df_state [df_state.duplicado ()]
print ("\ n \ nduplicate linhas: \ n ".formato (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (subcet = 'estado')
print ('\ n \ nResult DataFrame após a remoção duplicada: \ n', df_rm_dup.cabeça (n = 6))

Conclusão

Este artigo mostrou como remover linhas duplicadas de um quadro de dados usando o Drop_duplicates () função em pandas python. Você também pode limpar seus dados de duplicação ou redundância usando esta função. O artigo também mostrou como identificar quaisquer duplicados em seu quadro de dados.

Como criar um quadro de dados vazio r

Tutorial sobre as várias abordagens para criar um quadro de dados vazio usando os dados.Frame () Fun...

Tommie Konopelski

Docker

O que é o Docker Bind Mounds?

Uma montagem de ligação do Docker é um tipo de montagem que permite aos usuários mapear um diretório...

Salvatore Watsica

Banco de dados Oracle

O Oracle Fusion considerado melhor que o SAP?

O Oracle Fusion (ERP baseado em nuvem) possui uma interface amigável, enquanto o SAP (nuvem e o loca...

Rickey Greenholt