Pandas Drop Duplicate Index

Pandas Drop Duplicate Index
Pandas tem um método chamado “Índice.Drop_duplicates () ”que nos permite abandonar os índices duplicados da lista de etiquetas de índice. O índice.Drop_duplicates () ”Função em pandas retorna um índice com as entradas duplicadas descartadas. A função dá ao usuário com a liberdade de selecionar qual valor duplicado deve ser mantido. Temos duas opções: remova as entradas primeiro e último duplicado da lista ou remova todos os dados duplicados da lista.

Se você deseja utilizar esta função, a seguinte sintaxe precisa ser seguida:

Sintaxe:

Pandas.Índice.Drop_duplicates (Keep = 'First')

Parâmetro:
O "Manter”O parâmetro é usado para regular como lidar com os valores duplicados. "Keep" é necessário. Por padrão, o valor é "primeiro".

  1. Quando o valor é “primeiro”, O programa trata o primeiro item como distinto e os outros valores idênticos como duplicados. Isso, com exceção da primeira instância, elimina os duplicados.
  2. Se o valor for definido como “durar”, Trata a última entrada como única e os outros valores idênticos como duplicados. Em seguida, elimina todos os duplicados, exceto a última ocorrência desse valor.
  3. Se o parâmetro "Keep" tiver o "Falso”Valor, todos os valores idênticos são tratados como duplicatas. Ele solta todos os valores duplicados da lista.

Exemplo 1: sem parâmetros
Neste exemplo, temos um índice chamado "index1" que detém 10 números inteiros. Vamos remover as duplicatas sem passar nenhum parâmetro para a função Drop_duplicates ().

Importar pandas
# Crie o índice Pandas que possua 10 valores
index1 = pandas.ÍNDICE ([45,67,45,89,45,89,12,34,67,89]))
print ("índice real:", index1)
print ("Índice exclusivo:", index1.drop_duplicates ())

Saída:

Explicação:
Os índices exclusivos são devolvidos removendo os duplicados.

Exemplo 2: com Keep como falso
Vamos ter um índice que contém 5 strings com duplicatas. Agora, defina o parâmetro "Keep" como falso.

Importar pandas
# Crie Índice Pandas que possua 5 strings
index1 = pandas.Índice (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("índice real:", index1)
print ("Índice exclusivo:", index1.Drop_duplicates (mantenha = false))

Saída:

Explicação:
Existe apenas um índice único - “i5”. É devolvido removendo todas as duplicatas.

Exemplo 3: com mantenha como primeiro
Vamos ter o "index1" com 10 valores e "index2" com 5 strings. Defina "Keep" como "primeiro" para soltar as duplicatas sem remover a primeira ocorrência.

Importar pandas
# Crie o índice Pandas que possua 10 valores
index1 = pandas.ÍNDICE ([45,67,45,89,45,89,12,34,67,89]))
print ("Índice 1:", index1)
# Soltar duplicações sem remover a primeira ocorrência
print ("Índice único 1:", index1.Drop_duplicates (Keep = 'First')))
# Crie Índice Pandas que possua 5 strings
index2 = pandas.Índice (['i1', 'i1', 'i4', 'i5', 'i4'])
Print ("Índice real 2:", index2)
# Soltar duplicações sem remover a primeira ocorrência
print ("Índice exclusivo 2:", index2.Drop_duplicates (Keep = 'First')))

Saída:

Explicação:

  1. Em "Index1", [45, 67, 89, 12, 34] são a primeira ocorrência de valores únicos.
  2. Em "index2", ['i1', 'i4', 'i5'] são a primeira ocorrência de valores únicos.

Exemplo 4: com Keep como último
Vamos ter o "index1" com 10 valores e "index2" com 5 strings. Defina "Keep" como "primeiro" para soltar as duplicatas sem remover a primeira ocorrência.

Importar pandas
# Crie o índice Pandas que possua 10 valores
index1 = pandas.ÍNDICE ([45,67,45,89,45,89,12,34,67,89]))
print ("Índice 1:", index1)
# Soltar duplicações sem remover a última ocorrência
print ("Índice único 1:", index1.Drop_duplicates (mantenha = 'último'))
# Crie Índice Pandas que possua 5 strings
index2 = pandas.Índice (['i1', 'i1', 'i4', 'i5', 'i4'])
Print ("Índice real 2:", index2)
# Soltar duplicações sem remover a última ocorrência
print ("Índice exclusivo 2:", index2.Drop_duplicates (mantenha = 'último'))

Saída:

Explicação:

  1. Em "Index1", [45, 12, 34, 67, 89] são a última ocorrência de valores únicos.
  2. Em "index2", ['i1', 'i5', 'i4'] são a última ocorrência de valores únicos.

Conclusão

Este tutorial é baseado no conceito de abandonar os índices duplicados usando o módulo Pandas. Utilizamos o Pandas “ÍNDICE.Drop_duplicates () ”Método. Fornecemos a sintaxe para a utilização deste método e também descrevemos seus parâmetros. Este método nos oferece três opções para lidar com valores duplicados. Cada etapa deste artigo é explicada de maneira muito clara e simplesmente.