Remova duplicatas em r

Remova duplicatas em r
“Um dos deveres mais difíceis para um cientista de dados é a limpeza de dados. Frequentemente excluímos duplicados, dependendo de condições específicas, como valores de coluna, para examinar com precisão o conjunto de dados. Neste artigo, veremos como eliminar a duplicação de dados com base nos valores de linha ou coluna e nos vários métodos para fazer isso. Os valores duplicados podem existir em um conjunto de dados, e linhas duplicadas devem ser reconhecidas e eliminadas para preservá-lo livre de redundância e precisas. Vamos verificar se nosso conjunto de dados continha dados duplicados e, em caso afirmativo.”

Como remover duplicatas no R no Ubuntu 20.04?

Você descobrirá como remover a duplicação de um quadro de dados neste tutorial R. Você entenderá como se livrar das linhas duplicadas primeiro e depois colunas. Veremos como usar a base r e dplyr para eliminar entradas duplicadas do quadro de dados.

Exemplo # 1: Reconhecendo dados duplicados em r em Ubuntu 20.04

Utilizaremos a função duplicada () para identificar linhas duplicadas, que retorna um valor numérico do total de linhas duplicadas.

Aqui, mostramos os dados gravados, que contêm os nomes das colunas como inglês, ciência e matemática. Além disso, temos várias linhas duplicadas dentro desses dados. Em seguida, temos uma função duplicada para a qual passamos a variável de resultado como argumento. Depois de executarmos o comando desta função duplicada, os valores booleanos são gerados. Ele mostra todos os valores falsos, pois não há redundância encontrada no quadro de dados.

Exemplo # 2: Removendo dados duplicados usando o método exclusivo em r no Ubuntu 20.04

Para obter elementos exclusivos dos dados especificados, use a função exclusiva () em r.

Aqui, temos um quadro de dados que contém o nome do campo, ID e salário do funcionário e é armazenado dentro da variável emp_data. O EMP_DATA é então executado, o que gera o quadro de dados no formulário tabular. Agora, usamos uma função única para extrair o registro exclusivo dos dados. Dentro da função única, passamos pelo emp_data. A saída gerada a partir da função exclusiva removeu a linha duplicada do quadro de dados fornecido.

Exemplo # 3: Removendo dados duplicados usando o método distinto em r no Ubuntu 20.04

A função distinta é uma das bibliotecas de manipulação de dados mais usadas no idioma R e é fornecido pelo pacote DPLYR. A função distinta escolhe linhas em um quadro de dados que são todos únicos. O quadro de dados é o argumento inicial, seguido pelas variáveis ​​a serem consideradas durante a seleção. Para filtrar linhas exclusivas, muitas colunas variáveis ​​podem ser fornecidas, mas mostraremos instâncias variáveis ​​únicas na amostra seguinte. O terceiro argumento não é obrigatório e tem o valor falso por padrão; No entanto, se o usuário especificar expressamente, a função manterá todas as variáveis ​​no quadro de dados após a filtração. Vale a pena notar que o DPLYR emprega uma função de operador chamada tubos do formulário %> %, o que é entendido como passando a variável esquerda como o primeiro parâmetro da função direita. Especificamente, a notação x %? % f (y) se torna f (x, y).

Aqui, temos um Data Frame Products_results, que é mostrado na forma tabular. Você pode ver as linhas redundantes dentro do quadro de dados Products_Result. Podemos remover essas duplicatas usando a função distinta. Em nosso próximo comando, usamos os produtos_result dentro da função distinta como argumento. Agora, o quadro de dados mostra o registro do quadro de dados sem linhas duplicadas.

No quadro de dados anterior, duas linhas apareceram duas vezes no quadro de dados, mas depois de usar a função distinta, a linha duplicada foi removida.

Exemplo # 4: Removendo dados duplicados usando o método de filtro group_by em r no ubuntu 20.04

Outra opção para remover linhas duplicadas com base em colunas é agrupar o conjunto de dados com a variável de colunas e depois usar o filtro e os métodos duplicados para filtrar elementos. Seu primeiro passo é concluído usando o grupo do pacote DPLYR por função. O resultado da operação anterior é então transferido para a função de filtro, que remove linhas duplicadas.

Aqui, nossa etapa inicial é importar a biblioteca DPLYR que suporta a função de filtro group_by no script R. Em seguida, criamos um quadro de dados que tem o registro das equipes que aparecem em dias aleatórios. Também especificamos o gênero para o quadro de dados. Quando o quadro de dados é impresso na tela, podemos ver a redundância em cada coluna. Podemos eliminar isso usando a função de filtro group_by. Na figura a seguir, a função group_by é invocada e leva a coluna "dia" como um argumento na variável T1. Em seguida, o filtro é aplicado à função duplicada onde a coluna "dia" é passada. Quando executamos o T1, ele apenas remove as duplicatas da coluna “Day.”

O mesmo que acima, aplicamos a função de filtro group_by na coluna “Sexo.”

Aqui, removemos as duplicatas da coluna “equipe” da função de filtro group_by.

Exemplo # 5: Removendo dados duplicados usando o método Group_By Slice em R em Ubuntu 20.04

Como alternativa, o grupo por função pode ser usado em conjunto com uma fatia para excluir linhas duplicadas com base nos valores da coluna. Slice é um pacote DPLYR que escolhe linhas por índice. Quando o quadro de dados fornecido é agrupado, a fatia seleciona as linhas em cada grupo com base no índice fornecido, como visto no seguinte código de amostra.

Acima, criamos e exibimos o registro do quadro de dados. Aqui, temos apenas duas colunas que têm valores redundantes. Isso, podemos eliminar a função Group_By, fornecendo o Col1 dentro dele e depois aplicar a função de fatia.

Agora, as linhas duplicadas foram removidas do COL1, por isso também removemos a redundância do COL2 aplicando a função Group_By Slice. Portanto, a linha de duplicatas foi eliminada do quadro de dados abaixo.

Conclusão

Neste ponto da lição, você aprendeu a usar o idioma R para identificar e eliminar linhas duplicadas que aparecem várias vezes. Use funções fundamentais como exclusivas () e duplicadas () para eliminar linhas ou colunas redundantes de um vetor ou quadro de dados. Use o método distinto () no pacote DPLYR se estiver trabalhando com um grande conjunto de dados e desejar remover entradas duplicadas. Além disso, podemos usar o método Group_By, Filter e Slice para remover a linha e colunas duplicadas em r.