Os pandas removem outliers

Os pandas removem outliers
Podemos utilizar a biblioteca "pandas" para realizar algumas tarefas matemáticas nos dados de uma maneira gerenciável. Este kit de ferramentas de código aberto é utilizado para manipular e analisar dados para extrair informações necessárias dos dados especificados. Quando discutimos os "Outliers" em "Pandas", podemos dizer que um item de dados ou objeto que difere consideravelmente dos outros itens é referido como um "Outlier". Erros na medição ou implementação podem ser o motivo para eles. Mineração externa é a técnica usada para descoberta externa. Existem inúmeros métodos para encontrar outliers e o procedimento de limpeza é o mesmo para o quadro de dados do Panda, como é para o próprio quadro de dados do Panda. Temos que remover os "Outliers" no conjunto de dados "pandas" porque, quando removemos esses outliers, ele freqüentemente ajuda nosso modelo a generalizar com mais eficácia. Removeremos os outliers no quadro e série de dados de Pandas neste artigo, utilizando o método "pandas".

Métodos para remover outliers em "pandas"

Podemos utilizar dois métodos em "pandas" para remover os outliers em "pandas". Estes são:

  • Método de faixa interquartil
  • Método z-escore

Esses métodos serão usados ​​para remover os "Outliers" da série "Pandas" e "Pandas" Dataframe. Neste artigo, também ilustraremos exemplos de como usamos essas técnicas em códigos "pandas".

Exemplo # 01:

Estamos usando a ferramenta "Spyder" para executar os códigos "pandas" que são apresentados neste artigo. Como vamos gerar o código "pandas", temos que "importar" seus módulos. Para importar os módulos dos "pandas", estamos adicionando a "importação", que é a palavra -chave e depois colocamos "pandas como PD". Isso ajudará a obter os métodos "pandas" se digitarmos o "PD" com o nome da função que queremos utilizar. Então, importamos o "Numpy", que também é a biblioteca. Nós o importamos como "NP" para que também possamos obter seus métodos com o nome da função "Numpy" que queremos usar.

Depois disso, declaramos "tamanho", que é o nome da variável e essa variável é inicializada com o valor que é "15". Agora, depois de inicializar o "tamanho", também estamos declarando outra variável chamada "dados" abaixo disso. Este "dados" é então inicializado com o "PD.Método da série (). Como digitamos “PD, temos o método de“ pandas ”. Neste “PD.Método da série () ”, colocamos o“ NP.aleatório.Método normal () ”e este é o método da biblioteca“ Numpy ”porque adicionamos“ NP ”com ele. Este método nos ajuda a criar os dados normalmente distribuídos. Esses dados são criados na forma da série "pandas".

Passamos o parâmetro de "tamanho" e atribuímos a variável "tamanho" que criamos para este parâmetro de "tamanho". Então, ele gerará uma série aleatória de "pandas" com o tamanho de "15" e é unidimensional. A variável "Data" na qual a série aleatória é armazenada é então passada para a função "print ()", para que ajude a imprimir essa série aleatória no terminal.

Agora, podemos facilmente obter a saída dos códigos no aplicativo "Spyder" de duas maneiras. Um deles é acertar as teclas “Shift+Enter” e a outra é utilizar o ícone “Run” desta ferramenta. Agora, depois de fazer isso, temos o resultado do código no terminal desta ferramenta. O resultado também é mostrado no qual a série é exibida, que é a série aleatória que geramos no código "pandas". Agora, removeremos os outliers desta série abaixo.

Aqui, estamos ajustando os valores “quantile ()”. Nós ajustamos “.15 ”como o valor do primeiro quantil e também é o menor quantil. Então, ajustamos o “.Valor de 85 ”como valor do segundo quantil e é o maior valor quantil. Adicionamos o nome da série que é "dados". Nos suportes quadrados, colocamos novamente “dados” e depois escrevemos o método “entre ()”. Dentro deste método, adicionamos dois parâmetros nos quais o primeiro método é o menor quantil e o segundo parâmetro é o maior quantil.

Também adicionamos esse método na variável "Data1"; portanto, quando executamos esse código, os valores após a remoção dos outliers serão armazenados na variável "Data1". Agora, ele removerá todos os outliers que estão no mais baixo e no maior quantil. Em seguida, temos "impressão" na qual adicionamos "Data1".

Os outliers são removidos da série que geramos acima e apenas nove valores são exibidos. A série que criamos acima contém 15 valores, mas depois de remover os outliers, existem nove valores.

Exemplo # 02:

Também estamos importando as "estatísticas" da biblioteca "ccepy", porque temos que utilizar esse método neste código. Estamos criando um quadro de dados no qual adicionamos apenas uma coluna chamada "Data". Adicionamos “-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 e 1456” a esta coluna “dados”. Além disso, armazenamos esse quadro de dados no "my_df". Então, apenas imprimimos “my_df”.

O DataFrame é renderizado neste resultado. Agora, aplicaremos o método "Z-Score" a este quadro de dados para remover os outliers.

Estamos encontrando o "ZSCore", utilizando as "estatísticas" que importamos acima. Só utilizamos este método quando importamos as "estatísticas". Adicionamos a coluna "Z_SCORE", onde estamos armazenando os valores "ZSCore". Para encontrar os valores "ZSCore" da coluna "Data", adicionamos o nome de dados e o nome da coluna neste método. Em seguida, também renderizamos "my_data" na qual a coluna "z_score" também é adicionada.

Duas colunas são mostradas neste resultado. A coluna "Data", que adicionamos no quadro de dados e a outra é a coluna "Z_SCORE", contém os valores "ZSCore" que obtemos aplicando as "estatísticas.Método Zscore () ”. Aqui, você pode observar que todos os valores, que estão presentes na coluna "Z_SCORE", são negativos, mas o último é o valor positivo. Então, isso significa que é o outlier e temos que removê -lo.

De acordo com os critérios empíricos, os valores extremos são os valores da escore z que são maiores que 3. Portanto, adicionamos o método "loc" para filtrar as linhas nas quais o valor do "z_score" é menor que 3 ou igual a 3 e também exibe essas linhas no resultado porque esse método é escrito dentro da “impressão ( ) ”. Todos os outros valores são outliers e serão removidos deste DataFrame.

Aqui, todos os valores que são inferiores a 3 aparecem. O último valor é removido porque era maior que 3 e era o outlier neste quadro de dados.

Conclusão

Este artigo é apresentado para descrever o conceito "Pandas Remove Outliers" em detalhes. Discutimos neste artigo que os valores presentes em um conjunto de dados considerados extremos, errôneos ou não representativos do assunto do conjunto de dados são chamados de discrepantes. Também explicamos que esses outliers podem ser o resultado de métodos imprecisos de coleta de dados ou achados ouverlier reais. Discutimos dois métodos para remover esses outliers em "pandas". Removemos os outliers da série “Pandas” e DataFrame neste artigo e também discutimos os dois métodos em detalhes.