Pandas cair na

Pandas cair na
Os pandas, uma biblioteca de código aberto para Python, é sem dúvida o kit de ferramentas mais popular para pesquisa e avaliação de dados. Também é uma boa escolha para tarefas de transformação de dados ad-hoc. Devido à sua representação de dados excepcionalmente flexível, utilizando quadros de dados e a infinidade de métodos disponíveis para modificar os dados armazenados nesses quadros de dados. Quaisquer problemas de dados do mundo real podem resultar na falta de dados e esses conjuntos de dados devem ser tratados corretamente. Os dados podem estar faltando por muitos motivos. Não é incomum ao lidar com dados gravemente bagunçados. Entender como lidar com os valores ausentes é uma competência essencial para qualquer profissional de dados. Neste tutorial, você aprenderá a lidar com valores nulos que utilizam os pandas “DataFrame.Dropna () ”Método.

Método Pandas Dropna ()

Em um quadro de dados de pandas, pode ser necessário remover linhas com valores de nan. Felizmente, isso seria simples de realizar com o método Pandas "Dropna ()". A sintaxe para empregar o método "Dropna ()" é o seguinte:

O primeiro parâmetro é o "eixo". Para colunas e linhas, o "eixo" aceita valores de int ou string. As entradas inteiras podem ser 1 ou 0 e as entradas de string podem ser 'colunas' ou 'índice'. O parâmetro "como" aceita apenas valores de string de dois tipos ('qualquer' ou 'all'). O 'qualquer' remove a linha/coluna se algum valor for nulo e 'all' remove a linha/coluna quando todas as entradas forem nulas. O “Thresh” aceita um valor inteiro que especifica o número mínimo de entradas de NA para soltar. O “Subconjunto” é uma matriz que restringe a operação de queda às linhas/colunas dadas pela lista. O último parâmetro "no lugar" é um booleano que, se verdadeiro, modifica o próprio quadro de dados.

Exemplo # 1: Utilizando o método Pandas Dropna () para soltar linhas com qualquer valores nulos

Nesta ilustração, veremos como soltar quaisquer valores nulos nas linhas de um quadro de dados, utilizando o método Pandas "Dropna ()".

Lançamos a ferramenta "Spyder" e iniciamos o programa. No arquivo python, importamos as duas bibliotecas necessárias. O primeiro kit de ferramentas que carregamos no arquivo é o pandas como "PD" e o segundo pacote é a biblioteca Numpy como "np". Agora aliávamos essas duas bibliotecas e podemos acessá -las usando essas abreviações. A biblioteca de pandas é importada para poder utilizar métodos pandas, enquanto a biblioteca Numpy ajudará a lidar com os valores de nan no quadro de dados.

Temos que criar um quadro de dados com alguns valores nulos. Para isso, os pandas nos fornecem um método “PD.Quadro de dados()". Invocamos esse método para criar um quadro de dados com quatro colunas "primeiro", "segundo", "terceiro" e "quarto". A coluna "primeiro" tem esses valores "np.nan "," 98 "," 66 "," np.nan "," 14 "," 30 "," 26 "," 79 "e" 11 ". A coluna "Second" está armazenando valores "np.nan "," 29 "," 14 "," 16 "," 27 "," 10 "," 32 "," 19 "e" 21 ". A coluna "Terceiro" está mantendo valores que são "10", "45", "7", "13", "5", "7", "8", "9" e ". A última coluna “Quarto” tem entradas “16”, “7”, “10”, “NP.nan "," 6 "," 7 "," 9 "," 20 "e" 30 ". Todas as colunas estão realizando nove entradas.

Construímos um objeto DataFrame "contador" e atribuímos o resultado de invocar o "PD.DataFrame () ”função. Portanto, o quadro de dados é armazenado na variável "contador". Exibimos o quadro de dados no console python empregando o método "print ()" de python.

Para executar o programa, pressionamos a opção "Run File" na ferramenta Spyder. O quadro de dados resultante exibido no terminal mostra que a coluna “primeiro” tem dois valores de nan, a coluna “Segundo” e “Quarto” têm um valor de nan em cada um, enquanto a coluna “Terceiro” não possui valores de NAN.

Agora aprendemos a técnica para soltar as linhas com os valores de nan em um quadro de dados usando pandas “DataFrame.Dropna () ”Método.

Chamamos o método Pandas "Dropna ()" com o nome do DataFrame "contador". Aqui passamos dois parâmetros para esta função "eixo" e "como". Os valores para o parâmetro "eixo" são definidos como "0", que indica as linhas, enquanto o "como" é especificado nos valores "qualquer" porque queremos soltar linhas que tenham algum valor nan neles. Uma variável “ausente” é criada para armazenar a saída do método “Dropna ()”. Por fim, invocamos o método "print ()" para exibir o conteúdo da variável "ausente".

Aqui temos o quadro de dados resultantes. Neste DataFrame, podemos observar que as linhas que contêm valores nulas são descartadas do DataFrame. As linhas com índices 0 e 3 são descartadas porque eles têm valores de nan.

Também podemos verificar o tamanho do quadro de dados usando o método "len ()". Invocamos o método "print ()" e fornecemos a função "len ()" como seu parâmetro. Na primeira função "len ()", encontramos o tamanho do quadro "contador" e a próxima função "len ()", o comprimento do quadro de dados "ausentes" é calculado. Então, finalmente, subtraímos os dois comprimentos para encontrar o número de linhas com valores nulos.

Aqui, podemos ver que o antigo DataFrame "contador" tinha 9 linhas, enquanto o novo DataFrame "Missing" tem 7 linhas. E o número de linhas que têm valores nulos são 2.

Exemplo # 2: Utilizando o método Pandas Dropna () para soltar linhas com valores nulos abaixo de um limite especificado

Para este caso, utilizamos o quadro de dados criado no exemplo anterior. Utilizamos outra propriedade fornecida pela função "Dropna ()".

Invocamos o “DataFrame.Dropna () ”Método. Como afirma a sintaxe, o nome do quadro de dados é fornecido com a função "Dropna ()" como "contador.Dropna () ”. Os parâmetros que usamos aqui são "eixo" e "Thresh". Definimos o "eixo" como "0" para a queda emo menos de 4. Qualquer linha que tenha o número de valores não nulos abaixo de quatro, ele os deixará. Armazenamos a saída na variável “ausente” e simplesmente a exibimos usando o método “print ()”.

Na imagem de saída, um quadro de dados é exibido. Aqui, a linha 0 e a linha 3 são descartadas porque elas tinham uma contagem de valores não nulos abaixo de 4.

Exemplo # 3: Utilizando o método Pandas Dropna () para soltar linhas com valores nulos para uma coluna especificada

Utilizando o quadro de dados da primeira ilustração, invocamos o método "Dropna ()". Desta vez, estamos utilizando -o para soltar linhas em uma coluna específica. Para eliminar linhas com valores nulos em uma coluna especificada, temos um parâmetro "subconjunto" da função "Dropna ()". A propriedade "subconjunto" passa a coluna ou linha fornecida como uma lista para o método "Dropna ()". Aqui, selecionamos a coluna "Segundo" para este parâmetro. Em seguida, simplesmente exibimos o novo DataFrame no console.

A coluna "Second" tem a primeira linha que contém o valor da NAN para que seja descartada no novo DataFrame.

Conclusão

Trabalhar nos quadros de dados e encontrar o problema de encontrar valores ausentes deixa as coisas confusas. Lidar com esses valores ausentes é uma habilidade de aprendizado central. Sempre que estamos presos em um desafio, os pandas entram em jogo. Os pandas nos fornecem a função “DataFrame.Dropna () ”para lidar com essas entradas nulas. Este tutorial demonstrou a sintaxe desta função com todos os seus parâmetros. Realizamos a implementação prática dos códigos de exemplo python para soltar valores nulos que utilizam o método "Dropna ()" com diferentes argumentos.