contagem de pandas

contagem de pandas
O grande ecossistema de pacotes Python orientado a informações é um fator significativo no motivo pelo qual o Python é uma plataforma fantástica para a realização de pesquisas de dados. Um desses pacote, pandas, simplifica a captura e a análise de dados.

Os valores ausentes podem ser problemáticos em algumas circunstâncias. Assim, ocasionalmente precisamos especificar objetos com valores que não tenham falta. Um método para localizar colunas com muitos dados ausentes é usar o método de contagem de pandas.

A função Pandas count () é um método para calcular o número de células não-NA em cada segmento ou coluna. Além disso, trabalhar com dados de não esfera também é relevante. Ao lidar com conjuntos de dados, uma tremenda habilidade é a capacidade de apresentar os resultados compreensivelmente. Usar um gráfico baseado em eixo é uma maneira comum de exibir dados. A contagem de funções Python () retorna o número de vezes que a substring aparece na string e o número de valores em colunas ou linhas de um quadro de dados. Assim, repassaremos como utilizar a função de contagem nos quadros de dados nesta parte.

Sintaxe para a função Pandas Count ()

O método de contagem possui uma sintaxe relativamente direta; No entanto, existem algumas abordagens diferentes para utilizá -lo e algumas opções que podem mudar como funciona. Você só precisa especificar o nome do quadro de dados seguido de “.count () ”para invocar a função de contagem de um dataframe. Assim, supondo.count () "para determinar a quantidade de entradas não-acalmadas para todas as colunas. Dentro dos colchetes, você também pode utilizar alguns argumentos opcionais que explicaremos daqui a pouco.

Aqui, o "nível" denota as várias indexações do eixo e, se o eixo for hierárquico, o método count () do DataFrame () acaba trazendo e para de responder às chamadas do programa, deixando o programa pendurado. O termo "numérico" refere -se à compatibilidade do programa com dados numéricos, incluindo valores inteiros, flutuantes e lógicos. Como deve sempre retornar ao quadro de dados quando o nível é fornecido, ele assume o valor falso como padrão. A avaliação do programa das linhas e colunas é fornecida no "eixo". O método count () usa o argumento do eixo para especificar colunas e linhas específicas para levar em consideração sempre que o resultado for produzido pelo aplicativo utilizando pandas.

Depois de examinar a sintaxe, vejamos algumas demonstrações da abordagem da contagem de pandas na prática. Exploraremos algumas instâncias de maneiras de contar os valores dentro de um quadro de dados, contar as entradas em uma coluna específica e alguns aplicativos adicionais.

Exemplo 1: conte o número de registros em todas as colunas de um quadro de dados usando o método Pandas count ()

Você será obrigado a executar algum código preparatório antes de poder compilar todas as instâncias. Devemos importar as bibliotecas relevantes e depois carregar/criar um quadro de dados, especificamente.

Primeiro, importamos a biblioteca Numpy como NP e Pandas Library e damos o nome PD no programa anterior. Agora podemos começar.

Começando com o código principal, aqui você pode ver que usamos um NP.propriedade nan e tornou igual a nan. O acrônimo Nan, que se refere a "não um número", denota números que não são declarados. Além disso, as entradas ausentes em um conjunto de dados são representadas usando -o.

Agora, construiremos um DataFrame com alguns valores nulos usando a função Pandas DataFrame. O código aqui criou uma variável chamada "df" e o resultado de invocar o PD.A função DataFrame () é então atribuída a esta variável criada. Dentro dos parênteses do PD.Função DataFrame (), utilizamos os aparelhos encaracolados e escrevemos os nomes das colunas que queremos ter no DataFrame. Criamos quatro colunas: nome, química, inglês e ciência. Em seguida, atribuímos todas as colunas com valores diferentes. Devemos manter todas as colunas do mesmo tamanho. A função de impressão é invocada para imprimir o DataFrame.

A saída mostra o seguinte DataFrame:

Agora, para cada coluna em nosso quadro de dados, calcularemos a quantidade de registros não nulos. A função count () para um quadro de dados é aplicada dessa maneira na abordagem mais direta.

Nesse caso, estamos aplicando count () aqui no quadro de dados “df” geral. Para conseguir isso, entramos no nome do quadro de dados, "df", seguido pelo .função count ().

Quando executarmos o código anterior, ele nos renderá o resultado mostrado na imagem a seguir:

Você pode obter a quantidade total de entradas não-acalmadas para cada coluna no resultado.

Nosso DataFrame compreende um total de seis linhas. Você pode notar que a variável "nome" tem seis valores nesta instância. Não há espaços vazios nesta variável. No entanto, valores específicos contêm menos de seis. Por exemplo, a ciência tem quatro entradas não-acalmadas, enquanto a química tem cinco. Para este exemplo, ele aplica suas configurações padrão ao parâmetro.

Ter esse conhecimento pode ser útil ao limpar os dados. Desenvolver um algoritmo de aprendizado de máquina também pode ser vantajoso porque categorias de modelos específicas não aceitam dados ausentes.

Exemplo 2: Conte o número de registros em todas as linhas de um quadro de dados usando o método Pandas count ()

Agora, vamos determinar quantas entradas não acalmadas existem nas fileiras do quadro de dados especificado.

O método count () é geralmente empregado para enumerar as entradas não-acalmadas das colunas. No entanto, pode haver situações em que você deve olhar para as linhas. Utilizaremos a propriedade do eixo para realizar isso.

Após a construção do DataFrame, o DF.O método count () calcula o número de valores em cada linha enquanto ignora qualquer entradas nulas ou nan. As linhas são representadas por eixo = 1. Por isso, instruímos o código para contar apenas as entradas nas linhas do quadro de dados.

Como resultado, este programa considera o método count (), gera a linha DataFrame, conforme exibido na captura de tela abaixo e depois volta à função Pandas.

Revisamos os dados, então sabemos que quatro colunas estão em nosso quadro de dados. Portanto, uma linha totalmente povoada deve ter quatro valores não-acalmados. No entanto, você pode observar que algumas linhas têm três ou dois dados não acalmados. Existem quatro entradas na primeira, segunda e última fila. Isso indica que falta dados em algumas das linhas. Isso pode estar bem, mas talvez não, dependendo de suas ações.

Configurando o eixo = “colunas” alcançará o mesmo resultado. Como o eixo = 1 e o eixo = “colunas” são equivalentes, a quantidade de dados não-acalmados para as linhas é fornecida quando você escolhe o eixo = “colunas.”

Isso produzirá o mesmo resultado que o mostrado anteriormente.

No entanto, aconselhamos muito contra o uso dessa sintaxe alternativa e, em vez disso, usamos o eixo = 1 porque é bastante desafiador entender e mal faz sentido se você estiver familiarizado com os eixos.

Conclusão

Neste artigo, aprendemos como contar valores em um quadro de dados de pandas. O quadro de dados de pandas.O método count () ajuda em nossa análise dos números no quadro de dados Python. Criamos primeiro um quadro de dados usando a função Pandas Dataframe e depois aplicamos o método de contagem de dados de dados a ele. Depois, explicamos a você contando os dados em colunas e linhas. Esperamos que este artigo aumente seu conhecimento.