Estatísticas de resumo dos pandas

Estatísticas de resumo dos pandas
"Pandas" é uma ótima linguagem para executar a análise de dados devido ao seu grande ecossistema de pacotes de Python centrados em dados. Isso facilita a análise e a importação de ambos os fatores. O Pandas Dataframe fornece maneiras de resumir os valores numéricos que estão presentes no quadro de dados. Observe que é importante obter o resumo das estatísticas em qualquer campo para análise de desempenho adicional de dados de acordo com as estatísticas. Os cálculos de estatística incluem a média aritmética, como os locais ou as tendências que revivem, o desvio padrão, o desvio médio de acordo com a forma dos dados e as medidas avaliadas de acordo com o quadro de dados trabalhando em. Discutiremos todos os métodos do cálculo de estatísticas resumidas em pandas. Usaremos a ferramenta “Spyder” para a implementação do código, que é um ambiente “Python” para a linguagem.

Sintaxe:

“Estatísticas = DF.descrever (valor) ”

A sintaxe anterior é usada para calcular as estatísticas resumidas em pandas. O "df" na sintaxe representa o "DataFrame". Considerando que a "descrição" é usada na linha específica ou na coluna que define o "df". O "valor" é o valor da linha ou a coluna em que a função deve ser executada que tenha sido atribuída às estatísticas. A função ".descrever () ”fornece os resultados da saída como o grande formato exibido no quadro de dados. O método executa as estatísticas resumidas no quadro de dados das colunas numéricas incluídas. Os métodos incluem os "médios", "valores únicos", "min", "max" e "count".

Aqui, são mostradas as seguintes maneiras pelas quais as estatísticas resumidas sobre pandas podem ser feitas. Estaremos implementando cada um deles no exemplo para uma melhor compreensão do método:

  • Cálculos de estatísticas de resumo em pandas para todas as variáveis ​​numéricas
  • Cálculo de estatísticas de resumo em pandas agrupadas por uma variável
  • Cálculos de estatísticas de resumo em pandas para todas as variáveis ​​de string

Criando um DataFrame para a execução de exemplo dos cálculos em estatísticas de resumo de pandas

Primeiro, abra a ferramenta "Spyder" para implementar o código. Em seguida, importe a biblioteca Panadas como "PD" e a Biblioteca Numpy como "NP". O Numpy é usado para computação numérica. Comece a criar o DataFrame, que consiste na equipe como "n" e "w" com suas pontuações como "44", "41", "42", "43", "45", "47", "48", e "50". As assistências são como "2", "np. nan "," 4 "," 5 "," 6 "," 7 "," 8 "e" 9 ". O valor dos rebotes será como "18", "20", "17", "16", "11", "12", "29", "NP.nan "e" 25 ". O “np.Nan ”é o NP para o“ Numpy ”e Nan significa“ não um valor ”, o que significa que não há valor atribuído lá. Em seguida, dê a condição "imprima" o DataFrame. A função "print ()" funciona para imprimir os resultados do código e escrever os resultados de acordo com a mensagem.

A saída exibe o quadro de dados criado de acordo com os valores atribuídos no código. Existem as "quatro" colunas: a equipe, as pontuações, as assistências e os rebotes.

Exemplo # 01: cálculos de estatísticas de resumo em pandas para todas as variáveis ​​numéricas

Neste exemplo, aprenderemos a calcular as estatísticas resumidas em pandas para todas as variáveis ​​numéricas. O DataFrame consiste na equipe como "O" e "V"; Eles marcaram "45", "88", "25", "55", "24", "78", "87", "40" e "20". As assistências são “2”, “11”, “1”, “3”, “6”, “4”, “2”, “10” e “NP.nan ". Os rebotes são "31", "32", "33", "34", "35", "37", "38", "NULL" e "39". A função DataFrame "descreve" calculará a variável numérica no quadro de dados das estatísticas de resumo dos pandas.

A saída exibe as colunas de colunas numéricas, que são "pontuações", "assistências" e "rebotes". A contagem faz o trabalho de contar os valores "não nulos". A média é para os valores "médios", DST para o cálculo dos valores de desvio padrão, o Min significa o valor min que significa o cálculo dos valores mínimos e o máximo para o cálculo do valor máximo, os 25 %, 50 %, e 75 % são para as considerações dos valores.

Exemplo # 02: Cálculo de estatísticas de resumo em pandas para o agrupado por uma variável:

Estaremos executando o cálculo do grupo por uma variável no quadro de dados das estatísticas de resumo em pandas neste exemplo. O DataFrame consiste nas duas equipes como "M" e "Q" com suas pontuações como "59", "58", "56", "50", "51", "53", "54" e "55" ”. Os auxiliam valores como "nulo", "7", "17", "18", "5", "3", "6", "21" e "15". Os rebote valores como "81", "82", "60", "30", "24", "97", "56", "NULL" e "71". A função do grupo com a receita da equipe é a condição aprovada com o cálculo "DOT" "Mean ()", levando -nos aos resultados das estatísticas de resumo do Pandas. Aqui, a média será calculada com o "Numpy", para calcular a matriz Numpy em execução.

A saída exibe o cálculo das estatísticas resumidas em pandas. As equipes "M 'e" Q "que mostram os cálculos como o topo têm os valores que ocorrem com mais frequência no" df ", o" freq "é a contagem de frequência do valor mais ocorrido no" df ", e o "Único" é usado para os valores mais exclusivos do quadro de dados. Ou seja, as operações em segundo plano realizadas para o cálculo do grupo para todas as variáveis ​​nas estatísticas de resumo dos pandas.

Exemplo # 03: cálculos de estatísticas de resumo em pandas para todas as variáveis ​​de string

Neste exemplo, implementaremos o cálculo de todas as variáveis ​​de string nos pandas para as estatísticas de resumo. O DataFrame tem as equipes como "S" e "D". As pontuações das equipes são "59", "53", "96", "80", "85", "62", "27", "22" e "21". Os valores auxiliam como "nulo", "8", "27", "50", "15", "31", "61", "11" e "17", e os rebotes consistem nos valores "70 "," 84 "," 30 "," 20 "," 94 "," 95 "," 90 "," NULL "e" 91 ", respectivamente, respectivamente. A condição será distribuída para o cálculo realizado no quadro de dados especificando a função "descrever" e no suporte "incluir" igual ao "objeto". Isso nos fornecerá o quadro de dados calculados de todas as variáveis ​​de string nas estatísticas de resumo dos pandas.

Os produtos surgiram como o valor médio das colunas de "pontos", "rebotes" e as variáveis ​​de string "assistências" que foram agrupadas pela variável "equipe". A saída é como "contagem, única, superior, freq", seus valores são como "9", "2", "D" e "5".

Conclusão

Os pandas são rápidos e fáceis de usar na biblioteca. As estatísticas de resumo dos pandas são uma função tão útil e útil que usamos nos pandas. Ele criou métodos diferentes para diferentes situações. Executamos todas as maneiras pelas quais as estatísticas de resumo dos pandas podem ser calculadas no quadro de dados. O exemplo anterior forneceu uma enorme explicação sobre como executar cada um deles. Concluímos o cálculo do resumo das estatísticas em pandas para a variável de string presente no quadro de dados, o cálculo de estatísticas em pandas para o grupo de uma variável disponível no quadro de dados e, por fim, também realizamos o exemplo do cálculo estatístico de resumo de todos os os valores numéricos no quadro de dados. Os cálculos de estatísticas de resumo desempenham um grande papel nas indústrias e empresas.