Pandas média

Pandas média
“Neste tutorial, demonstraremos como aplicar a técnica média de pandas para calcular a média. A média dos valores numéricos em uma série de pandas ou dados de dados de pandas é determinada usando a função média (). Uma das ferramentas que simplificam bastante o processo de importação e avaliação de dados de dados é um deles. O valor médio para o eixo escolhido é retornado pelo quadro de dados de pandas.função média (). Se o método for usado em um objeto da série pandas, ele produz um número escalar que representa a média de todos os dados ou ocorrências no quadro de dados. É comum usar essa ferramenta em uma única coluna DataFrame, mas a função média () em pandas pode funcionar em todos os quadros de dados de pandas, objetos em série e colunas individuais de quadro de dados.”

Como usar a função média dos pandas?

Primeiro devemos compreender a sintaxe antes de analisar como usar o método mean () para calcular a média. Dependendo do tipo de objeto que você está usando, o método Pandas Signal determinará sua sintaxe. A média () pode ser aplicada ao quadro de dados, séries e colunas individuais do quadro de dados.

Sintaxe para usar a função média () para quadros de dados

A seguir está a sintaxe para usar a função média () em um quadro de dados.

Sintaxe: df.significar( )

Você precisa digitar seu nome de dados de dados seguido de.média () para invocar o método ao usar mean () em um quadro de dados inteiro. O mean (), por padrão, tenta operar em todas as colunas quando aplicado a um quadro de dados inteiro. No entanto, na verdade, a saída geralmente consiste apenas nos meios de variáveis ​​numéricas. Você também pode usar alguns parâmetros opcionais adicionais para alterar ligeiramente o resultado que obtemos usando a função média ().

Sintaxe para usar a função mean () para a série Pandas

Ao aplicar a técnica média () a uma série, a sintaxe é bastante semelhante à de um DataFrame.

Sintaxe: Series.significar( )

Existem alguns argumentos que você pode usar para alterar os resultados ao usar mean () em uma série, assim como no DataFrames.

Sintaxe para usar a função média () para colunas individuais no quadro de dados

Como as colunas do DataFrame são objetos da série Pandas, a aplicação de pandas significa em uma coluna requer duas etapas: usando a sintaxe do DOT para recuperar a coluna especificada e depois chamar a função média ().

Sintaxe: df.coluna.significar( )

Por exemplo, você usaria o código “DF.coluna.mean () ”se o seu quadro de dados for nomeado DF e a coluna que você deseja operar é chamada de“ coluna ”. Em seguida, calculará a média apenas para aquela coluna.

Parâmetros

eixo: Esta é uma referência ao eixo para a função que será usada.

Skipna: Não inclui nenhum valores nulos no cálculo do resultado.

nível: Se o eixo é um multiindex, ele conta junto com esse nível e entra em colapso em uma série.

Numeric_only:

Apenas as colunas int, flutuantes e booleanas estão presentes. Se não for, tentará usar tudo antes de usar apenas informações numéricas. Não usado para a série.

Retornos: Se o nível for especificado, ele fornecerá a média do quadro ou série.

Agora, entendemos a sintaxe, então vamos continuar implementá -la nos exemplos abaixo.

Exemplo # 1: Encontre o valor médio da coluna DataFrame

Primeiro, os módulos Pandas e Numpy serão importados, então criaremos nosso quadro de dados. Vamos criar uma amostra de dados de dados com os dados de funcionários de uma empresa.


Produzimos um quadro de dados utilizando o PD.DataFrame () função e armazenou o registro de 10 funcionários no DF DataFrame, passando parâmetros dentro do PD.Dataframe () i.e. EMP, colunas e índice. A função print () é usada para visualizar nosso quadro de dados.

Vamos calcular a média de uma única coluna em um quadro de dados. Aqui, encontraremos a média/média da variável etária.


A variável de idade, neste caso, está sendo recuperada usando “Sintaxe do Dot.”Estamos usando o código DF.idade para realizar isso. Mas logo depois disso, calculamos a média usando .significar(). Isso essencialmente extrai a coluna AGE do DF DataFrame e calcula a média dessa coluna.

Exemplo # 2: encontre a média de todo o DataFrame

Vamos aplicar o método mean () a um DF DataFrame inteiro, que criamos no Exemplo nº 1 da seguinte maneira:


O script acima calculará a média de todas.


O método médio () calculou a média de cada variável numérica quando a média () foi chamada em todo o quadro de dados. Portanto, calculou a idade média, o salário e o bônus do quadro de dados DF. Assim, usando o método mean () em todo o quadro de dados, a idade média é 27.000000, o salário médio é 17650.000000, e o bônus médio é 2055.555556.

Exemplo # 3: encontre a média do quadro de dados, incluindo valores ausentes

Você já notou que existem os mesmos valores ausentes em nosso dado de dados df? A opção Skipna do Mestre () é sempre configurada como skipna = true por padrão. Pandas Mean () ignora os valores ausentes se a opção Skipna for definida como true. Ao especificar skipna = false, podemos desativar isso.


A média das colunas com valores ausentes será NAN.


A idade e a coluna de bônus meios são ambos nan. Isso se deve a valores ausentes nas variáveis ​​de idade e bônus que agora foram incluídas na saída. Você pode optar por pular esses valores quando uma variável os tiver, configurando skipna = true. Como alternativa, você gostaria de usar o método Pandas Fillna para preencher os valores ausentes.

Exemplo # 4: encontre a média agrupada por uma variável categórica

Aqui, o salário médio é calculado por bônus. Isso envolveu algumas etapas:

    1. agrupe os dados por bônus usando o grupo ()
    2. recuperar a variável salarial
    3. Chame a função mean ()


Como você pode ver, usando .Groupby ([[bônus]) converteu os valores de bônus como um grupo em que o valor dos dados estava ocorrendo mais de uma vez (2000 estava ocorrendo 3 vezes). O código df.grupo (['bônus']).Salário.média () calculou a média dos valores salariais em relação aos valores agrupados da variável de bônus.

Exemplo # 5: Calcule a média condicional para a variável categórica

O mesmo DATAFRAME DF DF será usado neste exemplo também. O código a seguir demonstra como determinar a média para a coluna "salário" apenas para as linhas do quadro de dados quando a coluna "bônus" tem um valor maior que 1800.


Um conjunto de linhas e colunas pode ser acessado usando o DF. LOC [] Propriedade por etiquetas. No código acima, você pode ver que o salário médio para linhas com bônus maior que 1800 é mostrado na coluna salarial. Isso significa que o salário médio daqueles indivíduos/funcionários cujo bônus é maior que 1800 é 16500.0.

Conclusão

Para determinar o valor médio de uma série ou quadro de dados pandas, utilizamos o método médio (). Agora você deve ter uma melhor compreensão do funcionamento do método Pandas, depois de passar por este artigo. Para determinar o valor médio de um quadro ou série de dados de pandas, o método médio () é usado. Com os exemplos, tentamos ensiná -lo a encontrar a média de uma coluna em um quadro de dados, encontrar a média agrupada por uma variável categórica e como encontre a média condicional usando a função média ().