Quando adicionamos dois ou mais valores juntos e sua soma é dividida pelo número total de valores adicionados, o resultado é uma média. Os pandas significam retorna a média de dados ou valor ao longo de um determinado eixo. Uma série com a média em um eixo será devolvida pelos pandas se o método médio () for aplicado a um quadro de dados. Os pandas retornam um valor numérico (número único) se "Mean ()" for usado em uma série. As funções podem ser aplicadas às categorias depois de criar os grupos de categorias. É uma ideia simples, mas uma técnica altamente eficaz que é frequentemente aplicada na ciência de dados. Ele nos permite criar um resumo dos dados para cada grupo, aplicar modificações específicas do grupo e executar a filtração de dados. Com a função groupby (), o objeto pode ser dividido, uma função pode ser aplicada e os produtos podem ser combinados. Grandes conjuntos de dados podem ser agrupados com isso, e as operações podem ser executadas nos grupos.
Como usar o grupo.Método médio () em pandas?
Para calcular a média de um quadro de dados ou a média de colunas específicas de um quadro de dados, podemos usar o grupo.função média (). Vamos demonstrar como usá -lo nos seguintes exemplos.
Exemplo # 01: Determine a média de uma única coluna inteira agrupando os dados de uma única coluna
Usando o PD.Função DataFrame (), primeiro criaremos um DataFrame para que possamos dividir os dados da coluna ou colunas do quadro de dados em grupos e depois encontrar seu valor médio. Antes de criar o quadro de dados, devemos importar o módulo pandas junto com a biblioteca Numpy.
Como pode ser visto, criamos nosso quadro de dados usando o Pandas Dictionary. Temos 3 colunas em nosso dado de dados do DF, eu.e., 'itens', 'fabricante' e 'quantidade'. Na coluna 'itens', armazenamos os valores ('camisa', 'tie', 'calça', 'camisa', 'tie', 'calça', 'camisa', 'calça', 'calça', ' vínculo '), enquanto o fabricante de colunas e a' quantidade 'contendo os valores (' Itália ',' França ',' China ',' França ',' China ',' Itália ',' China ',' Itália ', 'França', 'China') e (13, 16, 21, 32, 26, 41, 24, 42, 12, 15), respectivamente, respectivamente. Vamos agrupar os valores na coluna do fabricante e determinar o valor médio da quantidade para cada fabricante distinto.
O valor do fabricante 'China' tem um valor médio de quantidade de 21.5, o valor médio da quantidade para 'França' é 20.0, e o valor médio da quantidade para 'Itália' é 32.0. Também podemos especificar um índice para a saída usando a função Reset_index com o grupo.função média ().
Exemplo # 02: Encontre a média de uma única coluna de flutuação agrupando os dados de uma única coluna
Vimos como podemos encontrar a média da coluna inteira depois de agrupar os dados. Agora vamos tentar outra coluna Datatype como Float. Um quadro de dados com pelo menos uma coluna com valores de flutuação será criado usando o PD.Função DataFrame ().
Colocando um dicionário dentro do PD.DataFrame (), criamos um DataFrame com três colunas. A coluna 'Nome' está armazenando os nomes de alguns jogadores aleatórios ('Sam', 'Jay', 'Leo', 'Mike', 'Will', 'Billy', 'Jhonny', 'Lara', 'Hanna', 'Tony'), a coluna 'equipe' representando a equipe da qual cada jogador pertence a ('a', 'a', 'b', 'a', 'b', 'a', 'c', 'b' b ' ',' C ',' c ') e a coluna de' altura 'está armazenando as alturas de cada jogador como um valor de flutuação (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Vamos agrupar os dados na coluna 'equipe' e determinar o valor médio da altura para cada valor distinto da 'equipe'.
Você pode ver que o valor médio da altura da equipe A jogadores é 5.65, enquanto as alturas médias dos jogadores nas equipes B e C são 5.866 e 5.6, respectivamente.
Exemplo # 03: determine a média de várias colunas usando o grupo.função média ()
Nos exemplos anteriores, determinamos a média de uma única coluna. No entanto, a média de inúmeras colunas para cada grupo também pode ser determinada. Vamos criar um quadro de dados com mais de uma coluna numérica, depois de importar os módulos pandas e numpy.
No recém -criado DataFrame, existem três colunas com os rótulos 'Nome', 'Score' e 'Matches'. Os nomes da coluna com os valores de dados como uma string ('ron', 'jim', 'dany', 'jim', 'jim', 'dany', 'ron', 'ron', 'dany', 'jim' ), enquanto a 'pontuação' e 'correspondências' consistem em dados numéricos como (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) e (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). Agora vamos encontrar a média da coluna 'Score' e 'Matches' depois de agrupar os dados da coluna 'Nome'. O grupo.a função média () será usada para isso.
Pode -se notar que o grupo 'Dany' tem uma pontuação média de 2.66 em 2.00 correspondências. O grupo Jim tem uma pontuação média de 2.75 e o valor médio das partidas jogadas é 1.75. Enquanto o grupo 'Ron' tem um valor médio de pontuação de 2.66 e o valor médio das partidas jogadas é 2.33.
A média de um grupo de categorias pelo objeto também pode ser calculada usando o método agg (). Vamos fornecer a média como um argumento para a função agg (). Para agregar usando operações únicas ou múltiplas no eixo especificado, podemos usar a função agg ().
A saída é a mesma de antes.
Exemplo # 04: determine a média de colunas específicas agrupando as várias colunas
Nos Exemplos 1, 2 e 3, agrupamos os valores ou dados de uma única coluna. Agora, agruparemos várias colunas usando a lista de rótulos da coluna dentro da função groupby () e, em seguida, encontraremos o valor médio para cada grupo. Um dicionário 'd' será passado dentro do PD.DataFrame () Função como uma entrada para criar o DataFrame.
Criamos o DataFrame necessário. A coluna 'esportes' está armazenando o nome de alguns esportes ('badminton', 'futebol', 'tênis', 'basquete', 'futebol', 'tênis', 'basquete', 'futebol', 'badminton', ' basquete ',' basquete ',' tênis '), os nomes dos países (' China ',' Rússia ',' Itália ',' Espanha ',' Rússia ',' Itália ',' China ',' Itália ',' Espanha ',' China ',' Rússia ',' Itália ') são armazenados na coluna' país '. Enquanto na coluna 'vitória' armazenamos o número de partidas vencidas por cada país em cada esporte (13, 10, 6, 7, 7, 10, 12, 7, 11, 8, 13, 11, 6). Vamos usar o grupo.Média () Função para encontrar a média dos valores da coluna 'Win' agrupando as colunas 'esportes' e 'país'.
A função determinou com sucesso as médias dos valores da coluna 'Win' para cada esporte no país. O quadro de dados agrupado pode ser redefinido usando a função Reset_index (), que também gera um novo índice, fornecendo uma estrutura de quadro de dados apropriada.
Um índice é adicionado para cada linha de dados de dados. Para organizar os resultados em uma tabela atraente, também podemos usar a função pivot ().
Conclusão
Neste tutorial, discutimos qual é a média ou média de números e como encontrar a média de uma coluna específica (um ou mais) depois de agrupar a coluna ou colunas de um quadro de dados. Implementamos alguns exemplos neste artigo para ensinar como determinar a média de uma única coluna inteira ou flutuação, agrupando os dados de uma única coluna; Como determinar a média de várias colunas usando o grupo.função médio (); e também como determinar a média de colunas específicas agrupando as várias colunas.