Pandas Groupby Count District

Pandas Groupby Count District

Este artigo ensinará como contar os valores distintos para cada grupo depois de agrupar os dados usando o método groupby (). Com a ajuda dos pandas.Método Groupby (), podemos facilmente dividir os dados em vários grupos para que as funções de agregação possam ser aplicadas a cada grupo. Nos pandas, essa técnica é uma parte essencial da análise de dados. Existem várias maneiras de determinar quantos valores exclusivos estão presentes em uma coluna de dados de dados para um grupo de dados. Usando o DataFrame.groupby (), Nunique (), DataFrame.agg () e série.value_counts () métodos etc., Podemos obter o número de valores distintos para os grupos.

Como contar os valores únicos depois de agrupar os dados em pandas

Primeiro, dividiremos os dados dentro da coluna ou série em grupos de categorias. Em seguida, usaremos uma função para calcular o número de dados/valores exclusivos para o grupo de categorias. Nos exemplos a seguir, usaremos funções diferentes para contar os dados distintos para os grupos de categorias.

Exemplo # 01: Conte os valores distintos de uma coluna DataFrame usando o método valores_count ()

A função valores_count () retorna um objeto com contagens de valores distintos. O objeto resultante será organizado em ordem decrescente, com o primeiro elemento aparecendo com mais frequência. Por padrão, ele exclui valores de NA. Vamos primeiro criar um DataFrame. O DataFrame será criado após importar o módulo dos pandas.

Criamos nosso quadro de dados usando um dicionário dentro do PD.Função DataFrame (). Nosso DataFrame consiste em duas colunas, 'estudante' e 'idade'. O aluno da coluna que contém os valores de dados ('Dave', 'Sybil', 'Dave', 'Jenny', 'Dave', 'Dave', 'Sybil', 'Jenny', 'Jenny', 'Sybil') e o A 'idade' da coluna está contendo os valores (14, 15, 16, 16, 15, 14, 15, 14, 14, nenhum). Vamos agora agrupar os dados e determinar os valores únicos totais para os grupos.

A função retornou os valores distintos totais para os grupos criados na coluna 'aluno'. Por exemplo, para o grupo 'Dave', o valor da idade '14' na idade da coluna 'ocorre duas vezes, e os valores' 15 'e' 16 'acontecem apenas uma única vez, e assim por diante. Como observado, a função também ignorou o valor ausente.

Exemplo # 02: Conte os valores distintos de várias colunas usando o método valores_count ()

No exemplo anterior, contamos os valores distintos de uma única coluna para cada dados/valor agrupados. Agora, determinaremos o número de valores distintos de várias colunas após o agrupamento de uma coluna do DataFrame. Precisamos de outro quadro de dados com pelo menos três colunas.

Criamos nosso quadro de dados com três colunas, eu.e., 'Nome', 'Marcas' e 'Grade'. As marcas da coluna estão armazenando os dados ('Tyson', 'Nancy', 'Nancy', 'Tyson', 'Jimmy', 'Jimmy', 'Jimmy', 'Nancy', 'Tyson'). Enquanto as colunas, 'marcas' e 'notas', contêm os valores (15, 15, 17, 17, 18, 18, 14, 14, 14, 14) e ('b', 'b', 'a', ' A ',' a ',' a ',' b ',' b ',' b ') respectivamente. Agora, vamos contar os valores únicos da coluna 'Marcas' e 'notas' depois de agrupar os dados da coluna 'Nome'.

A função value_counts () é aplicada a uma lista que contém os rótulos das colunas. A função retornou a contagem de valor distintiva para cada grupo de dados na coluna 'nome'.

Exemplo # 3: conte os valores distintos usando o grupo.função nunique ()

O número de valores distintos para cada coluna é retornado pelo método Nunique (). A função Nunique () pesquisa coluna por coluna e recupera o número de valores de dados distintos para cada linha de dados de dados quando o eixo da coluna é especificado (Axis = 'Columns'). Ao usar o método Nunique () para determinar o número de valores distintos, primeiro criaremos um DataFrame com pelo menos uma coluna contendo dados repetitivos.

Criamos duas colunas, eu.e., 'funcionário' e 'salário', em nosso quadro de dados. O funcionário da coluna está armazenando dados como string ('gerente', 'contador', 'gerente', 'gerente', 'funcionário', 'contador', 'funcionário', 'funcionário', 'contador', 'funcionário') e O 'salário' da coluna está contendo os valores (15000, 14000, 15000, 14000, 12000, 13000, 12000, 14000, 15000, 13000). Vamos encontrar os valores distintos no salário da coluna para grupos na coluna 'funcionário'.

Existem três valores únicos na coluna 'salário' para os grupos, 'contador' e 'funcionário', na coluna 'funcionário'. O número de valores distintos para o 'gerente' do grupo é 2.

Exemplo # 4: contagem valores distintos de várias colunas usando a função Nunique ()

Agora, calcularemos a contagem de valores exclusivos para várias colunas de quadro de dados. Vamos adicionar outra coluna no DataFrame, que criamos no Exemplo # 3.

Adicionamos uma nova coluna 'Post' em nosso quadro de dados com os valores de dados ('junior', 'junior', 'sênior', 'junior', 'sênior', 'sênior', 'sênior', 'junior', ' Junior ',' Junior '). Agora, contaremos os valores exclusivos das colunas 'post' e 'salário' para cada grupo de dados na coluna 'funcionário'. Usaremos a função agg () para encontrar a contagem de valores únicos para várias colunas.

Agrupamos os dados na coluna 'funcionário' e aplicamos a função agg (). Dentro da função agg (), passamos um dicionário com nomes de colunas como chaves e as cordas da Nunique como valores das chaves. A função retornou o número de valores exclusivos nas colunas 'post' e 'salário' para cada grupo de dados, i i.e, 'contador', 'funcionário' e 'gerente'.

Também podemos determinar o número de valores distintos usando a função Nunique () sem o método agg (). Para isso, primeiro criaremos uma lista com rótulos de colunas, das quais queremos contar os valores distintos. Em seguida, usaremos as funções Groupby () e Nunique nas colunas específicas do quadro de dados dentro da lista, em vez de todo o DataFrame 'DF'.

Sem a função agg (), obtivemos os mesmos resultados de antes quando aplicamos a função agg ().

Também podemos agrupar várias colunas e encontrar o número de valores distintos para o grupo e subgrupo. Vamos agrupar os dados de colunas 'funcionários' e 'postar' e depois encontrar os valores distintos na coluna 'salário' para cada grupo e subgrupo.

Exemplo # 5: determinar valores distintos da coluna DataFrame usando a função exclusiva ()

Ao trabalhar com uma coluna específica de um quadro de dados, a função exclusiva () é usada e retorna todos os dados/valores exclusivos da coluna. Primeiro, criaremos um quadro de dados a partir do qual encontraremos os valores exclusivos na coluna especificada para os dados do grupo de uma única coluna, agrupados usando a função groupby ().

Existem duas colunas em nosso quadro de dados, eu.e., 'Gênero' e 'idade'. Os valores de dados na coluna 'gênero' são ('masculino', 'masculino', 'masculino', 'feminino', 'masculino', 'feminino', 'feminino', 'masculino', 'feminino', 'feminino') e a coluna 'Age' está armazenando os valores (19, 19, 20, 18, 20, 18, 19, 20, 17, 20). Agora, agruparemos os dados na coluna 'gênero' usando a função groupby (), e encontraremos os valores distintos na idade da coluna para cada grupo.

A função retornou um quadro de dados com os valores distintos de uma coluna, em vez de contagens de valores distintos. No entanto, pode -se observar que existem quatro valores únicos (18, 19, 17, 20) para o grupo feminino e 2 valores únicos para o grupo do grupo na coluna 'Idade'.

Conclusão

Neste tutorial de pandas, discutimos como determinar ou contar os valores distintos ou dados exclusivos em uma coluna ou colunas do quadro de dados em pandas. Agora, você pode contar os valores únicos em pandas. Implementamos vários exemplos neste artigo para ensinar como contar os valores distintos de uma coluna DataFrame usando as funções valores_count (), Nunique () e exclusivo () depois de agrupar os dados usando a função groupby ().