Contagem de frequência de pandas

Contagem de frequência de pandas
Você aprenderá como contar as ocorrências de dados ou valor em uma coluna neste tutorial de pandas. Na ciência dos dados, há casos em que precisamos determinar com que frequência um valor específico ocorre em uma coluna específica de um quadro de dados. Isso pode ocorrer, por exemplo, quando você deseja comparar apenas uma pequena gama de valores potenciais. Se você deseja contar a quantidade de valores duplicados ou repetidos em uma coluna, esse é outro exemplo. Além disso, podemos precisar contar as observações que compõem um fator ou precisam conhecer a proporção de homens e mulheres na coleta de dados, por exemplo.

Como usar a função média dos pandas

Precisamos determinar as contagens de frequência de dados/valores ou itens em uma ou mais das colunas de um quadro de dados de pandas. Existem várias maneiras de realizar isso. Discutiremos alguns métodos para contar as ocorrências ou frequência de itens ou valores na coluna de um quadro de dados.

Exemplo 1: Contando a frequência da coluna usando a função value_counts ()

O método value_counts () em pandas retorna uma série com a frequência de valores únicos. A série resultante está em ordem decrescente por padrão e desprovida de valores de NA. Os “pandas.O objeto da série ”é adequado para uso com esta função (value_counts ()). As contagens de frequência dos valores em uma única coluna podem ser obtidas usando esse método, pois os objetos do quadro de dados de pandas são o grupo de objetos da série. Devemos primeiro criar um quadro de dados para demonstrar este exemplo. Os “pandas.A função DataFrame () ”é usada para gerar o DataFrame. Assim, devemos primeiro importar o pacote de pandas.


Dentro do PD.Função DataFrame (), usamos um dicionário Python para gerar nosso quadro de dados. Atribuímos as colunas em nosso quadro de dados com os rótulos "X" e "Y". Exibimos nosso quadro de dados "df" usando o método print ().


Na recém -criada coluna “DF”, existem duas colunas - a coluna “x” armazena os valores inteiros (1, 1, 4, 3, 5, 1, 4, 3, 5, 4) e a coluna “y” armazenam a Valores da string ("Q", "R", "T", "Q", "Q", "T", "R", "Q", "T", "R"). Você pode observar que há uma repetição nos dados de ambas as colunas. Podemos usar a função value_counts () para calcular a frequência dos dados em uma coluna específica. Vamos contar a frequência dos dados na coluna “y”.


A função retornou uma série que tem a contagem de valores distintos. O valor "Q" ocorre 4 vezes e os valores "R" e "T" ocorrem 3 vezes na coluna "Y". Vamos também contar os valores únicos na coluna X.


Pode -se observar que os valores "1" e "4" ocorrem 3 vezes na coluna "X", enquanto os valores "3" e "5" ocorrem 2 vezes.

Exemplo 2: Contando a frequência da coluna usando o grupo.Função counts ()

Neste exemplo, agrupamos as linhas por coluna usando o quadro de dados de pandas.groupby () função e use o método count () para determinar o número de valores distintos para cada grupo, ignorando os valores de nenhum e nan. Vamos criar um quadro de dados primeiro onde aplicamos o grupo.função counts ().


Usamos um dicionário de pandas para criar nosso quadro de dados depois de importar o módulo pandas. Os nomes de nossas colunas são especificados como "col1" e "col2".


Na coluna "Col1", temos os dados inteiros (8, 6, 5, 8, 8, 7, 7, 9, 5, 7, 7). Na coluna "Col2", temos os dados de cordas ("garoto", "garoto", "menina", "menino", "garoto", "menina", "menina", "menina", "menino", " garoto"). Agora, aplicamos o grupo.função counts () para calcular a frequência dos valores em cada coluna.


Para fazer cálculos, dividimos os dados em vários grupos usando a função groupby (). Em seguida, a função count () é aplicada para contar as frequências de valores distintos na coluna especificada do DataFrame. O valor "5" ocorre 2 vezes. Os valores "6" e "9" ocorrem uma vez. Enquanto os valores "7" e "8" ocorrem 2 vezes na coluna "col1". Agora, vamos aplicar o grupo.Count () Função na coluna “Col2”.


A função determinou a frequência dos valores de "menino" e "menina" como 6 e 4 vezes, respectivamente.

Exemplo 3: Contando a frequência da coluna usando o grupo.Função () função

A frequência de itens nas colunas únicas pode ser contada usando este método. Para obter um objeto DataFrame com uma contagem de frequência, podemos aplicar o método count () a um objeto de quadro de dados agrupado por uma única coluna. Primeiro, um quadro de dados que contém pelo menos uma coluna repetitiva é criada para que possamos usar a função count () para determinar a frequência dos valores. Primeiro importamos o módulo Pandas antes de criar um DataFrame. Então, usando o PD.Função DataFrame (), criamos nosso DataFrame.


No DataFrame anterior, temos duas colunas - a coluna "Nome" com valores ("Alex", "Jack", "Alex", "Ali", "Jack", "Jack", "Alex", "Alex", "Ali", "Alex", "Ali", "Ali", "Jack", "Alex") e a coluna "Grade" que contém as notas dos indivíduos ("A", "A", "B", " B "," B "," B "," A "," C "," A "," C "," C "," C "," A "," B "). Agora, para encontrar as contagens de frequência dessas colunas, usamos o grupo.função () função. Um int que representa o número de itens neste objeto pode ser obtido usando o atributo de tamanho. Se a série fornecer o número de linhas e se o DataFrame retornar, as linhas totais multiplicadas pelo número de colunas.


Isso mostra que existem duas ocorrências em que "Alex" tem um valor de grau de "A". Há também duas ocorrências em que "Alex" tem um valor de grau de "B" e "C". "Ali" ocorreu 1 tempo com as notas "A" e "B", enquanto 2 vezes com o valor de grau de "C". "Jack" ocorreu duas vezes com notas "A" e "B".

Exemplo 4: Contando a frequência da coluna, criando uma tabela de frequência para uma linha específica

Podemos aplicar o método Crosstab () para determinar as frequências em um quadro de dados de pandas.

Agora, suponhamos que tenhamos que criar um quadro de dados com detalhes sobre o grau de gênero, idade e letra de dez alunos distintos.


Criamos o quadro de dados necessário com três colunas - a coluna de grau ("A", "B", "A", "B", "C", "B", "B", "C", "A", " A ”), a coluna de idade (17, 19, 18, 17, 19, 17, 18, 18, 17, 19), e a coluna de gênero (“ f ”,“ m ”,“ f ”,“ m ”, "F", "F", "M", "M", "F", "F"). Agora, usamos a função Crosstab () para criar uma tabela de frequência. Uma tabela de tabulação cruzada criada pelo método Crosstab () pode ser usada para exibir a frequência com que os diferentes agrupamentos de dados aparecem.


Dentro do PD.Função Crosstab (), especificamos a coluna “grau” no parâmetro de índice para calcular a frequência dos dados na coluna e especificamos o parâmetro de colunas como “frequência” para armazenar os valores de retorno/frequências dos dados do grupo.

Conclusão

Neste tutorial de pandas, discutimos como contar as ocorrências de dados ou valor em uma coluna de quadro de dados pandas. Tentamos ensinar como usar as funções "value_counts ()" e "groupby ()", juntamente com os atributos "size ()" e "count ()" para contar a frequência de dados na coluna especificada. Também vimos como contar a frequência de uma coluna criando uma tabela de frequência usando a função Crosstab ().