Pyspark Pandas Dataframe Groupby

Pyspark Pandas Dataframe Groupby
“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

Groupby () é usado para agrupar as linhas semelhantes no Pyspark Pandas Dataframe. Após o agrupamento, podemos executar operações estatísticas como MEAVE (), SUM (), MIN () e Max (). Veremos um por um com Groupby ().

Pyspark.Pandas.Quadro de dados.grupo () com média ()

Groupby () é usado para agrupar as linhas semelhantes no quadro de dados do Pyspark Pandas e retornar os valores médios para cada linha agrupada.

Sintaxe

Pyspark_pandas.grupo ([coluna/s]).significar()

Onde,

  1. Pyspark_pandas é o quadro de dados Pyspark Pandas
  2. A coluna é o nome da coluna no qual valores semelhantes são agrupados nesta coluna

Exemplo
Neste exemplo, retornaremos a média total de dados formados a partir de uma coluna do grupo - S_NAME.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group by s_name e retorno marcas médias de linhas agrupadas
Imprimir (Pyspark_pandas.grupo (['s_name']).significar())

Saída

Podemos ver que existem duas linhas semelhantes.

  1. RAM - 2 valores são agrupados
  2. Sumita - 2 valores são agrupados
  3. Sukanya - 1 valor é agrupado

Depois disso, a média total para todas as três colunas foi devolvida.

Pyspark.Pandas.Quadro de dados.grupo () com sum ()

Groupby () é usado para agrupar as linhas semelhantes no quadro de dados Pyspark Pandas e retornar a soma total para cada linha agrupada.

Sintaxe

Pyspark_pandas.grupo ([coluna/s]).soma()

Onde,

  1. Pyspark_pandas é o quadro de dados Pyspark Pandas
  2. A coluna é o nome da coluna no qual valores semelhantes são agrupados nesta coluna

Exemplo
Neste exemplo, retornaremos a soma total de dados formados a partir de uma coluna do grupo - S_NAME.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group by s_name e retornar a soma das marcas de linhas agrupadas
Imprimir (Pyspark_pandas.grupo (['s_name']).soma())

Saída

Podemos ver que existem duas linhas semelhantes.

  1. RAM - 2 valores são agrupados
  2. Sumita - 2 valores são agrupados
  3. Sukanya - 1 valor é agrupado

Depois disso, a soma total para todas as três colunas foi devolvida.

Pyspark.Pandas.Quadro de dados.grupo () com min ()

Groupby () é usado para agrupar as linhas semelhantes no quadro de dados do Pyspark Pandas e retornar o valor mínimo para cada linha agrupada.

Sintaxe

Pyspark_pandas.grupo ([coluna/s]).min ()

Onde,

  1. Pyspark_pandas é o quadro de dados Pyspark Pandas
  2. A coluna é o nome da coluna no qual valores semelhantes são agrupados nesta coluna

Exemplo
Neste exemplo, retornaremos o mínimo de dados formados a partir de uma coluna do grupo - S_NAME.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group by s_name e retorna marcas mínimas de linhas agrupadas
Imprimir (Pyspark_pandas.grupo (['s_name']).min ()))

Saída

Podemos ver que existem duas linhas semelhantes.

  1. RAM - 2 valores são agrupados
  2. Sumita - 2 valores são agrupados
  3. Sukanya - 1 valor é agrupado

Depois disso, o valor mínimo é retornado para todas as três colunas.

Pyspark.Pandas.Quadro de dados.grupo () com max ()

Groupby () é usado para agrupar as linhas semelhantes no quadro de dados do Pyspark Pandas e retornar o valor máximo para cada linha agrupada.

Sintaxe

Pyspark_pandas.grupo ([coluna/s]).max ()

Onde,

  1. Pyspark_pandas é o quadro de dados Pyspark Pandas
  2. A coluna é o nome da coluna no qual valores semelhantes são agrupados nesta coluna

Exemplo
Neste exemplo, retornaremos o máximo de dados formados a partir de uma coluna do grupo - S_NAME.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('s_name': ['ram', 'sukanya', 'sumita', 'sumita', 'ram'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group by s_name e retorna marcas máximas de linhas agrupadas
Imprimir (Pyspark_pandas.grupo (['s_name']).max ()))

Saída

Podemos ver que existem duas linhas semelhantes.

  1. RAM - 2 valores são agrupados
  2. Sumita - 2 valores são agrupados
  3. Sukanya - 1 valor é agrupado

Depois disso, o valor máximo é retornado para todas as três colunas.

Conclusão

Neste tutorial Pyspark Pandas DataFrame Groupby (), vemos o que é o Grupoby e como aplicar o Groupby () com funções estatísticas como Mestre (), Min (), Max () e Sum ().