PYSPARK - Funções agregadas do quadro de dados de pandas

PYSPARK - Funções agregadas do quadro de dados de pandas
“Em Python, o Pyspark é um módulo Spark que fornece um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark com quatro colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#mostrar
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

As funções agregadas são usadas para executar operações de agregação como Sum (), Min (), Mean () e Max ().Essas operações funcionam apenas em dados numéricos como número inteiro, duplo etc.

Vamos vê -los um por um.

Pyspark.Pandas.Quadro de dados.soma()

Sum () no Pyspark Pandas Dataframe é usado para retornar a soma total sobre as linhas e colunas.

Se você deseja retornar a soma em cada linha, deve especificar o eixo = 1 e, se quiser retornar a soma em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.

Sintaxe

Pyspark_pandas.soma (eixo = 0/eixo = 1)

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso apenas um parâmetro.

O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.

Exemplo 1
Neste exemplo, retornaremos a soma total em cada linha.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Sum () Operação de agregação em termos de linha
Imprimir (Pyspark_pandas.soma (eixo = 1))

Saída

0 281
1 237
2 284
3 240
4 231
DTYPE: INT64

Podemos ver que a operação da soma é realizada em cada linha.

Como, primeira linha - 90+100+91 = 281.

Exemplo 2
Neste exemplo, retornaremos a soma total em cada coluna.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Sum () Operação de agregação em termos de coluna

Saída

Mark1 379
Mark2 429
Mark3 465
DTYPE: INT64

Podemos ver que a operação da soma é realizada em cada coluna.

Como, para a coluna Mark1 - 90+78+90+54+67 = 379.

Pyspark.Pandas.Quadro de dados.significar()

a média () no Pyspark Pandas Dataframe é usada para retornar a média total sobre as linhas e colunas.

Se você deseja retornar a média em cada linha, deve especificar o eixo = 1 e, se quiser retornar a média em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.

Sintaxe

Pyspark_pandas.média (eixo = 0/eixo = 1)

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro

É preciso apenas um parâmetro.

O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.

Exemplo 1
Neste exemplo, retornaremos a média total em cada linha.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Mean () Operação de agregação em termos de linha
Imprimir (Pyspark_pandas.média (eixo = 1))

Saída

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
DTYPE: Float64

Podemos ver que a operação média é realizada em cada linha.

Como, primeira linha - (90+100+91)/3 = 93.666667

Exemplo 2
Neste exemplo, retornaremos a média total em cada coluna.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Mean () Operação de agregação em termos de coluna
Imprimir (Pyspark_pandas.média (eixo = 0))

Saída

Mark1 75.8
Mark2 85.8
Mark3 93.0
DTYPE: Float64

Podemos ver que a operação média é realizada em cada coluna.

Como, para a coluna Mark1 - (90+78+90+54+67)/5 = 75.8.

Pyspark.Pandas.Quadro de dados.min ()

min () no pyspark pandasframe é usado para valor mínimo sobre as linhas e colunas.

Se você deseja retornar o valor mínimo em cada linha, deve especificar o eixo = 1 e, se quiser retornar o mínimo em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.

Sintaxe

Pyspark_pandas.min (eixo = 0/eixo = 1)

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso apenas um parâmetro.

O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.

Exemplo 1
Neste exemplo, retornaremos o valor mínimo em cada linha.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform min () operação de agregação em termos de linha
Imprimir (Pyspark_pandas.min (eixo = 1))

Saída

0 90
1 67
2 90
3 54
4 67
DTYPE: INT64

Podemos ver que a agregação min () é realizada em cada linha.

Como, primeira linha - mínimo (90.100,91) = 90

Exemplo 2
Neste exemplo, retornaremos o valor mínimo em cada coluna.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Min () Operação de agregação em termos de coluna
Imprimir (Pyspark_pandas.min (eixo = 0))

Saída

Mark1 54
Mark2 67
Mark3 87
DTYPE: INT64

Podemos ver que a agregação min () é realizada em cada coluna.

Como, para a coluna Mark1 - min (90,78,90,54,67) = 54.

Pyspark.Pandas.Quadro de dados.max ()

max () no pyspark pandframe é usado para valor máximo sobre as linhas e colunas.

Se você deseja retornar o valor máximo em cada linha, deve especificar o eixo = 1 e, se quiser retornar o máximo em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.

Sintaxe

Pyspark_pandas.max (eixo = 0/eixo = 1)

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso apenas um parâmetro.

O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.

Exemplo 1
Neste exemplo, retornaremos o valor máximo em cada linha.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Max () Operação de agregação Linha em termos de linha
Imprimir (Pyspark_pandas.max (eixo = 1))

Saída

0 100
1 92
2 98
3 97
4 87
DTYPE: INT64

Podemos ver que a agregação max () é realizada em cada linha.

Como, primeira linha - máximo (90,100,91) = 100

Exemplo 2
Neste exemplo, retornaremos o valor máximo em cada coluna.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform MAX () Operação de agregação em termos de coluna
Imprimir (Pyspark_pandas.max (eixo = 0))

Saída

Mark1 90
Mark2 100
Mark3 98
DTYPE: INT64

Podemos ver que a agregação max () é realizada em cada coluna.

Como, para a coluna Mark1 - Max (90,78,90,54,67) = 90.

Conclusão

Neste tutorial Pyspark Pandas Dataframe, vimos quatro funções de agregação diferentes executadas no DataFrame. É possível calcular em toda a linha e colunas com parâmetros de eixo. Sum () retornará a soma total, o avg () é usado para retornar a média total, min () é usado para retornar o valor mínimo e max () retornará o valor máximo.