PYSPARK - Operações cumulativas do quadro de pandas

PYSPARK - Operações cumulativas do quadro de pandas
“Em Python, o Pyspark é um módulo Spark que fornece um tipo semelhante de processamento para Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark com três colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#mostrar
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

As operações cumulativas são usadas para retornar resultados cumulativos nas colunas do quadro de dados Pyspark Pandas.

Vamos vê -los um por um.

Pyspark.Pandas.Quadro de dados.Cumsum ()

Cumsum () retornará a soma cumulativa em cada coluna. Ele pode ser aplicado a todo o Pyspark Pandas Dataframe ou a uma única coluna.

Sintaxe

Em todo o DataFrame

Pyspark_pandas.Cumsum ()

Em uma coluna específica

Pyspark_pandas.coluna.Cumsum ()

Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.

Exemplo 1
Neste exemplo, realizaremos Cumsum () na coluna Mark2.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cumsum na coluna Mark2
Imprimir (Pyspark_pandas.Mark2.Cumsum ())

Saída

Operação de soma cumulativa trabalhando na coluna Mark2

100 = 100
100+67 = 167
100+67+96 = 263
100+67+96+89 = 352
100+67+96+89+77 = 429

Exemplo 2
Neste exemplo, executaremos Cumsum () em todo o Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cumsum em Pyspark Pandas Dataframe
Imprimir (Pyspark_pandas.Cumsum ())

Saída

Podemos ver que a soma cumulativa é retornada em cada coluna.

Pyspark.Pandas.Quadro de dados.cumprod ()

Cumprod () retornará o produto cumulativo em cada coluna. Ele pode ser aplicado em todo o Pyspark Pandas Dataframe ou em uma única coluna.

Sintaxe

Em todo o DataFrame

Pyspark_pandas.cumprod ()

Em uma coluna específica

Pyspark_pandas.coluna.cumprod ()

Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.

Exemplo 1
Neste exemplo, realizaremos Cumprod () na coluna Mark2.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cumprod em todo Pyspark Pandas Dataframe
Imprimir (Pyspark_pandas.cumprod ())

Saída

Operação cumulativa do produto trabalhando na coluna Mark2

100 = 100
100*67 = 6700
100*67*96 = 643200
100*67*96*89 = 57244800
100*67*96*89*77 = 4407849600

Exemplo 2
Neste exemplo, executaremos o Cumprod () em todo o Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummin na coluna Mark2
Imprimir (Pyspark_pandas.Mark2.Cummin ())

Saída

Podemos ver que o produto cumulativo é retornado em cada coluna.

Pyspark.Pandas.Quadro de dados.Cummin ()

Cummin () retornará o valor mínimo cumulativo em cada coluna. Ele pode ser aplicado em todo o Pyspark Pandas Dataframe ou em uma única coluna.

Sintaxe

Em todo o DataFrame

Pyspark_pandas.Cummin ()

Em uma coluna específica

Pyspark_pandas.coluna.Cummin ()

Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.

Exemplo 1
Neste exemplo, realizaremos Cummin () na coluna Mark2.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummin em Pyspark Pandas Dataframe
Imprimir (Pyspark_pandas.Cummin ())

Saída

Operação mínima cumulativa trabalhando na coluna Mark2

100 = 100
min (100,67) = 67
min (100,67,96) = 67
min (100,67,96,89) = 67
min (100,67,96,89,77) = 67

Exemplo 2
Neste exemplo, realizaremos Cummin () em todo o Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummax na coluna Mark2
Imprimir (Pyspark_pandas.Mark2.Cummax ())

Saída

Podemos ver que o valor mínimo cumulativo é retornado em cada coluna.

Pyspark.Pandas.Quadro de dados.Cummax ()

Cummax () retornará o valor máximo cumulativo em cada coluna. Ele pode ser aplicado em todo o Pyspark Pandas Dataframe ou em uma única coluna.

Sintaxe

Em todo o DataFrame

Pyspark_pandas.Cummax ()

Em uma coluna específica

Pyspark_pandas.coluna.Cummax ()

Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.

Exemplo 1
Neste exemplo, realizaremos Cummax () na coluna Mark2.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummax na coluna Mark2
Imprimir (Pyspark_pandas.Mark2.Cummax ())

Saída

Operação máxima cumulativa trabalhando na coluna Mark2

100 = 100
Max (100,67) = 100
Max (100,67,96) = 100
Max (100,67,96,89) = 100
Max (100,67,96,89,77) = 100

Exemplo 2
Neste exemplo, realizaremos Cummax () em todo o Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummax em Pyspark Pandas Dataframe
Imprimir (Pyspark_pandas.Cummax ())

Saída

Podemos ver que o valor máximo cumulativo é retornado em cada coluna.

Conclusão

Neste tutorial de Pyspark Pandas, discutimos operações cumulativas realizadas no Pyspark Pandas Dataframe. Cumsum () é usado para retornar a soma cumulativa em cada coluna, Cumprod () é usado para retornar o produto cumulativo em cada coluna, Cummin () é usado para retornar o valor mínimo cumulativo em cada coluna e CummAx () é usado para Retorne o valor máximo cumulativo em cada coluna.