PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark com três colunas e cinco linhas.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
As operações cumulativas são usadas para retornar resultados cumulativos nas colunas do quadro de dados Pyspark Pandas.
Vamos vê -los um por um.
Pyspark.Pandas.Quadro de dados.Cumsum ()
Cumsum () retornará a soma cumulativa em cada coluna. Ele pode ser aplicado a todo o Pyspark Pandas Dataframe ou a uma única coluna.
Sintaxe
Em todo o DataFrame
Pyspark_pandas.Cumsum ()Em uma coluna específica
Pyspark_pandas.coluna.Cumsum ()Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.
Exemplo 1
Neste exemplo, realizaremos Cumsum () na coluna Mark2.
Saída
Operação de soma cumulativa trabalhando na coluna Mark2
100 = 100Exemplo 2
Neste exemplo, executaremos Cumsum () em todo o Pyspark Pandas Dataframe.
Saída
Podemos ver que a soma cumulativa é retornada em cada coluna.
Pyspark.Pandas.Quadro de dados.cumprod ()
Cumprod () retornará o produto cumulativo em cada coluna. Ele pode ser aplicado em todo o Pyspark Pandas Dataframe ou em uma única coluna.
Sintaxe
Em todo o DataFrame
Pyspark_pandas.cumprod ()Em uma coluna específica
Pyspark_pandas.coluna.cumprod ()Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.
Exemplo 1
Neste exemplo, realizaremos Cumprod () na coluna Mark2.
Saída
Operação cumulativa do produto trabalhando na coluna Mark2
100 = 100Exemplo 2
Neste exemplo, executaremos o Cumprod () em todo o Pyspark Pandas Dataframe.
Saída
Podemos ver que o produto cumulativo é retornado em cada coluna.
Pyspark.Pandas.Quadro de dados.Cummin ()
Cummin () retornará o valor mínimo cumulativo em cada coluna. Ele pode ser aplicado em todo o Pyspark Pandas Dataframe ou em uma única coluna.
Sintaxe
Em todo o DataFrame
Pyspark_pandas.Cummin ()Em uma coluna específica
Pyspark_pandas.coluna.Cummin ()Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.
Exemplo 1
Neste exemplo, realizaremos Cummin () na coluna Mark2.
Saída
Operação mínima cumulativa trabalhando na coluna Mark2
100 = 100Exemplo 2
Neste exemplo, realizaremos Cummin () em todo o Pyspark Pandas Dataframe.
Saída
Podemos ver que o valor mínimo cumulativo é retornado em cada coluna.
Pyspark.Pandas.Quadro de dados.Cummax ()
Cummax () retornará o valor máximo cumulativo em cada coluna. Ele pode ser aplicado em todo o Pyspark Pandas Dataframe ou em uma única coluna.
Sintaxe
Em todo o DataFrame
Pyspark_pandas.Cummax ()Em uma coluna específica
Pyspark_pandas.coluna.Cummax ()Onde Pyspark_pandas é o Pyspark Pandas, DataFrame e coluna Consulte o nome da coluna.
Exemplo 1
Neste exemplo, realizaremos Cummax () na coluna Mark2.
Saída
Operação máxima cumulativa trabalhando na coluna Mark2
100 = 100Exemplo 2
Neste exemplo, realizaremos Cummax () em todo o Pyspark Pandas Dataframe.
Saída
Podemos ver que o valor máximo cumulativo é retornado em cada coluna.
Conclusão
Neste tutorial de Pyspark Pandas, discutimos operações cumulativas realizadas no Pyspark Pandas Dataframe. Cumsum () é usado para retornar a soma cumulativa em cada coluna, Cumprod () é usado para retornar o produto cumulativo em cada coluna, Cummin () é usado para retornar o valor mínimo cumulativo em cada coluna e CummAx () é usado para Retorne o valor máximo cumulativo em cada coluna.