Pyspark - Funções agregadas da série Pandas

Pyspark - Funções agregadas da série Pandas
“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando séries, que armazenará os dados fornecidos em uma matriz (coluna no Pyspark internamente).

Pyspark - Pandas Series representa a série Pandas, mas mantém a coluna Pyspark internamente.

A estrutura de dados da série Pandas suporta e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar a série do módulo pandas.

Sintaxe para criar a série Pandas

Pyspark.Pandas.Series()

Podemos passar uma lista ou lista de listas com valores.

Vamos criar uma série de pandas através do Pyspark que possui cinco valores numéricos.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Create Série com 5 elementos
pyspark_series = pandas.Série ([90,56,78,54,0])
Imprimir (Pyspark_series)

Saída

Agora, entraremos em nosso tutorial.

As funções agregadas são usadas para executar operações de agregação como Sum (), Min (), Mean () e Max ().Essas operações funcionam apenas em dados numéricos como número inteiro, duplo, etc

Vamos vê -los um por um.

Pyspark.Pandas.Series.soma()

Sum () na série Pyspark Pandas é usado para retornar a soma total.

Sintaxe

Pyspark_series.soma()

Onde Pyspark_series é a série Pyspark Pandas.

Exemplo
Retornar a soma da série Pyspark Pandas acima.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Create Série com 5 elementos
pyspark_series = pandas.Série ([90,56,78,54,0])
#return soma
Imprimir (Pyspark_series.soma())

Saída:

278
Trabalhando:
90+56+78+54+0 = 278.

Pyspark.Pandas.Series.significar()

média () na série Pyspark Pandas é usada para retornar a média total.

Sintaxe

Pyspark_series.significar()

Onde Pyspark_series é a série Pyspark Pandas.

Exemplo
Média de retorno da série Pyspark Pandas acima.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Create Série com 5 elementos
pyspark_series = pandas.Série ([90,56,78,54,0])
#retar média
Imprimir (Pyspark_series.significar())

Saída

55.6
Trabalhando:
(90+56+78+54+0)/5 = 55.6.

Pyspark.Pandas.Series.min ()

min () na série Pyspark Pandas é usado para retornar o valor mínimo.

Sintaxe

Pyspark_series.min ()

Onde Pyspark_series é a série Pyspark Pandas.

Exemplo
Retorne o valor mínimo da série Pyspark Pandas acima.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Create Série com 5 elementos
pyspark_series = pandas.Série ([90,56,78,54,0])
#return mínimo
Imprimir (Pyspark_series.min ()))

Saída

0
Trabalhando:
Mínimo (90+56+78+54+0) = 0

Pyspark.Pandas.Series.max ()

Max () na série Pyspark Pandas é usado para retornar o valor máximo.

Sintaxe

Pyspark_series.max ()

Onde Pyspark_series é a série Pyspark Pandas.

Exemplo
Retorne o valor máximo da série Pyspark Pandas acima.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Create Série com 5 elementos
pyspark_series = pandas.Série ([90,56,78,54,0])
#return maximum
Imprimir (Pyspark_series.max ()))

Saída

90
Trabalhando:
Máximo (90+56+78+54+0) = 90

Conclusão

Neste tutorial da série Pyspark Pandas, vimos quatro funções de agregação diferentes executadas na série. Sum () retornará a soma total, o avg () é usado para retornar a média total, min () é usado para retornar o valor mínimo e max () retornará o valor máximo.