Pyspark RDD - Funções agregadas

Pyspark RDD - Funções agregadas
Em Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark.

RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark.

Precisamos importar RDD do Pyspark.Módulo RDD.

Em Pyspark para criar um RDD, podemos usar o método parallelize ().

Sintaxe:

Spark_App.SparkContext.paralelize (dados)

Onde:

Os dados podem ser um dados unidimensional (dados lineares) ou bidimensionais (dados da coluna de linha).

Neste tutorial Pyspark RDD, veremos como executar diferentes funções de agregação no Pyspark RDD.

1. soma()

Sum () é usado para retornar o valor total (soma) no RDD. Não leva parâmetros.

Sintaxe:

Rdd_data.soma()

Exemplo:

Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos a soma do total de elementos de um RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie o aluno marca dados com 20 elementos
Student_Marks = Spark_App.SparkContext.paralelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Sum () Operação
Imprimir (Student_Marks.soma())

Saída:

1112

A partir da saída acima, podemos ver que a soma total de elementos em RDD é 1112.

2. min ()

min () é usado para retornar o valor mínimo do RDD. Não leva parâmetros.

Sintaxe:

Rdd_data.min ()

Exemplo:

Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos o valor mínimo de um RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie o aluno marca dados com 20 elementos
Student_Marks = Spark_App.SparkContext.paralelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#perform min () operação
Imprimir (Student_Marks.min ()))

Saída:

21

Da saída acima, podemos ver que o valor mínimo no RDD é 21.

3. max ()

max () é usado para retornar o valor máximo do RDD. Não leva parâmetros.

Sintaxe:

Rdd_data.max ()

Exemplo:

Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos o valor máximo de um RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie o aluno marca dados com 20 elementos
Student_Marks = Spark_App.SparkContext.paralelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform Max () Operação
Imprimir (Student_Marks.max ()))

Saída

100

Da saída acima, podemos ver que o valor máximo em RDD é 100.

significar()

a média () é usada para retornar o valor médio (médio) no RDD. Não leva parâmetros.

Sintaxe:

Rdd_data.significar()

Exemplo:

Neste exemplo, criamos um RDD chamado Student_Marks com 20 elementos e retornamos a média dos elementos de um RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie o aluno marca dados com 20 elementos
Student_Marks = Spark_App.SparkContext.paralelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Mean () Operação
Imprimir (Student_Marks.significar())

Saída

55.6

Da saída acima, podemos ver que o valor médio em RDD é 55.6.

contar()

count () é usado para retornar os valores totais presentes no RDD. Não leva parâmetros.

Sintaxe:

Rdd_data.contar()

Exemplo:

Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos a contagem de elementos em um RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie o aluno marca dados com 20 elementos
Student_Marks = Spark_App.SparkContext.paralelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
Operação #Perform Count ()
Imprimir (Student_Marks.contar())

Saída

20

Da saída acima, podemos ver que o número total de valores em RDD é 20.

Conclusão

Neste tutorial Pyspark, vimos cinco operações de agregação diferentes realizadas em RDD. Sum () é usado para retornar o valor total em um RDD. a média () é usada para retornar a média total de um RDD. min () e max () são usados ​​para retornar valores mínimos e máximos. Se você precisar retornar o número total de elementos presentes em um RDD, você pode usar a função count ().