RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark.
Precisamos importar RDD do Pyspark.Módulo RDD.
Em Pyspark para criar um RDD, podemos usar o método parallelize ().
Sintaxe:
Spark_App.SparkContext.paralelize (dados)Onde:
Os dados podem ser um dados unidimensional (dados lineares) ou bidimensionais (dados da coluna de linha).
Neste tutorial Pyspark RDD, veremos como executar diferentes funções de agregação no Pyspark RDD.
1. soma()
Sum () é usado para retornar o valor total (soma) no RDD. Não leva parâmetros.
Sintaxe:
Rdd_data.soma()Exemplo:
Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos a soma do total de elementos de um RDD.
#import o módulo PysparkSaída:
1112A partir da saída acima, podemos ver que a soma total de elementos em RDD é 1112.
2. min ()
min () é usado para retornar o valor mínimo do RDD. Não leva parâmetros.
Sintaxe:
Rdd_data.min ()Exemplo:
Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos o valor mínimo de um RDD.
#import o módulo PysparkSaída:
21Da saída acima, podemos ver que o valor mínimo no RDD é 21.
3. max ()
max () é usado para retornar o valor máximo do RDD. Não leva parâmetros.
Sintaxe:
Rdd_data.max ()Exemplo:
Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos o valor máximo de um RDD.
#import o módulo PysparkSaída
100Da saída acima, podemos ver que o valor máximo em RDD é 100.
significar()
a média () é usada para retornar o valor médio (médio) no RDD. Não leva parâmetros.
Sintaxe:
Rdd_data.significar()Exemplo:
Neste exemplo, criamos um RDD chamado Student_Marks com 20 elementos e retornamos a média dos elementos de um RDD.
#import o módulo PysparkSaída
55.6Da saída acima, podemos ver que o valor médio em RDD é 55.6.
contar()
count () é usado para retornar os valores totais presentes no RDD. Não leva parâmetros.
Sintaxe:
Rdd_data.contar()Exemplo:
Neste exemplo, criamos um RDD chamado student_marks com 20 elementos e retornamos a contagem de elementos em um RDD.
#import o módulo PysparkSaída
20Da saída acima, podemos ver que o número total de valores em RDD é 20.
Conclusão
Neste tutorial Pyspark, vimos cinco operações de agregação diferentes realizadas em RDD. Sum () é usado para retornar o valor total em um RDD. a média () é usada para retornar a média total de um RDD. min () e max () são usados para retornar valores mínimos e máximos. Se você precisar retornar o número total de elementos presentes em um RDD, você pode usar a função count ().