Pyspark Rdd - Nome e SetName

Pyspark Rdd - Nome e SetName
Em Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark.

RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark. Emparelhar o RDD armazena os elementos/valores na forma de pares de valor-chave. Ele armazenará o par de valores-chave no formato (chave, valor).

Precisamos importar RDD do Pyspark.Módulo RDD.

Em Pyspark para criar um RDD, podemos usar o método parallelize ().

Sintaxe:

Spark_App.SparkContext.paralelize (dados)

Onde os dados podem ser um dimensional (dados lineares) ou dados bidimensionais (dados da coluna de linha).

Pyspark Rdd - SetName ()

setName () em Pyspark RDD é usado para definir o nome do RDD. É preciso o nome como um parâmetro.

Sintaxe:

Rdd_data.setName ('rdd_name')

Parâmetro:

'Rdd_name' é o nome do RDD a ser atribuído.

Exemplo:

Neste exemplo, estamos criando um RDD chamado Subjects_rating e definimos o nome deste RDD para sub_RATE.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Criar 6 - Pares de assunto e classificação
sujeitos_rating = spark_app.SparkContext.paralelize ([('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4), ('javascript', 4), ('python', 3) ]))
#Set o nome RDD para sub_rate
resultado = sujeitos_rating.setName ('sub_rate')
#Display O RDD
impressão (resultado.colet ()))

Saída:

[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]

Podemos ver que o RDD está definido como sub_rate e exibe o método RDD usando colecionamento ().

Pyspark Rdd - Nome ()

nome () em Pyspark Rdd é usado para retornar o nome do RDD. Não leva parâmetros.

Sintaxe:

Dados RDD.nome()

Exemplo:

Neste exemplo, estamos criando um RDD chamado Subjects_rating e definimos o nome deste RDD para sub_rate e, em seguida, obtenha o nome.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Criar 6 - Pares de assunto e classificação
sujeitos_rating = spark_app.SparkContext.paralelize ([('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4), ('javascript', 4), ('python', 3) ]))
#Set o nome RDD para sub_rate
resultado = sujeitos_rating.setName ('sub_rate')
#Return the RDD Nome
impressão (resultado.nome())

Saída:

Sub_rate

Podemos ver que o nome do RDD é sub_RATE.

Conclusão

Neste artigo, vimos como definir o nome para um RDD usando setName () e como retornar o nome de um RDD usando o método name ().