RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark. Emparelhar o RDD armazena os elementos/valores na forma de pares de valor-chave. Ele armazenará o par de valores-chave no formato (chave, valor).
Precisamos importar RDD do Pyspark.Módulo RDD.
Em Pyspark para criar um RDD, podemos usar o método parallelize ().
Sintaxe:
Spark_App.SparkContext.paralelize (dados)Onde os dados podem ser um dimensional (dados lineares) ou dados bidimensionais (dados da coluna de linha).
Pyspark Rdd - SetName ()
setName () em Pyspark RDD é usado para definir o nome do RDD. É preciso o nome como um parâmetro.
Sintaxe:
Rdd_data.setName ('rdd_name')Parâmetro:
'Rdd_name' é o nome do RDD a ser atribuído.
Exemplo:
Neste exemplo, estamos criando um RDD chamado Subjects_rating e definimos o nome deste RDD para sub_RATE.
#import o módulo PysparkSaída:
[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]Podemos ver que o RDD está definido como sub_rate e exibe o método RDD usando colecionamento ().
Pyspark Rdd - Nome ()
nome () em Pyspark Rdd é usado para retornar o nome do RDD. Não leva parâmetros.
Sintaxe:
Dados RDD.nome()Exemplo:
Neste exemplo, estamos criando um RDD chamado Subjects_rating e definimos o nome deste RDD para sub_rate e, em seguida, obtenha o nome.
#import o módulo PysparkSaída:
Sub_ratePodemos ver que o nome do RDD é sub_RATE.
Conclusão
Neste artigo, vimos como definir o nome para um RDD usando setName () e como retornar o nome de um RDD usando o método name ().