RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark. Emparelhar o RDD armazena os elementos/valores na forma de pares de valor-chave. Ele armazenará o par de valores-chave no formato (chave, valor).
Precisamos importar RDD do Pyspark.Módulo RDD.
Em Pyspark para criar um RDD, podemos usar o método parallelize ().
Sintaxe:
Spark_App.SparkContext.paralelize (dados)Onde os dados podem ser um dados unidimensional (dados lineares) ou bidimensionais (dados da coluna de linha).
Pyspark Rdd - Lookup ()
Lookup () é uma ação no par RDD, que é usado para retornar todos os valores associados a uma chave em uma lista. É realizado em um par único rdd. É preciso uma chave como um parâmetro.
Sintaxe:
Rdd_data.Lookup (chave)Parâmetro:
Chave refere -se à chave presente no par RDD.
Exemplo:
Neste exemplo, vamos procurar as chaves- python, javascript e linux.
#import o módulo PysparkSaída:
par RDD: [('Python', 4), ('JavaScript', 2), ('Linux', 5), ('c#', 4), ('javascript', 4), ('python', 3 )]A partir da saída acima, podemos ver que existem 2 valores que existem com o Key-Python, então ele retornou 4 e 3. Existem 2 valores que existem com o key-JavaScript, por isso retornou 2 e 4. Existe apenas um valor que existe com o Key-Linux, então retornou 1.
Pyspark Rdd - CollectasMap ()
collectasMap () é uma ação no par RDD que é usado para retornar todos os valores na forma de um mapa (chave: valor) par. É usado para fornecer pesquisa. Não é preciso parâmetro.
Sintaxe:
Rdd_data.collectasMap ()Exemplo:
Neste exemplo, obteremos valores do RDD usando colecionAMAp ().
#import o módulo PysparkSaída:
'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53Podemos ver que o RDD é devolvido na forma de chave: pares de valor.
Observe que, se houver várias chaves com valores diferentes, o colecionAMAP () coletará retornando o valor atualizado em relação à chave.
Exemplo:
#import o módulo PysparkSaída:
'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53Podemos ver que as teclas Linux e C# ocorreram duas vezes. Na segunda vez, os valores são 45 e 44. Portanto, o coletorasmap () retorna com os novos valores.
Conclusão
Neste tutorial Pyspark RDD, vimos como aplicar as ações de Lookup () e CollectasMap () em par RDD. Lookup () é usado para retornar os valores associados à chave em uma lista, tomando a chave como parâmetro e colecionasMap () retorna o RDD na forma de mapa.