Pyspark RDD - Pesquisa, CollectasMap

Pyspark RDD - Pesquisa, CollectasMap
Em Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark.

RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark. Emparelhar o RDD armazena os elementos/valores na forma de pares de valor-chave. Ele armazenará o par de valores-chave no formato (chave, valor).

Precisamos importar RDD do Pyspark.Módulo RDD.

Em Pyspark para criar um RDD, podemos usar o método parallelize ().

Sintaxe:

Spark_App.SparkContext.paralelize (dados)

Onde os dados podem ser um dados unidimensional (dados lineares) ou bidimensionais (dados da coluna de linha).

Pyspark Rdd - Lookup ()

Lookup () é uma ação no par RDD, que é usado para retornar todos os valores associados a uma chave em uma lista. É realizado em um par único rdd. É preciso uma chave como um parâmetro.

Sintaxe:

Rdd_data.Lookup (chave)

Parâmetro:

Chave refere -se à chave presente no par RDD.

Exemplo:

Neste exemplo, vamos procurar as chaves- python, javascript e linux.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Criar 6 - Pares de assunto e classificação
sujeitos_rating = spark_app.SparkContext.paralelize ([('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4),
('JavaScript', 4), ('Python', 3)])
#Par de ACTual RDD
print ("Par Rdd:", Subject_rating.colet ()))
#Get's Lookup para o Python Key
Imprima ("Procure o Python:", Subjects_rating.Lookup ('Python'))
#Get's Lookup para o key-Javascript
print ("Procure o JavaScript:", Subjects_rating.Lookup ('JavaScript'))
#Get's Lookup para o Key-Linux
print ("Procure o Linux:", Subjects_rating.Lookup ('Linux'))

Saída:

par RDD: [('Python', 4), ('JavaScript', 2), ('Linux', 5), ('c#', 4), ('javascript', 4), ('python', 3 )]
Procure o Python: [4, 3]
Procure o JavaScript: [2, 4]
Procure o Linux: [5]

A partir da saída acima, podemos ver que existem 2 valores que existem com o Key-Python, então ele retornou 4 e 3. Existem 2 valores que existem com o key-JavaScript, por isso retornou 2 e 4. Existe apenas um valor que existe com o Key-Linux, então retornou 1.

Pyspark Rdd - CollectasMap ()

collectasMap () é uma ação no par RDD que é usado para retornar todos os valores na forma de um mapa (chave: valor) par. É usado para fornecer pesquisa. Não é preciso parâmetro.

Sintaxe:

Rdd_data.collectasMap ()

Exemplo:

Neste exemplo, obteremos valores do RDD usando colecionAMAp ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Criar 6 - Pares de assunto e classificação
sujeitos_rating = spark_app.SparkContext.paralelize ([('Linux', 5), ('c#', 4),
('JavaScript', 4), ('Python', 53)])
#apply collectasMap () para devolver o RDD
Imprimir (sujeitos_rating.collectasMap ())

Saída:

'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53

Podemos ver que o RDD é devolvido na forma de chave: pares de valor.

Observe que, se houver várias chaves com valores diferentes, o colecionAMAP () coletará retornando o valor atualizado em relação à chave.

Exemplo:

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Criar 6 - Pares de assunto e classificação
sujeitos_rating = spark_app.SparkContext.paralelize ([('Linux', 5), ('c#', 4), ('javascript', 4),
('Python', 53), ('Linux', 45), ('C#', 44),]))
#apply collectasMap () para devolver o RDD
Imprimir (sujeitos_rating.collectasMap ())

Saída:

'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53

Podemos ver que as teclas Linux e C# ocorreram duas vezes. Na segunda vez, os valores são 45 e 44. Portanto, o coletorasmap () retorna com os novos valores.

Conclusão

Neste tutorial Pyspark RDD, vimos como aplicar as ações de Lookup () e CollectasMap () em par RDD. Lookup () é usado para retornar os valores associados à chave em uma lista, tomando a chave como parâmetro e colecionasMap () retorna o RDD na forma de mapa.