RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark. Emparelhar o RDD armazena os elementos/valores na forma de pares de valor-chave. Ele armazenará o par de valores-chave no formato (chave, valor).
Precisamos importar RDD do Pyspark.Módulo RDD.
Em Pyspark para criar um RDD, podemos usar o método parallelize ().
Sintaxe:
Spark_App.SparkContext.paralelize (dados)Onde:
Os dados podem ser um dados unidimensional (dados lineares) ou bidimensionais (dados da coluna de linha).
Neste tutorial, veremos diferentes junções realizadas no Pyspark Par Par Rdd. Todos se juntam ao trabalho com base nas chaves no par RDD.
Pyspark Par Rdd - Join ()
JON.
Resultados de junção interna no RDD selecionando apenas as linhas correspondentes de dois RDD.
Sintaxe:
par_rdd1.JONE (PAI_RDD2)Onde:
Exemplo:
Neste exemplo, usaremos o JON.
#import o módulo PysparkSaída:
[('Linux', (1, 4))]Aqui, sujeitos_rating1 é o primeiro RDD que possui os seguintes pares: ('Linux', 1), ('C#', 2), ('JavaScript', 4), ('Python', 5) e Subjecting2 é o primeiro RDD Isso tem os seguintes pares: ('Linux', 4), ('Java', 2).
Então, a chave - Linux existe em ambos os dois RDD. Portanto, os valores são retornados em relação à chave.
Pyspark Par Rdd - LeftouterJoin ()
leftouterjoin () é usado para executar a junção esquerda no par RDD.
Os resultados da junção à esquerda no RDD selecionando todas as linhas do primeiro RDD e apenas correspondiam a linhas do segundo RDD em relação às linhas no primeiro RDD.
Sintaxe:
par_rdd1.leftouterjoin (par_rdd2)Onde:
Exemplo:
Neste exemplo, usaremos o LeftouterJoin () para realizar uma junção à esquerda em dois RDDs.
#import o módulo PysparkSaída:
[('Python', (5, nenhum)), ('Linux', (1, 4)), ('c#', (2, nenhum)), ('javascript', (4, nenhum)]]Aqui, sujeitos_rating1 é o primeiro RDD que possui os seguintes pares: ('Linux', 1), ('C#', 2), ('JavaScript', 4), ('Python', 5) e Subjecting2 é o primeiro RDD Isso tem os seguintes pares: ('Linux', 4), ('Java', 2).
Não há teclas Python, C# e JavaScript no segundo RDD, de modo que os valores não são no segundo Valores RDD. Mas o Key-Linux existe em ambos os RDD. Assim, os valores 1,4 foram devolvidos.
Pyspark Par Rdd - RightouterJoin ()
rightouterjoin () é usado para executar a junção correta no par RDD.
A junção direita dos resultados no RDD selecionando todas as linhas do segundo RDD e apenas correspondiam a linhas do primeiro RDD em relação às linhas no segundo RDD.
Sintaxe:
par_rdd1.RightouterJoin (par_rdd2)Onde:
Exemplo:
Neste exemplo, usaremos o RightouterJoin () para realizar uma junção correta em dois RDD.
#import o módulo PysparkSaída:
[('Java', (nenhum, 2)), ('Linux', (1, 4))]Aqui, sujeitos_rating1 é o primeiro RDD que possui os seguintes pares: ('Linux', 1), ('C#', 2), ('JavaScript', 4), ('Python', 5) e Subjecting2 é o primeiro RDD Isso tem os seguintes pares: ('Linux', 4), ('Java', 2).
Não há chave Java no primeiro RDD, então o valor não é nenhum nos primeiros valores de RDD. Mas o Key-Linux existe em ambos os RDD. Assim, os valores 1,4 foram devolvidos.
Pyspark Par Rdd - FullouterJoin ()
FullouterJoin () é usado para executar a junção externa no par RDD.
Resultados de junção externa completa no RDD selecionando todas as linhas de ambos os RDDs. Ele não coloca nenhum valor para as linhas incomparáveis em ambos os RDDs do outro lado das fileiras.
Sintaxe:
par_rdd1.Fullouterjoin (par_rdd2)Onde:
Exemplo:
Neste exemplo, usaremos FullouterJoin () para realizar uma junção externa em dois RDDs.
#import o módulo PysparkSaída:
[('Python', (5, nenhum)), ('java', (nenhum, 2)), ('Linux', (1, 4)), ('c#', (2, nenhum)), ( 'JavaScript', (4, nenhum))]Conclusão
Com este tutorial, sabemos que o Pyspark RDD suporta 4 tipos de junções. Para executar a junção interna, simplesmente podemos usar junção (), o leftouterjoin () é usado para executar a junção esquerda e a direita. Para executar a junção externa, Fullouterjoin () é usado.