Pyspark - Union & UnionAll

Pyspark - Union & UnionAll
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Podemos anexar linhas/dados do segundo quadro de dados ao primeiro DataFrame usando dois métodos: Union () e UnionAll (). Ambos os métodos são os mesmos. O método UnionAll () é preterido no 2.0 versão do Pyspark, e é substituída pelo método Union (). Antes de conhecer esses métodos, vamos criar dois dados de dados Pyspark.

Exemplo 1:
No exemplo a seguir, criaremos o pyspark DataFrame com 5 linhas e 6 colunas e exibir o método SHOW ():

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Exibir dataframe
df.mostrar()

Saída:

Exemplo 2:
No exemplo a seguir, criaremos o quadro de dados Pyspark com 3 linhas e 6 colunas e exibir o método show ():

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Exiba o segundo DataFrame
df2.mostrar()

Saída:

Função pyspark - união ()

A função Union () adicionará linhas de um ou mais quadros de dados ao primeiro DataFrame. Veremos como anexar linhas do segundo quadro de dados ao primeiro DataFrame.

Sintaxe:

First_dataframe.Union (Second_Dataframe)

Onde:

  1. First_Dataframe é o primeiro DataFrame de entrada.
  2. Second_dataframe é o segundo Dados de entrada de entrada.

Exemplo:

Neste exemplo, aplicamos a função Union () para anexar o segundo quadro de dados ao primeiro

Quadro de dados. Finalmente, estamos exibindo o DataFrame usando o método show ():

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Execute Union ()
df.União (DF2).mostrar()

Saída:

Pyspark - Função UnionAll ()

A função UnionAll () adicionará linhas de um ou mais quadros de dados ao primeiro dados de dados. Veremos como anexar linhas do segundo quadro de dados ao primeiro DataFrame.

Sintaxe:

First_dataframe.Unionall (Second_Dataframe)

Onde:

  1. First_Dataframe é o primeiro DataFrame de entrada.
  2. Second_dataframe é o segundo Dados de entrada de entrada.

Exemplo:

Neste exemplo, aplicamos a função UnionAll () para anexar o segundo quadro de dados ao primeiro DataFrame. Finalmente, estamos exibindo o quadro de dados usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Execute UnionAll ()
df.UnionAll (DF2).mostrar()

Saída:

Conclusão

Neste artigo, podemos anexar dois ou mais quadros de dados usando os métodos Union () e Unionall (). A funcionalidade de ambos os métodos é a mesma e discutida com exemplos fornecidos. Esperamos que você tenha achado este artigo útil. Confira mais artigos de dica do Linux para obter dicas e tutoriais.