Exemplo 1:
No exemplo a seguir, criaremos o pyspark DataFrame com 5 linhas e 6 colunas e exibir o método SHOW ():
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Exibir dataframe
df.mostrar()
Saída:
Exemplo 2:
No exemplo a seguir, criaremos o quadro de dados Pyspark com 3 linhas e 6 colunas e exibir o método show ():
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Exiba o segundo DataFrame
df2.mostrar()
Saída:
Função pyspark - união ()
A função Union () adicionará linhas de um ou mais quadros de dados ao primeiro DataFrame. Veremos como anexar linhas do segundo quadro de dados ao primeiro DataFrame.
Sintaxe:
First_dataframe.Union (Second_Dataframe)
Onde:
Exemplo:
Neste exemplo, aplicamos a função Union () para anexar o segundo quadro de dados ao primeiro
Quadro de dados. Finalmente, estamos exibindo o DataFrame usando o método show ():
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Execute Union ()
df.União (DF2).mostrar()
Saída:
Pyspark - Função UnionAll ()
A função UnionAll () adicionará linhas de um ou mais quadros de dados ao primeiro dados de dados. Veremos como anexar linhas do segundo quadro de dados ao primeiro DataFrame.
Sintaxe:
First_dataframe.Unionall (Second_Dataframe)
Onde:
Exemplo:
Neste exemplo, aplicamos a função UnionAll () para anexar o segundo quadro de dados ao primeiro DataFrame. Finalmente, estamos exibindo o quadro de dados usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Execute UnionAll ()
df.UnionAll (DF2).mostrar()
Saída:
Conclusão
Neste artigo, podemos anexar dois ou mais quadros de dados usando os métodos Union () e Unionall (). A funcionalidade de ambos os métodos é a mesma e discutida com exemplos fornecidos. Esperamos que você tenha achado este artigo útil. Confira mais artigos de dica do Linux para obter dicas e tutoriais.