Pyspark - Union & UnionAll

Orlando Green

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Podemos anexar linhas/dados do segundo quadro de dados ao primeiro DataFrame usando dois métodos: Union () e UnionAll (). Ambos os métodos são os mesmos. O método UnionAll () é preterido no 2.0 versão do Pyspark, e é substituída pelo método Union (). Antes de conhecer esses métodos, vamos criar dois dados de dados Pyspark.

Exemplo 1:
No exemplo a seguir, criaremos o pyspark DataFrame com 5 linhas e 6 colunas e exibir o método SHOW ():

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Exibir dataframe
df.mostrar()

Saída:

Exemplo 2:
No exemplo a seguir, criaremos o quadro de dados Pyspark com 3 linhas e 6 colunas e exibir o método show ():

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Exiba o segundo DataFrame
df2.mostrar()

Saída:

Função pyspark - união ()

A função Union () adicionará linhas de um ou mais quadros de dados ao primeiro DataFrame. Veremos como anexar linhas do segundo quadro de dados ao primeiro DataFrame.

Sintaxe:

First_dataframe.Union (Second_Dataframe)

Onde:

First_Dataframe é o primeiro DataFrame de entrada.
Second_dataframe é o segundo Dados de entrada de entrada.

Exemplo:

Neste exemplo, aplicamos a função Union () para anexar o segundo quadro de dados ao primeiro

Quadro de dados. Finalmente, estamos exibindo o DataFrame usando o método show ():

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Execute Union ()
df.União (DF2).mostrar()

Saída:

Pyspark - Função UnionAll ()

A função UnionAll () adicionará linhas de um ou mais quadros de dados ao primeiro dados de dados. Veremos como anexar linhas do segundo quadro de dados ao primeiro DataFrame.

Sintaxe:

First_dataframe.Unionall (Second_Dataframe)

Onde:

First_Dataframe é o primeiro DataFrame de entrada.
Second_dataframe é o segundo Dados de entrada de entrada.

Exemplo:

Neste exemplo, aplicamos a função UnionAll () para anexar o segundo quadro de dados ao primeiro DataFrame. Finalmente, estamos exibindo o quadro de dados usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes2 = ['rollno': '056', 'nome': 'vinay', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Tamilnadu',
'rollno': '045', 'nome': 'bhanu', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '032', 'nome': 'jyothika chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Delhi']
# Crie o DataFrame
df2 = spark_app.CreatedataFrame (estudantes2)
# Execute UnionAll ()
df.UnionAll (DF2).mostrar()

Saída:

Conclusão

Neste artigo, podemos anexar dois ou mais quadros de dados usando os métodos Union () e Unionall (). A funcionalidade de ambos os métodos é a mesma e discutida com exemplos fornecidos. Esperamos que você tenha achado este artigo útil. Confira mais artigos de dica do Linux para obter dicas e tutoriais.

PostGresql

Como copiar uma tabela de um banco de dados para outro no PostgreSQL

Tutorial sobre o processo passo a passo sobre como copiar tabelas de um banco de dados para outro no...

Benny Hilll DDS

Pitão

Etiquetas do eixo marítimo

Os “eixos.função set () ”, funções da biblioteca matplotlib ou as funções“ set_xlabel () ”e“ set_yla...

Salvatore Watsica

Docker

O que é o Docker Bind Mounds?

Uma montagem de ligação do Docker é um tipo de montagem que permite aos usuários mapear um diretório...

Salvatore Watsica