Reorganize as colunas no Pyspark Dataframe

Reorganize as colunas no Pyspark Dataframe
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.

Discutiremos diferentes cenários para alterar a ordem das colunas no Pyspark Dataframe.

Para todos os cenários, estamos usando o método select (). Antes de mudar para os cenários, criaremos o Pyspark DataFrame primeiro.

Exemplo:
Aqui vamos criar dados de dados Pyspark com 5 linhas e 6 colunas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()

Saída:

Cenário 1: reorganize as colunas

Nesse cenário, usaremos apenas o método select () para solicitar/reorganizar as colunas no quadro de dados Pyspark fornecido, fornecendo um por uma coluna no método.

Sintaxe:
quadro de dados.Selecione ("Column1",…, "Coluna")

Onde:

  1. DataFrame é a entrada Pyspark DataFrame
  2. colunas são os nomes das colunas a serem reorganizados.

Exemplo:
Neste exemplo, vamos reorganizar as colunas nesta ordem - "endereço", "altura", "rollno", "nome", "peso" e "idade". Em seguida, exiba o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Range as colunas na ordem - "endereço", "altura", "rollno", "nome", "peso", "idade"
df = df.Selecione ("endereço", "altura", "rollno", "nome", "peso", "idade")
#dispay o quadro de dados
df.mostrar()

Saída:

Cenário 2: Reorganize as colunas em ordem crescente

Nesse cenário, usaremos o método classificado () junto com o método select () para reorganizar as colunas na ordem ascendente através do método classificado ().

Sintaxe:
quadro de dados.Selecione (classificado (DataFrame.colunas, reverse = false))

Onde:

  1. DataFrame é a entrada Pyspark DataFrame
  2. classificado () é o método que classificará o quadro de dados em ordem crescente. Vai levar dois parâmetros. O primeiro parâmetro refere -se ao método das colunas para selecionar todas as colunas do DataFrame. O segundo parâmetro é usado para reorganizar o quadro de dados em ordem ascendente se estiver definido como false.

Exemplo:
Neste exemplo, vamos reorganizar as colunas em ordem ascendente para exibir o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Range as colunas em ordem crescente
df = df.Selecione (classificado (df.colunas, reverse = false))
#dispay o quadro de dados
df.mostrar()

Saída:

Cenário 3: reorganize as colunas em ordem decrescente

Nesse cenário, usaremos o método classificado () junto com o método select () para reorganizar as colunas na ordem descendente através do método classificado ().

Sintaxe:
quadro de dados.Selecione (classificado (DataFrame.colunas, reverse = true))

Onde:

  1. DataFrame é a entrada Pyspark DataFrame
  2. classificado () é o método que classificará o quadro de dados em ordem crescente. Vai levar dois parâmetros. O primeiro parâmetro refere -se ao método das colunas para selecionar todas as colunas do DataFrame. O segundo parâmetro é usado para reorganizar o quadro de dados em ordem decrescente se estiver definido como true.

Exemplo:
Neste exemplo, vamos reorganizar as colunas em ordem decrescente para exibir o DataFrame usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Range as colunas em ordem decrescente
df = df.Selecione (classificado (df.colunas, reverse = true))
#dispay o quadro de dados
df.mostrar()

Saída:

Conclusão

Neste tutorial, discutimos como reorganizar as colunas no Pyspark DataFrame com três cenários aplicando o método select (). Usamos o método classificado () junto com o método select () para reorganizar as colunas.