Alterar nomes de colunas do Pyspark DataFrame - Renomear coluna

Alterar nomes de colunas do Pyspark DataFrame - Renomear coluna
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Discutiremos diferentes métodos para alterar os nomes de colunas do Pyspark DataFrame. Criaremos o quadro de dados Pyspark antes de mudar para os métodos.

Exemplo:
Aqui vamos criar dados de dados Pyspark com 5 linhas e 6 colunas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()

Saída:

Método 1: Usando WithColumnamed ()

Podemos alterar o nome da coluna no quadro de dados Pyspark usando este método.

Sintaxe:
quadro de dados.WithColumnEnamed ("Old_Column", "New_Column")

Parâmetros:

  1. Old_column é a coluna existente
  2. new_column é a nova coluna que substitui o antigo_column

Exemplo:
Neste exemplo, estamos substituindo a coluna de endereço por "City" e exibindo todo o DataFrame usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com a cidade
df.Withcolumnrenamed ("endereço", "cidade").mostrar()

Saída:

Também podemos substituir vários nomes de colunas por vez usando este método.

Sintaxe:
quadro de dados.WithColumnEnamed ("Old_Column", "New_Column") .WithColumnEnamed ("Old_Column", "New_Column")… .WithColumnEnamed ("Old_Column", "New_Column")

Exemplo:
Neste exemplo, estamos substituindo a coluna de endereço por "cidade", coluna de altura por "altura", coluna Rollno por "id" e exibindo todo o método de dados de dados usando show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com cidade, coluna de altura com altura, coluna Rollno com ID
df.Withcolumnrenamed ("endereço", "cidade").Withcolumnrenamed ("altura", "altura").Withcolumnrenamed ("rollno", "id").mostrar()

Saída:

Método 2: Usando selectExpr ()

Este é um método de expressão que muda o nome da coluna, tomando uma expressão.

Sintaxe:
quadro de dados.selectExpr (expressão)

Parâmetros:

  • Será preciso apenas um parâmetro que é uma expressão.
  • A expressão é usada para alterar a coluna. Portanto, a expressão será: “Old_column como new_column”.

Finalmente a sintaxe é:

quadro de dados.SelectExpr (“Old_column como new_column”)

onde,

  • Old_column é a coluna existente
  • new_column é a nova coluna que substitui o antigo_column

Nota: podemos fornecer múltiplas expressões separadas por vírgula dentro deste método.

Exemplo 1:
Neste exemplo, estamos substituindo a coluna de endereço por "City" e exibindo esta coluna usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com a cidade
df.SelectExpr ("Endereço como cidade").mostrar()

Saída:

Exemplo 2:

Neste exemplo, estamos substituindo a coluna de endereço por "cidade", coluna de altura por "altura", coluna Rollno por "id" e exibindo todo o método de dados de dados usando show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com cidade, coluna de altura com altura, coluna Rollno com ID
df.SelectExpr ("Endereço como cidade", "altura como altura", "rollno como id").mostrar()

Saída:

Método 3: Usando selecionar ()

Podemos selecionar colunas do DataFrame alterando os nomes das colunas através do método de colunas com alias ().

Sintaxe:
quadro de dados.Selecione (col (“Old_column”).Alias ​​("new_column")))

Parâmetros:

  • Será necessário apenas um parâmetro que é o nome da coluna através do método col ().

col () é um método disponível no Pyspark.SQL.As funções considerarão Old_Column como parâmetro de entrada e mudará para new_column com alias ()

Alias ​​() tomará new_column como um parâmetro

onde:

  1. Old_column é a coluna existente
  2. new_column é a nova coluna que substitui o antigo_column

Nota: podemos fornecer várias colunas separadas por vírgula dentro deste método.

Exemplo 1:
Neste exemplo, estamos substituindo a coluna de endereço por "City" e exibindo esta coluna usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com a cidade
df.Selecione (col ("endereço").Alias ​​("City"))).mostrar()

Saída:

Exemplo 2:

Neste exemplo, estamos substituindo a coluna de endereço por "City", coluna de altura com "altura", coluna Rollno por "id" e exibindo todo o DataFrame usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com cidade, coluna de altura com altura, coluna Rollno com ID
df.Selecione (col ("endereço").Alias ​​("City"), Col ("Altura").Alias ​​("Altura"), Col ("Rollno").Alias ​​("ID")).mostrar()

Saída:

Conclusão

Neste tutorial, discutimos como alterar os nomes de colunas do Pyspark DataFrame usando os métodos comColumnamed (), Select e SelectExpr (). Usando esses métodos, também podemos alterar vários nomes de colunas por vez.