PYSPARK - Método com o WithColumnEnamed

PYSPARK - Método com o WithColumnEnamed
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.

WithColumnEnamed () Método em Pyspark é usado para renomear as colunas existentes no Pyspark Dataframe.

Sintaxe:

Quadro de dados.WithColumnEnamed ('Old_column', 'new_column')

Parâmetros:

  1. Old_column é o nome antigo da coluna
  2. new_column é o novo nome da coluna antiga

Vamos criar o quadro de dados Pyspark com 5 linhas e 6 colunas e exibi -lo usando o método show ()

Exemplo:

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()

Saída:

Alteraremos o nome da coluna 'endereço' para 'abordagem dos alunos', 'coluna Rollno' para 'ID dos alunos' e 'Nome' Coluna para 'Nome dos alunos'.

Exemplo:

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Rename Nome Coluna para o nome dos alunos
df = df.withcolumnrenamed ("nome", "nome dos alunos")
#Renome Endereço Coluna para o nome dos alunos
df = df.Withcolumnrenamed ("endereço", "os alunos abordam")
#rename rollno coluna para estudantes id
df = df.WithColumnEnamed ("rollno", "ID dos alunos")
#Lets exibem o esquema
df.PrintSchema ()

Saída:

raiz
|- Endereço dos alunos: string (nullable = true)
|- Idade: Long (Nullable = True)
|- Altura: dupla (anulável = true)
|- Nome dos alunos: String (Nullable = True)
|- ID dos alunos: String (Nullable = True)
|- Peso: longo (nulo = true)

Se quisermos vários nomes de colunas por vez, precisamos usar a função WithColumnEnamed () várias vezes separada pelo ponto (.) Operador

Sintaxe:

Quadro de dados.withcolumnEnamed ('Old_column1', 'new_column')… withcolumnamed ('Old_column2', 'new_column')… withcolumnamed ('old_column3', 'new_column').
.withcolumnrenamed ('Old_column n', 'new_column')

Exemplo:

Neste exemplo, mudará o nome da coluna 'endereço' para 'endereço dos alunos', 'coluna Rollno' para 'ID dos alunos' e 'nomes' coluna para 'nome dos alunos' e finalmente exibir o esquema.

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Rename Nome Coluna para o nome dos alunos,
#Address coluna para o nome dos alunos
#rename rollno coluna para estudantes id
df = df.withcolumnrenamed ("nome", "nome dos alunos").Withcolumnrenamed ("endereço", "os alunos abordam").WithColumnEnamed ("rollno", "ID dos alunos")
#Lets exibem o esquema
df.PrintSchema ()

Saída:

raiz
|- Endereço dos alunos: string (nullable = true)
|- Idade: Long (Nullable = True)
|- Altura: dupla (anulável = true)
|- Nome dos alunos: String (Nullable = True)
|- ID dos alunos: String (Nullable = True)
|- Peso: longo (nulo = true)

Conclusão

Neste artigo, discutimos como renomear os nomes das colunas usando a função withcolumnrenamed () e vimos como renomear várias colunas.