No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Discutiremos diferentes métodos para alterar os nomes de colunas do Pyspark DataFrame. Criaremos o quadro de dados Pyspark antes de mudar para os métodos.
Exemplo:
Aqui vamos criar dados de dados Pyspark com 5 linhas e 6 colunas.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()
Saída:
Método 1: Usando WithColumnamed ()
Podemos alterar o nome da coluna no quadro de dados Pyspark usando este método.
Sintaxe:
quadro de dados.WithColumnEnamed ("Old_Column", "New_Column")
Parâmetros:
- Old_column é a coluna existente
- new_column é a nova coluna que substitui o antigo_column
Exemplo:
Neste exemplo, estamos substituindo a coluna de endereço por "City" e exibindo todo o DataFrame usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com a cidade
df.Withcolumnrenamed ("endereço", "cidade").mostrar()
Saída:
Também podemos substituir vários nomes de colunas por vez usando este método.
Sintaxe:
quadro de dados.WithColumnEnamed ("Old_Column", "New_Column") .WithColumnEnamed ("Old_Column", "New_Column")… .WithColumnEnamed ("Old_Column", "New_Column")
Exemplo:
Neste exemplo, estamos substituindo a coluna de endereço por "cidade", coluna de altura por "altura", coluna Rollno por "id" e exibindo todo o método de dados de dados usando show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com cidade, coluna de altura com altura, coluna Rollno com ID
df.Withcolumnrenamed ("endereço", "cidade").Withcolumnrenamed ("altura", "altura").Withcolumnrenamed ("rollno", "id").mostrar()
Saída:
Método 2: Usando selectExpr ()
Este é um método de expressão que muda o nome da coluna, tomando uma expressão.
Sintaxe:
quadro de dados.selectExpr (expressão)
Parâmetros:
- Será preciso apenas um parâmetro que é uma expressão.
- A expressão é usada para alterar a coluna. Portanto, a expressão será: “Old_column como new_column”.
Finalmente a sintaxe é:
quadro de dados.SelectExpr (“Old_column como new_column”)
onde,
- Old_column é a coluna existente
- new_column é a nova coluna que substitui o antigo_column
Nota: podemos fornecer múltiplas expressões separadas por vírgula dentro deste método.
Exemplo 1:
Neste exemplo, estamos substituindo a coluna de endereço por "City" e exibindo esta coluna usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com a cidade
df.SelectExpr ("Endereço como cidade").mostrar()
Saída:
Exemplo 2:
Neste exemplo, estamos substituindo a coluna de endereço por "cidade", coluna de altura por "altura", coluna Rollno por "id" e exibindo todo o método de dados de dados usando show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com cidade, coluna de altura com altura, coluna Rollno com ID
df.SelectExpr ("Endereço como cidade", "altura como altura", "rollno como id").mostrar()
Saída:
Método 3: Usando selecionar ()
Podemos selecionar colunas do DataFrame alterando os nomes das colunas através do método de colunas com alias ().
Sintaxe:
quadro de dados.Selecione (col (“Old_column”).Alias ("new_column")))
Parâmetros:
- Será necessário apenas um parâmetro que é o nome da coluna através do método col ().
col () é um método disponível no Pyspark.SQL.As funções considerarão Old_Column como parâmetro de entrada e mudará para new_column com alias ()
Alias () tomará new_column como um parâmetro
onde:
- Old_column é a coluna existente
- new_column é a nova coluna que substitui o antigo_column
Nota: podemos fornecer várias colunas separadas por vírgula dentro deste método.
Exemplo 1:
Neste exemplo, estamos substituindo a coluna de endereço por "City" e exibindo esta coluna usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com a cidade
df.Selecione (col ("endereço").Alias ("City"))).mostrar()
Saída:
Exemplo 2:
Neste exemplo, estamos substituindo a coluna de endereço por "City", coluna de altura com "altura", coluna Rollno por "id" e exibindo todo o DataFrame usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#rename a coluna de endereço com cidade, coluna de altura com altura, coluna Rollno com ID
df.Selecione (col ("endereço").Alias ("City"), Col ("Altura").Alias ("Altura"), Col ("Rollno").Alias ("ID")).mostrar()
Saída:
Conclusão
Neste tutorial, discutimos como alterar os nomes de colunas do Pyspark DataFrame usando os métodos comColumnamed (), Select e SelectExpr (). Usando esses métodos, também podemos alterar vários nomes de colunas por vez.