No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Lit () é usado Crie uma nova coluna adicionando valores a essa coluna no Pyspark DataFrame. Antes de mudar para a sintaxe, criaremos o Pyspark DataFrame.
Exemplo:
Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()
Saída:
Lit () - Sintaxe
aceso ("valor").Alias ("Column_Name")
Onde,
- Column_name é a nova coluna.
- O valor é o valor constante agregado à nova coluna.
Temos que importar esse método do Pyspark.SQL.Módulo de funções.
Observação: Podemos adicionar várias colunas por vez
Usando o método select (), podemos usar o método lit ().
Select () é usado para exibir as colunas do DataFrame. Junto com isso, podemos adicionar colunas usando o método lit ().
Sintaxe:
quadro de dados.Selecione (col ("coluna"),…, iluminado ("valor").Alias ("new_column"))
Onde,
- A coluna é o nome da coluna existente para exibir.
- new_column é o novo nome da coluna a ser adicionado.
- O valor é o valor constante agregado à nova coluna.
Exemplo 1:
Neste exemplo, vamos adicionar uma nova coluna chamada - Pincode e adicionar um valor constante - 522112 a esta coluna e selecionar a coluna Rollno junto com o Pincode do pyspark Dataframe.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna Pincode com valor constante - 522112
final = df.Selecione (col ("rollno"), iluminado ("522112").Alias ("Pincode"))
#Display O DataFrame final
final.mostrar()
Saída:
Exemplo 2:
Neste exemplo, vamos adicionar novas colunas chamadas - Pincode e City e agregar um valor constante - 522112 e Guntur a essas colunas e selecionar a coluna Rollno, juntamente com Pincode e City do Pyspark Dataframe.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna: Pincode com valor constante - 522112
# cidade com valor constante - guntur
final = df.Selecione (col ("rollno"), iluminado ("522112").Alias ("Pincode"), Lit ("Guntur").Alias ("City")))
#Display O DataFrame final
final.mostrar()
Saída:
Também podemos adicionar valores à nova coluna dos vales da coluna existente. Só precisamos fornecer o nome da coluna dentro do parâmetro Lit (Value).
Sintaxe:
quadro de dados.Selecione (col ("coluna"),…, iluminado (DataFrame.coluna).Alias ("new_column"))
Onde,
- DataFrame é a entrada Pyspark DataFrame.
- A coluna é o nome da coluna existente para exibir.
- new_column é o novo nome da coluna a ser adicionado.
- O valor é o valor constante agregado à nova coluna.
Exemplo:
Neste exemplo, vamos adicionar uma coluna - “Pincode City” e atribuir valores da coluna de endereço.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna: "Pincode City da coluna de endereço
final = df.Selecione (col ("rollno"), iluminado (df.endereço).Alias ("Pincode City"))
#Display O DataFrame final
final.mostrar()
Saída:
Também podemos adicionar valores de coluna existentes através do índice de coluna - a indexação de coluna começa com - 0.
Exemplo:
Neste exemplo, vamos adicionar uma coluna - “Pincode City” e atribuir valores da coluna de endereço através do endereço da coluna do endereço I.e., - 4.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna: "Pincode City da coluna de endereço
final = df.Selecione (col ("rollno"), iluminado (df [4]).Alias ("Pincode City"))
#Display O DataFrame final
final.mostrar()
Saída:
Conclusão
Neste tutorial, discutimos o método lit () para criar uma nova coluna com valores constantes. Pode ser possível atribuir os valores da coluna existente especificando a coluna no lugar do parâmetro de valor através do nome da coluna, bem como um índice de coluna.