Pyspark - iluminado

Pyspark - iluminado

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Lit () é usado Crie uma nova coluna adicionando valores a essa coluna no Pyspark DataFrame. Antes de mudar para a sintaxe, criaremos o Pyspark DataFrame.

Exemplo:

Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()

Saída:

Lit () - Sintaxe

aceso ("valor").Alias ​​("Column_Name")

Onde,

  1. Column_name é a nova coluna.
  2. O valor é o valor constante agregado à nova coluna.

Temos que importar esse método do Pyspark.SQL.Módulo de funções.

Observação: Podemos adicionar várias colunas por vez

Usando o método select (), podemos usar o método lit ().

Select () é usado para exibir as colunas do DataFrame. Junto com isso, podemos adicionar colunas usando o método lit ().

Sintaxe:

quadro de dados.Selecione (col ("coluna"),…, iluminado ("valor").Alias ​​("new_column"))

Onde,

  1. A coluna é o nome da coluna existente para exibir.
  2. new_column é o novo nome da coluna a ser adicionado.
  3. O valor é o valor constante agregado à nova coluna.

Exemplo 1:

Neste exemplo, vamos adicionar uma nova coluna chamada - Pincode e adicionar um valor constante - 522112 a esta coluna e selecionar a coluna Rollno junto com o Pincode do pyspark Dataframe.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna Pincode com valor constante - 522112
final = df.Selecione (col ("rollno"), iluminado ("522112").Alias ​​("Pincode"))
#Display O DataFrame final
final.mostrar()

Saída:

Exemplo 2:

Neste exemplo, vamos adicionar novas colunas chamadas - Pincode e City e agregar um valor constante - 522112 e Guntur a essas colunas e selecionar a coluna Rollno, juntamente com Pincode e City do Pyspark Dataframe.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna: Pincode com valor constante - 522112
# cidade com valor constante - guntur
final = df.Selecione (col ("rollno"), iluminado ("522112").Alias ​​("Pincode"), Lit ("Guntur").Alias ​​("City")))
#Display O DataFrame final
final.mostrar()

Saída:

Também podemos adicionar valores à nova coluna dos vales da coluna existente. Só precisamos fornecer o nome da coluna dentro do parâmetro Lit (Value).

Sintaxe:

quadro de dados.Selecione (col ("coluna"),…, iluminado (DataFrame.coluna).Alias ​​("new_column"))

Onde,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. A coluna é o nome da coluna existente para exibir.
  3. new_column é o novo nome da coluna a ser adicionado.
  4. O valor é o valor constante agregado à nova coluna.

Exemplo:

Neste exemplo, vamos adicionar uma coluna - “Pincode City” e atribuir valores da coluna de endereço.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna: "Pincode City da coluna de endereço
final = df.Selecione (col ("rollno"), iluminado (df.endereço).Alias ​​("Pincode City"))
#Display O DataFrame final
final.mostrar()

Saída:

Também podemos adicionar valores de coluna existentes através do índice de coluna - a indexação de coluna começa com - 0.

Exemplo:

Neste exemplo, vamos adicionar uma coluna - “Pincode City” e atribuir valores da coluna de endereço através do endereço da coluna do endereço I.e., - 4.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import the col, função iluminada
de Pyspark.SQL.funções Importar Col, Lit
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Adicione uma nova coluna: "Pincode City da coluna de endereço
final = df.Selecione (col ("rollno"), iluminado (df [4]).Alias ​​("Pincode City"))
#Display O DataFrame final
final.mostrar()

Saída:

Conclusão

Neste tutorial, discutimos o método lit () para criar uma nova coluna com valores constantes. Pode ser possível atribuir os valores da coluna existente especificando a coluna no lugar do parâmetro de valor através do nome da coluna, bem como um índice de coluna.