Pyspark traduzir e sobreposição

Pyspark traduzir e sobreposição
“Em Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.

Discutiremos duas funções: TRANSTATE () e Sobreposição () em Pyspark.

Vamos discutir um por um. Antes disso, temos que criar um quadro de dados Pyspark para demonstração.”

Exemplo

Vamos criar um DataFrame com 5 linhas e 6 colunas e exibi -lo usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()

Saída:

Pyspark tradutor ()

Tradle () é usado para substituir as strings no caractere da coluna Pyspark DataFrame por caractere. Temos que especificar os caracteres em uma string a ser substituída por outros personagens. São necessários três parâmetros.

Sintaxe:

tradução (coluna, 'real_characters', 'repacacacacacacacacacaction_characters')

Onde,

  1. Coluna é o nome da coluna na qual os caracteres são substituídos nesta coluna.
  2. real_characters são os caracteres presentes nas cordas da coluna dada.
  3. Substituindo_characters são os caracteres que substituem os reais_characters um por um.

Observação - O número de caracteres nos Characters reais deve ser igual ao número de substituindo_characters.

Tradle () pode ser usado com o método withcolumn ().

Sintaxe geral:

quadro de dados.WithColumn (coluna, tradução (coluna, 'real_characters', 'repacacacting_characters')))

Exemplo 1

Neste exemplo, estamos traduzindo os personagens - GunHy para @$%^& na coluna de endereço.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import traduz de pyspark.SQL.funções
de Pyspark.SQL.funções importam tradução
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Translate os personagens - GunHy para @$%^&
df.withcolumn ('endereço', tradução ('endereço', 'gunHy', '@$%^&')).mostrar()

Saída:

Podemos ver isso na coluna de endereço - as cordas que contêm

  1. g é traduzido para @
  2. você está traduzido para $
  3. n é traduzido para %
  4. h é traduzido para ^
  5. y é traduzido para &

Exemplo 2

Neste exemplo, estamos traduzindo os personagens - Jaswi para 56434 na coluna Nome.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import traduz de pyspark.SQL.funções
de Pyspark.SQL.funções importam tradução
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Translate The Personra - Jaswi a 56434 na coluna Nome
df.withcolumn ('nome', tradução ('nome', 'jaswi', '56434'))).mostrar()

Saída:

Podemos ver isso na coluna do nome - as strings que contêm

  1. J é traduzido para 5
  2. A é traduzido para 6
  3. S é traduzido para 4
  4. w é traduzido para 3
  5. Eu sou traduzido para 4

Sobreposição de Pyspark ()

sobreposição () é usada para substituir os valores em uma determinada coluna por outros valores da coluna. São necessários três parâmetros. Pode ser usado com uma cláusula selecionada.

Sintaxe:

sobreposição (substituído_column, substituindo_column, posição)

Onde,

  1. substituído_column é a coluna na qual os valores são substituídos.
  2. substituindo_column é a coluna na qual substituiu os valores em uma coluna substituída_.
  3. A posição é usada para especificar a posição ou local em substituição_column, de modo que os valores em substituir_column ocupe substituíram_column.

Observação - Se todos os caracteres nos valores forem substituídos em substituído_column, a partir da próxima posição, os caracteres substituídos_column aparecerão.

Sintaxe geral:

quadro de dados.Selecione (Sobreposição (substituído_column, substituindo_column, posição)))

Exemplo

Neste exemplo, substituiremos os valores em

  1. Nome coluna com idade de 4º caractere na coluna de nome
  2. Coluna Rollno com nome do 2º caractere
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import sobreposição de Pyspark.SQL.funções
de Pyspark.SQL.funções Importar sobreposição
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Valores do local na coluna de nome com idade de 4º caractere
df.Selecione (Sobreposição ("Nome", "Age", 4))).mostrar()
#Valores de substituição na coluna Rollno com nome do 2º caractere
df.Selecione (Sobreposição ("Rollno", "Nome", 2))).mostrar()

Saída:

A partir desta saída,

  1. Os caracteres na coluna da idade são substituídos na coluna Nome da 4ª posição de cada valor, e o restante dos personagens permaneceu o mesmo na coluna de nome.
  2. Os caracteres na coluna Nome são substituídos na coluna Rollno a partir da 4ª posição de todos os valores, e o restante dos caracteres não resultou na coluna Rollno, pois o número total de caracteres nos valores da coluna Rollno é menor que os valores da coluna de nomes da coluna. É por isso que os valores da coluna do nome estão ocupados.

Conclusão

A partir deste tutorial, vimos como substituir as strings nas colunas DataFrame transllate () e Overlay () funções com exemplos simples.Tradle () é usado para substituir as strings no caractere da coluna Pyspark DataFrame por caractere. Temos que especificar os caracteres em uma string a ser substituída por outros personagens. sobreposição () é usada para substituir os valores em uma determinada coluna por outros valores da coluna.