“Em Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.
Discutiremos duas funções: TRANSTATE () e Sobreposição () em Pyspark.
Vamos discutir um por um. Antes disso, temos que criar um quadro de dados Pyspark para demonstração.”
Exemplo
Vamos criar um DataFrame com 5 linhas e 6 colunas e exibi -lo usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()
Saída:
Pyspark tradutor ()
Tradle () é usado para substituir as strings no caractere da coluna Pyspark DataFrame por caractere. Temos que especificar os caracteres em uma string a ser substituída por outros personagens. São necessários três parâmetros.
Sintaxe:
tradução (coluna, 'real_characters', 'repacacacacacacacacacaction_characters')
Onde,
- Coluna é o nome da coluna na qual os caracteres são substituídos nesta coluna.
- real_characters são os caracteres presentes nas cordas da coluna dada.
- Substituindo_characters são os caracteres que substituem os reais_characters um por um.
Observação - O número de caracteres nos Characters reais deve ser igual ao número de substituindo_characters.
Tradle () pode ser usado com o método withcolumn ().
Sintaxe geral:
quadro de dados.WithColumn (coluna, tradução (coluna, 'real_characters', 'repacacacting_characters')))
Exemplo 1
Neste exemplo, estamos traduzindo os personagens - GunHy para @$%^& na coluna de endereço.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import traduz de pyspark.SQL.funções
de Pyspark.SQL.funções importam tradução
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Translate os personagens - GunHy para @$%^&
df.withcolumn ('endereço', tradução ('endereço', 'gunHy', '@$%^&')).mostrar()
Saída:
Podemos ver isso na coluna de endereço - as cordas que contêm
- g é traduzido para @
- você está traduzido para $
- n é traduzido para %
- h é traduzido para ^
- y é traduzido para &
Exemplo 2
Neste exemplo, estamos traduzindo os personagens - Jaswi para 56434 na coluna Nome.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import traduz de pyspark.SQL.funções
de Pyspark.SQL.funções importam tradução
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Translate The Personra - Jaswi a 56434 na coluna Nome
df.withcolumn ('nome', tradução ('nome', 'jaswi', '56434'))).mostrar()
Saída:
Podemos ver isso na coluna do nome - as strings que contêm
- J é traduzido para 5
- A é traduzido para 6
- S é traduzido para 4
- w é traduzido para 3
- Eu sou traduzido para 4
Sobreposição de Pyspark ()
sobreposição () é usada para substituir os valores em uma determinada coluna por outros valores da coluna. São necessários três parâmetros. Pode ser usado com uma cláusula selecionada.
Sintaxe:
sobreposição (substituído_column, substituindo_column, posição)
Onde,
- substituído_column é a coluna na qual os valores são substituídos.
- substituindo_column é a coluna na qual substituiu os valores em uma coluna substituída_.
- A posição é usada para especificar a posição ou local em substituição_column, de modo que os valores em substituir_column ocupe substituíram_column.
Observação - Se todos os caracteres nos valores forem substituídos em substituído_column, a partir da próxima posição, os caracteres substituídos_column aparecerão.
Sintaxe geral:
quadro de dados.Selecione (Sobreposição (substituído_column, substituindo_column, posição)))
Exemplo
Neste exemplo, substituiremos os valores em
- Nome coluna com idade de 4º caractere na coluna de nome
- Coluna Rollno com nome do 2º caractere
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import sobreposição de Pyspark.SQL.funções
de Pyspark.SQL.funções Importar sobreposição
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Valores do local na coluna de nome com idade de 4º caractere
df.Selecione (Sobreposição ("Nome", "Age", 4))).mostrar()
#Valores de substituição na coluna Rollno com nome do 2º caractere
df.Selecione (Sobreposição ("Rollno", "Nome", 2))).mostrar()
Saída:
A partir desta saída,
- Os caracteres na coluna da idade são substituídos na coluna Nome da 4ª posição de cada valor, e o restante dos personagens permaneceu o mesmo na coluna de nome.
- Os caracteres na coluna Nome são substituídos na coluna Rollno a partir da 4ª posição de todos os valores, e o restante dos caracteres não resultou na coluna Rollno, pois o número total de caracteres nos valores da coluna Rollno é menor que os valores da coluna de nomes da coluna. É por isso que os valores da coluna do nome estão ocupados.
Conclusão
A partir deste tutorial, vimos como substituir as strings nas colunas DataFrame transllate () e Overlay () funções com exemplos simples.Tradle () é usado para substituir as strings no caractere da coluna Pyspark DataFrame por caractere. Temos que especificar os caracteres em uma string a ser substituída por outros personagens. sobreposição () é usada para substituir os valores em uma determinada coluna por outros valores da coluna.