Pyspark - Pandas DataFrame add_prefix e add_suffix

Pyspark - Pandas DataFrame add_prefix e add_suffix

“Em Python, o Pyspark é um módulo Spark que fornece um tipo semelhante de processamento para Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

1
pip install pyspark

Sintaxe para importar:

1
De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas:

1
Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark com quatro colunas e cinco linhas.

1
2
3
4
5
6
7
8
9
10
11
12
13
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (Pyspark_pandas)

Saída:

Agora, entraremos em nosso tutorial.

É possível adicionar prefixos e sufixos a uma coluna específica ou a todas as colunas usando os métodos add_prefix () e add_suffix (). Vamos discuti -los um por um.

1
Pyspark.Pandas.Quadro de dados.add_prefix ()

add_prefix () é usado para adicionar uma string de prefixo a cada coluna no início do Pyspark Pandas Dataframe. Também é possível adicionar um prefixo a apenas uma única coluna, especificando o nome da coluna. Nesse cenário, ele será adicionado aos rótulos de linha.

Sintaxe:

Para todo o quadro de dados - Pyspark_pandas.add_prefix ('string')

Para uma coluna específica - Pyspark_pandas.coluna.add_prefix ('string')

Onde, Pyspark_pandas é o quadro de dados Pyspark Pandas.

Parâmetro:

Uma string é um prefixo adicionado à coluna no começo.

Exemplo 1

Neste exemplo, estamos adicionando o prefixo - "Linux_hint" a todas as colunas acima para criar o Pyspark Pandas Dataframe.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add The Prefix - 'Linux_hint' para todo o DataFrame
Imprimir (Pyspark_pandas.add_prefix ('linux_hint')))

Saída:

Podemos ver que o prefixo é adicionado a todas as colunas.

Exemplo 2

Adicione o prefixo aos valores na coluna Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add The Prefix - 'Linux_hint' para os valores da coluna Mark1
Imprimir (Pyspark_pandas.Mark1.add_prefix ('linux_hint')))

Saída:

1
2
3
4
5
6
7
8
9
10
11
Linux_Hint0 90
Linux_Hint1 56
Linux_Hint2 78
Linux_Hint3 54
Linux_hint4 67
Nome: Mark1, Dtype: Int64

Podemos ver que o prefixo é adicionado a todos os valores na coluna Mark1.

1
Pyspark.Pandas.Quadro de dados.add_suffix ()

add_suffix () é usado para adicionar uma string de sufixo a cada coluna no final do quadro de dados do Pyspark Pandas. Também é possível adicionar um sufixo a apenas uma única coluna especificando o nome da coluna. Nesse cenário, ele será adicionado aos rótulos de linha.

Sintaxe:

Para todo o quadro de dados - Pyspark_pandas.add_suffix ('string')

Para uma coluna específica - Pyspark_pandas.coluna.add_suffix ('string')

Onde, Pyspark_pandas é o quadro de dados Pyspark Pandas.

Parâmetro:

Uma string é um sufixo adicionado à coluna no começo.

Exemplo 1

Neste exemplo, estamos adicionando o sufixo - "Linux_hint" a todas as colunas acima para criar o quadro de dados Pyspark Pandas.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add The Sufix - 'Linux_hint' para todo o DataFrame
Imprimir (Pyspark_pandas.add_suffix ('linux_hint')))

Saída:

Podemos ver que o sufixo é adicionado a todas as colunas.

Exemplo 2

Adicione o sufixo aos valores na coluna Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add The Sufix - 'Linux_hint' para os valores da coluna Mark1
Imprimir (Pyspark_pandas.Mark1.add_suffix ('linux_hint')))

Saída:

1
2
3
4
5
6
7
8
9
10
11
0LINUX_HINT 90
1linux_hint 56
2LINUX_HINT 78
3linux_hint 54
4linux_hint 67
Nome: Mark1, Dtype: Int64

Podemos ver que o sufixo é adicionado a todos os valores na coluna Mark1.

Conclusão

Neste tutorial Pyspark Pandas, vimos como adicionar um prefixo usando add_prefix () e sufixo usando add_suffix () ao pyspark pandasframe. Ele será adicionado aos nomes das colunas quando especificarmos todo o quadro de dados. Se aplicarmos os métodos acima a uma coluna específica, o prefixo/sufixo será adicionado às posições da linha.