“Em Python, o Pyspark é um módulo Spark que fornece um tipo semelhante de processamento para Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.
PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
1 | pip install pyspark |
Sintaxe para importar:
1 | De Pyspark Import pandas |
Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas:
1 | Pyspark.Pandas.Quadro de dados() |
Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark com quatro colunas e cinco linhas.
1 2 3 4 5 6 7 8 9 10 11 12 13 | #import pandas do módulo Pyspark |
Saída:
Agora, entraremos em nosso tutorial.
É possível adicionar prefixos e sufixos a uma coluna específica ou a todas as colunas usando os métodos add_prefix () e add_suffix (). Vamos discuti -los um por um.
1 | Pyspark.Pandas.Quadro de dados.add_prefix () |
add_prefix () é usado para adicionar uma string de prefixo a cada coluna no início do Pyspark Pandas Dataframe. Também é possível adicionar um prefixo a apenas uma única coluna, especificando o nome da coluna. Nesse cenário, ele será adicionado aos rótulos de linha.
Sintaxe:
Para todo o quadro de dados - Pyspark_pandas.add_prefix ('string')
Para uma coluna específica - Pyspark_pandas.coluna.add_prefix ('string')
Onde, Pyspark_pandas é o quadro de dados Pyspark Pandas.
Parâmetro:
Uma string é um prefixo adicionado à coluna no começo.
Exemplo 1
Neste exemplo, estamos adicionando o prefixo - "Linux_hint" a todas as colunas acima para criar o Pyspark Pandas Dataframe.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas do módulo Pyspark |
Saída:
Podemos ver que o prefixo é adicionado a todas as colunas.
Exemplo 2
Adicione o prefixo aos valores na coluna Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas do módulo Pyspark |
Saída:
1 2 3 4 5 6 7 8 9 10 11 | Linux_Hint0 90 |
Podemos ver que o prefixo é adicionado a todos os valores na coluna Mark1.
1 | Pyspark.Pandas.Quadro de dados.add_suffix () |
add_suffix () é usado para adicionar uma string de sufixo a cada coluna no final do quadro de dados do Pyspark Pandas. Também é possível adicionar um sufixo a apenas uma única coluna especificando o nome da coluna. Nesse cenário, ele será adicionado aos rótulos de linha.
Sintaxe:
Para todo o quadro de dados - Pyspark_pandas.add_suffix ('string')
Para uma coluna específica - Pyspark_pandas.coluna.add_suffix ('string')
Onde, Pyspark_pandas é o quadro de dados Pyspark Pandas.
Parâmetro:
Uma string é um sufixo adicionado à coluna no começo.
Exemplo 1
Neste exemplo, estamos adicionando o sufixo - "Linux_hint" a todas as colunas acima para criar o quadro de dados Pyspark Pandas.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas do módulo Pyspark |
Saída:
Podemos ver que o sufixo é adicionado a todas as colunas.
Exemplo 2
Adicione o sufixo aos valores na coluna Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import pandas do módulo Pyspark |
Saída:
1 2 3 4 5 6 7 8 9 10 11 | 0LINUX_HINT 90 |
Podemos ver que o sufixo é adicionado a todos os valores na coluna Mark1.
Conclusão
Neste tutorial Pyspark Pandas, vimos como adicionar um prefixo usando add_prefix () e sufixo usando add_suffix () ao pyspark pandasframe. Ele será adicionado aos nomes das colunas quando especificarmos todo o quadro de dados. Se aplicarmos os métodos acima a uma coluna específica, o prefixo/sufixo será adicionado às posições da linha.