Converter Pyspark Pandas Dataframe em diferentes formatos

Converter Pyspark Pandas Dataframe em diferentes formatos
“Em Python, o Pyspark é um módulo Spark que fornece um tipo semelhante de processamento para Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar:

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo dos pandas.

Sintaxe para criar dados de dados de pandas:

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark com três colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
Imprimir (Pyspark_pandas)

Saída:

Agora, entraremos em nosso tutorial.

Veremos diferentes formatos nos quais o quadro de dados do Pyspark Pandas acima foi convertido.

Pyspark.Pandas.Quadro de dados.to_html ()

Pyspark Pandas Dataframe é convertido em formato HTML, de modo que os nomes das colunas sejam colocados em Os valores de tag e coluna são colocados em marcação.

Sintaxe:

Pyspark_pandas.to_html ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo 1

Neste exemplo, converteremos o Pyspark Pandas Dataframe em formato HTML.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert Pyspark_pandas para HTML
Imprimir (Pyspark_pandas.to_html ())

Saída:

Você pode ver que os nomes das colunas são colocados dentro Tags e valores são colocados dentro Tag.

Pyspark.Pandas.Quadro de dados.to_json ()

Pyspark Pandas Dataframe é convertido em formato JSON, de modo que os nomes das colunas atuem como chaves e valores da coluna serão valores.

Sintaxe:

Pyspark_pandas.to_json ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 2

Neste exemplo, converteremos o Pyspark Pandas Dataframe para o formato JSON.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert Pyspark_pandas para JSON
Imprimir (Pyspark_pandas.to_json ())

Saída:

["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]

Você pode ver que os nomes das colunas são chaves.

Pyspark.Pandas.Quadro de dados.to_numpy ()

Pyspark Pandas Dataframe é convertido em formato de matriz usando o método to_numpy ().

Sintaxe:

Pyspark_pandas.to_numpy ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 3

Neste exemplo, converteremos o Pyspark Pandas Dataframe para o formato de matriz.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para Numpy Array
Imprimir (Pyspark_pandas.to_numpy ())

Saída:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Você pode ver que os valores são armazenados na forma de uma matriz 2D com cinco linhas e três colunas.

Pyspark.Pandas.Quadro de dados.to_pandas ()

Pyspark Pandas Dataframe é convertido em pandas DataFrame usando o método to_pandas ().

Sintaxe:

Pyspark_pandas.to_pandas ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 4

Neste exemplo, converteremos o Pyspark Pandas Dataframe para um quadro de dados de pandas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para pandas
Imprimir (Pyspark_pandas.to_pandas ())

Saída:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Você pode ver que os valores são armazenados na forma de um quadro de dados de pandas com cinco linhas e três colunas.

Pyspark.Pandas.Quadro de dados.to_markdown ()

Pyspark Pandas Dataframe é convertido para o Markdown usando o método to_markdown ().

Sintaxe:

Pyspark_pandas.to_markdown ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 5

Neste exemplo, converteremos o Pyspark Pandas Dataframe para o formato de Markdown.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Display em formato de Markdown
Imprimir (Pyspark_pandas.to_markdown ())

Saída:

Você pode ver que o quadro de dados do Pyspark Pandas é convertido para o formato de marcação.

Pyspark.Pandas.Quadro de dados.to_dict ()

Pyspark Pandas Dataframe é convertido em um dicionário usando o método to_dict ().Nomes de colunas serão chaves.

Sintaxe:

Pyspark_pandas.to_dict ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 6

Neste exemplo, converteremos o Pyspark Pandas Dataframe acima em um dicionário usando o método to_dict ().

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para o dicionário
Imprimir (Pyspark_pandas.to_dict ())

Saída:

'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Você pode ver que o quadro de dados Pyspark Pandas é convertido em um dicionário com chaves como nomes de colunas.

Pyspark.Pandas.Quadro de dados.to_records ()

Pyspark Pandas Dataframe é convertido em um registro usando o método to_records (). Aqui, para cada linha do registro, é colocado um ID que começa de 1.

Sintaxe:

Pyspark_pandas.to_records ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 7

Neste exemplo, converteremos o Pyspark Pandas Dataframe acima em um registro usando o método to_records ().

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para registros
Imprimir (Pyspark_pandas.to_records ())

Saída:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

Pyspark.Pandas.Quadro de dados.to_latex ()

Pyspark Pandas DataFrame é convertido em um registro usando o método TO_LATEX ().

Sintaxe:

Pyspark_pandas.to_latex ()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 8

Neste exemplo, converteremos o Pyspark Pandas Dataframe em formato de LaTex.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para LATEX
Imprimir (Pyspark_pandas.to_latex ())

Saída:

Podemos ver que o quadro de dados do Pyspark Pandas é convertido em formato de látex.

Pyspark.Pandas.Quadro de dados.Fazer faísca()

Pyspark Pandas Dataframe é convertido em um quadro de dados Spark usando o método to_spark (). Ele usa o método show () para exibir o quadro de dados em formato tabular.

Sintaxe:

Pyspark_pandas.Fazer faísca()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 9

Neste exemplo, converteremos o quadro de dados do Pyspark Pandas acima para um Spark Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para Spark
Pyspark_pandas.Fazer faísca().mostrar()

Saída:

Podemos ver que o quadro de dados do Pyspark Pandas é convertido em um quadro de dados Spark.

Pyspark.Pandas.Quadro de dados.para sequenciar()

Pyspark Pandas Dataframe é convertido em uma string usando o método to_string (). Ele é exibido em um formato tabular.

Sintaxe:

Pyspark_pandas.para sequenciar()

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo: 10

Neste exemplo, converteremos o quadro de dados do Pyspark Pandas acima em uma string

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert para formato de string
Imprimir (Pyspark_pandas.para sequenciar())

Saída:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Podemos ver que o quadro de dados do Pyspark Pandas é convertido em uma string com um formato tabular.

Conclusão

Neste tutorial, vimos os diferentes formatos que convertem o Pyspark Pandas Dataframe.

To_html () converte o quadro de dados Pyspark Pandas em formato HTML. Se você deseja convertê -lo em uma matriz Numpy, pode escolher o método to_numpy (). Se você deseja convertê -lo em um quadro de dados de pandas, você pode escolher o método to_pandas ().

To_latex () formata o quadro de dados do Pyspark Pandas no LATEX, para_markdown formato o quadro de dados do Pyspark Pandas no Markdown. Se você deseja que a coluna seja uma chave, você pode preferir para_dict () e to_json ().