PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar:
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo dos pandas.
Sintaxe para criar dados de dados de pandas:
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark com três colunas e cinco linhas.
#import pandas do módulo PysparkSaída:
Agora, entraremos em nosso tutorial.
Veremos diferentes formatos nos quais o quadro de dados do Pyspark Pandas acima foi convertido.
Pyspark.Pandas.Quadro de dados.to_html ()
Pyspark Pandas Dataframe é convertido em formato HTML, de modo que os nomes das colunas sejam colocados em
Sintaxe:
Pyspark_pandas.to_html ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo 1
Neste exemplo, converteremos o Pyspark Pandas Dataframe em formato HTML.
#import pandas do módulo PysparkSaída:
Você pode ver que os nomes das colunas são colocados dentro
Pyspark.Pandas.Quadro de dados.to_json ()
Pyspark Pandas Dataframe é convertido em formato JSON, de modo que os nomes das colunas atuem como chaves e valores da coluna serão valores.
Sintaxe:
Pyspark_pandas.to_json ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 2
Neste exemplo, converteremos o Pyspark Pandas Dataframe para o formato JSON.
#import pandas do módulo PysparkSaída:
["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]Você pode ver que os nomes das colunas são chaves.
Pyspark.Pandas.Quadro de dados.to_numpy ()
Pyspark Pandas Dataframe é convertido em formato de matriz usando o método to_numpy ().
Sintaxe:
Pyspark_pandas.to_numpy ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 3
Neste exemplo, converteremos o Pyspark Pandas Dataframe para o formato de matriz.
#import pandas do módulo PysparkSaída:
[[90 100 91]Você pode ver que os valores são armazenados na forma de uma matriz 2D com cinco linhas e três colunas.
Pyspark.Pandas.Quadro de dados.to_pandas ()
Pyspark Pandas Dataframe é convertido em pandas DataFrame usando o método to_pandas ().
Sintaxe:
Pyspark_pandas.to_pandas ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 4
Neste exemplo, converteremos o Pyspark Pandas Dataframe para um quadro de dados de pandas.
#import pandas do módulo PysparkSaída:
Mark1 Mark2 Mark3Você pode ver que os valores são armazenados na forma de um quadro de dados de pandas com cinco linhas e três colunas.
Pyspark Pandas Dataframe é convertido para o Markdown usando o método to_markdown ().
Sintaxe:
Pyspark_pandas.to_markdown ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 5
Neste exemplo, converteremos o Pyspark Pandas Dataframe para o formato de Markdown.
#import pandas do módulo PysparkSaída:
Você pode ver que o quadro de dados do Pyspark Pandas é convertido para o formato de marcação.
Pyspark Pandas Dataframe é convertido em um dicionário usando o método to_dict ().Nomes de colunas serão chaves.
Sintaxe:
Pyspark_pandas.to_dict ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 6
Neste exemplo, converteremos o Pyspark Pandas Dataframe acima em um dicionário usando o método to_dict ().
#import pandas do módulo PysparkSaída:
'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87Você pode ver que o quadro de dados Pyspark Pandas é convertido em um dicionário com chaves como nomes de colunas.
Pyspark.Pandas.Quadro de dados.to_records ()
Pyspark Pandas Dataframe é convertido em um registro usando o método to_records (). Aqui, para cada linha do registro, é colocado um ID que começa de 1.
Sintaxe:
Pyspark_pandas.to_records ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 7
Neste exemplo, converteremos o Pyspark Pandas Dataframe acima em um registro usando o método to_records ().
#import pandas do módulo PysparkSaída:
[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)Pyspark.Pandas.Quadro de dados.to_latex ()
Pyspark Pandas DataFrame é convertido em um registro usando o método TO_LATEX ().
Sintaxe:
Pyspark_pandas.to_latex ()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 8
Neste exemplo, converteremos o Pyspark Pandas Dataframe em formato de LaTex.
#import pandas do módulo PysparkSaída:
Podemos ver que o quadro de dados do Pyspark Pandas é convertido em formato de látex.
Pyspark.Pandas.Quadro de dados.Fazer faísca()
Pyspark Pandas Dataframe é convertido em um quadro de dados Spark usando o método to_spark (). Ele usa o método show () para exibir o quadro de dados em formato tabular.
Sintaxe:
Pyspark_pandas.Fazer faísca()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 9
Neste exemplo, converteremos o quadro de dados do Pyspark Pandas acima para um Spark Dataframe.
#import pandas do módulo PysparkSaída:
Podemos ver que o quadro de dados do Pyspark Pandas é convertido em um quadro de dados Spark.
Pyspark.Pandas.Quadro de dados.para sequenciar()
Pyspark Pandas Dataframe é convertido em uma string usando o método to_string (). Ele é exibido em um formato tabular.
Sintaxe:
Pyspark_pandas.para sequenciar()Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo: 10
Neste exemplo, converteremos o quadro de dados do Pyspark Pandas acima em uma string
#import pandas do módulo PysparkSaída:
Mark1 Mark2 Mark3Podemos ver que o quadro de dados do Pyspark Pandas é convertido em uma string com um formato tabular.
Conclusão
Neste tutorial, vimos os diferentes formatos que convertem o Pyspark Pandas Dataframe.
To_html () converte o quadro de dados Pyspark Pandas em formato HTML. Se você deseja convertê -lo em uma matriz Numpy, pode escolher o método to_numpy (). Se você deseja convertê -lo em um quadro de dados de pandas, você pode escolher o método to_pandas ().
To_latex () formata o quadro de dados do Pyspark Pandas no LATEX, para_markdown formato o quadro de dados do Pyspark Pandas no Markdown. Se você deseja que a coluna seja uma chave, você pode preferir para_dict () e to_json ().