PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar:
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas:
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.
#import pandas do módulo PysparkSaída:
Agora, entraremos em nosso tutorial.
Existem várias maneiras de devolver as linhas de cima e a última.
Vamos vê -los um por um.
Pyspark.Pandas.Quadro de dados.cabeça
Head () retornará as linhas superiores do topo do Pyspark Pandas Dataframe. É preciso n como um parâmetro que especifica o número de linhas exibidas do topo. Por padrão, ele retornará as 5 principais linhas.
Sintaxe:
Pyspark_pandas.cabeça (n)Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro:
n Especifica um valor inteiro que exibe o número de linhas da parte superior do quadro de dados do Pyspark Pandas.
Também podemos usar a função Head () para exibir coluna específica.
Sintaxe:
Pyspark_pandas.coluna.cabeça (n)Exemplo 1
Neste exemplo, retornaremos as 2 e 4 linhas principais na coluna Mark1.
#import pandas do módulo PysparkSaída:
0 90Podemos ver que as 2 e 4 linhas principais foram selecionadas da coluna Marks1.
Exemplo 2
Neste exemplo, retornaremos as 2 e 4 linhas principais na coluna Student_lastName.
#import pandas do módulo PysparkSaída:
0 ManasaPodemos ver que as 2 e 4 linhas principais foram selecionadas do Student_lastName coluna.
Exemplo 3
Neste exemplo, retornaremos as 2 principais linhas de todo o DataFrame.
#import pandas do módulo PysparkSaída:
Student_lastName Mark1 Mark2 Mark3Podemos ver que todo o quadro de dados é retornado com as 2 e 4 linhas superiores.
Pyspark.Pandas.Quadro de dados.cauda
Tail () retornará linhas do último no Pyspark Pandas Dataframe. É preciso n como um parâmetro que especifica o número de linhas exibidas a partir do último.
Sintaxe:
Pyspark_pandas.cauda (n)Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro:
n Especifica um valor inteiro que exibe o número de linhas do último dos dados do Pyspark Pandas. Por padrão, ele retornará as últimas 5 linhas.
Também podemos usar a função Tail () para exibir colunas específicas.
Sintaxe:
Pyspark_pandas.coluna.cauda (n)Exemplo 1
Neste exemplo, retornaremos as últimas 2 e 4 linhas na coluna Mark1.
#import pandas do módulo PysparkSaída:
3 54Podemos ver que as últimas 2 e 4 linhas foram selecionadas da coluna Marks1.
Exemplo 2
Neste exemplo, retornaremos as últimas 2 e 4 linhas na coluna Student_lastName.
#import pandas do módulo PysparkSaída:
3 KapilaPodemos ver que as últimas 2 e 4 linhas foram selecionadas do Student_lastName coluna.
Exemplo 3
Neste exemplo, retornaremos as duas últimas linhas de todo o DataFrame.
#import pandas do módulo PysparkSaída:
Student_lastName Mark1 Mark2 Mark3Podemos ver que todo o DataFrame é retornado com as últimas 2 e 4 linhas.
Conclusão
Vimos como exibir as linhas superior e as últimas linhas das funções Pyspark Pandas usando funções Head () e Tail (). Por padrão, eles retornam 5 linhas.As funções Head () e Tail () também são usadas para obter as linhas superior e as linhas com colunas específicas.