“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.
PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pyspark
Sintaxe para importar:
De Pyspark Import pandas
Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas:
Pyspark.Pandas.Quadro de dados()
Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'],
'Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (Pyspark_pandas)
Saída:
Agora, entraremos em nosso tutorial.
Existem várias maneiras de devolver as linhas de cima e a última.
Vamos vê -los um por um.
Pyspark.Pandas.Quadro de dados.cabeça
Head () retornará as linhas superiores do topo do Pyspark Pandas Dataframe. É preciso n como um parâmetro que especifica o número de linhas exibidas do topo. Por padrão, ele retornará as 5 principais linhas.
Sintaxe:
Pyspark_pandas.cabeça (n)
Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro:
n Especifica um valor inteiro que exibe o número de linhas da parte superior do quadro de dados do Pyspark Pandas.
Também podemos usar a função Head () para exibir coluna específica.
Sintaxe:
Pyspark_pandas.coluna.cabeça (n)
Exemplo 1
Neste exemplo, retornaremos as 2 e 4 linhas principais na coluna Mark1.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cabeça (2))
imprimir()
#Display Top 4 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cabeça (4))
Saída:
0 90
1 56
Nome: Mark1, Dtype: Int64
0 90
1 56
2 78
3 54
Nome: Mark1, Dtype: Int64
Podemos ver que as 2 e 4 linhas principais foram selecionadas da coluna Marks1.
Exemplo 2
Neste exemplo, retornaremos as 2 e 4 linhas principais na coluna Student_lastName.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cabeça (2))
imprimir()
#Display Top 4 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cabeça (4))
Saída:
0 Manasa
1 Trisha
Nome: student_lastname, dtype: objeto
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Nome: student_lastname, dtype: objeto
Podemos ver que as 2 e 4 linhas principais foram selecionadas do Student_lastName coluna.
Exemplo 3
Neste exemplo, retornaremos as 2 principais linhas de todo o DataFrame.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 linhas
Imprimir (Pyspark_pandas.cabeça (2))
imprimir()
#Display Top 4 linhas
Imprimir (Pyspark_pandas.cabeça (4))
Saída:
Student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
Podemos ver que todo o quadro de dados é retornado com as 2 e 4 linhas superiores.
Pyspark.Pandas.Quadro de dados.cauda
Tail () retornará linhas do último no Pyspark Pandas Dataframe. É preciso n como um parâmetro que especifica o número de linhas exibidas a partir do último.
Sintaxe:
Pyspark_pandas.cauda (n)
Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro:
n Especifica um valor inteiro que exibe o número de linhas do último dos dados do Pyspark Pandas. Por padrão, ele retornará as últimas 5 linhas.
Também podemos usar a função Tail () para exibir colunas específicas.
Sintaxe:
Pyspark_pandas.coluna.cauda (n)
Exemplo 1
Neste exemplo, retornaremos as últimas 2 e 4 linhas na coluna Mark1.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cauda (2))
imprimir()
#Display Last 4 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cauda (4))
Saída:
3 54
4 67
Nome: Mark1, Dtype: Int64
1 56
2 78
3 54
4 67
Nome: Mark1, Dtype: Int64
Podemos ver que as últimas 2 e 4 linhas foram selecionadas da coluna Marks1.
Exemplo 2
Neste exemplo, retornaremos as últimas 2 e 4 linhas na coluna Student_lastName.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cauda (2))
imprimir()
#Display Last 4 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cauda (4))
Saída:
3 Kapila
4 hyna
Nome: student_lastname, dtype: objeto
1 Trisha
2 Lehara
3 Kapila
4 hyna
Nome: student_lastname, dtype: objeto
Podemos ver que as últimas 2 e 4 linhas foram selecionadas do Student_lastName coluna.
Exemplo 3
Neste exemplo, retornaremos as duas últimas linhas de todo o DataFrame.
#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 linhas
Imprimir (Pyspark_pandas.cauda (2))
imprimir()
#Display Last 4 linhas
Imprimir (Pyspark_pandas.cauda (4))
Saída:
Student_lastName Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 Hyna 67 32 87
Student_lastName Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 Hyna 67 32 87
Podemos ver que todo o DataFrame é retornado com as últimas 2 e 4 linhas.
Conclusão
Vimos como exibir as linhas superior e as últimas linhas das funções Pyspark Pandas usando funções Head () e Tail (). Por padrão, eles retornam 5 linhas.As funções Head () e Tail () também são usadas para obter as linhas superior e as linhas com colunas específicas.