Retornar as linhas Top & Last do Pyspark Pandas Dataframe

Jackie Blanda

“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar:

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas:

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.

Saída:

Agora, entraremos em nosso tutorial.

Existem várias maneiras de devolver as linhas de cima e a última.

Vamos vê -los um por um.

Pyspark.Pandas.Quadro de dados.cabeça

Head () retornará as linhas superiores do topo do Pyspark Pandas Dataframe. É preciso n como um parâmetro que especifica o número de linhas exibidas do topo. Por padrão, ele retornará as 5 principais linhas.

Sintaxe:

Pyspark_pandas.cabeça (n)

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro:

n Especifica um valor inteiro que exibe o número de linhas da parte superior do quadro de dados do Pyspark Pandas.

Também podemos usar a função Head () para exibir coluna específica.

Sintaxe:

Pyspark_pandas.coluna.cabeça (n)

Exemplo 1

Neste exemplo, retornaremos as 2 e 4 linhas principais na coluna Mark1.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cabeça (2))
imprimir()
#Display Top 4 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cabeça (4))

Saída:

0 90
1 56
Nome: Mark1, Dtype: Int64
0 90
1 56
2 78
3 54
Nome: Mark1, Dtype: Int64

Podemos ver que as 2 e 4 linhas principais foram selecionadas da coluna Marks1.

Exemplo 2

Neste exemplo, retornaremos as 2 e 4 linhas principais na coluna Student_lastName.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cabeça (2))
imprimir()
#Display Top 4 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cabeça (4))

Saída:

0 Manasa
1 Trisha
Nome: student_lastname, dtype: objeto
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Nome: student_lastname, dtype: objeto

Podemos ver que as 2 e 4 linhas principais foram selecionadas do Student_lastName coluna.

Exemplo 3

Neste exemplo, retornaremos as 2 principais linhas de todo o DataFrame.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 linhas
Imprimir (Pyspark_pandas.cabeça (2))
imprimir()
#Display Top 4 linhas
Imprimir (Pyspark_pandas.cabeça (4))

Saída:

Student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Podemos ver que todo o quadro de dados é retornado com as 2 e 4 linhas superiores.

Pyspark.Pandas.Quadro de dados.cauda

Tail () retornará linhas do último no Pyspark Pandas Dataframe. É preciso n como um parâmetro que especifica o número de linhas exibidas a partir do último.

Sintaxe:

Pyspark_pandas.cauda (n)

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro:

n Especifica um valor inteiro que exibe o número de linhas do último dos dados do Pyspark Pandas. Por padrão, ele retornará as últimas 5 linhas.

Também podemos usar a função Tail () para exibir colunas específicas.

Sintaxe:

Pyspark_pandas.coluna.cauda (n)

Exemplo 1

Neste exemplo, retornaremos as últimas 2 e 4 linhas na coluna Mark1.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cauda (2))
imprimir()
#Display Last 4 linhas na coluna Mark1
Imprimir (Pyspark_pandas.Mark1.cauda (4))

Saída:

3 54
4 67
Nome: Mark1, Dtype: Int64
1 56
2 78
3 54
4 67
Nome: Mark1, Dtype: Int64

Podemos ver que as últimas 2 e 4 linhas foram selecionadas da coluna Marks1.

Exemplo 2

Neste exemplo, retornaremos as últimas 2 e 4 linhas na coluna Student_lastName.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cauda (2))
imprimir()
#Display Last 4 linhas na coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.cauda (4))

Saída:

3 Kapila
4 hyna
Nome: student_lastname, dtype: objeto
1 Trisha
2 Lehara
3 Kapila
4 hyna
Nome: student_lastname, dtype: objeto

Podemos ver que as últimas 2 e 4 linhas foram selecionadas do Student_lastName coluna.

Exemplo 3

Neste exemplo, retornaremos as duas últimas linhas de todo o DataFrame.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'trisha', 'lehara', 'kapila', 'hyna'], 'mark1': [90,56,78,54,67], 'mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Last 2 linhas
Imprimir (Pyspark_pandas.cauda (2))
imprimir()
#Display Last 4 linhas
Imprimir (Pyspark_pandas.cauda (4))

Saída:

Student_lastName Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 Hyna 67 32 87
Student_lastName Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 Hyna 67 32 87

Podemos ver que todo o DataFrame é retornado com as últimas 2 e 4 linhas.

Conclusão

Vimos como exibir as linhas superior e as últimas linhas das funções Pyspark Pandas usando funções Head () e Tail (). Por padrão, eles retornam 5 linhas.As funções Head () e Tail () também são usadas para obter as linhas superior e as linhas com colunas específicas.

Docker

Qual é o objetivo de um docker-compor.Arquivo YML no Docker?

O principal objetivo de um “Docker-Compose.O arquivo YML ”é para simplificar o processo de implantaç...

Shaun Bogan

Pitão

Converter uma string em json python

As funções do módulo JSON, a função AST do módulo ou a função avaliar () é usada para converter uma ...

Jackie Blanda

Docker

Qual é a diferença entre Docker e Podman?

Docker usa uma arquitetura cliente-servidor, enquanto o Podman é um motor de contêiner com daemon me...

Carl Hintz DDS