Pyspark - Pandas DataFrame NSMallest & Nlar Maior

Pyspark - Pandas DataFrame NSMallest & Nlar Maior
“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#mostrar
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

Vamos vê -los um por um.

Pyspark - Pandas DataFrame: NSMalest ()

Pyspark.Pandas.Quadro de dados.nsmalest ()

O NSMAlest () no Pyspark Pandas Dataframe é usado para retornar as primeiras linhas que são mínimas com base na coluna. Portanto, retornará as primeiras linhas mínimas inteiras presentes no Pyspark Pandas Dataframe. São necessários dois parâmetros.

Sintaxe

Pyspark_pandas.nsmalest (n, coluna)

Parâmetros

  1. n é usado para retornar o número de linhas mínimas de todo o Pyspark Pandas com base na coluna
  2. coluna refere -se ao nome da coluna presente no quadro de dados Pyspark Pandas.

Exemplo 1
Neste exemplo, obteremos as duas primeiras linhas mínimas com base na coluna Mark1.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get Primeiros 2 linhas mínimas com base na coluna Mark1
Imprimir (Pyspark_pandas.nsmalest (2, "mark1")))

Saída

Aqui, 54 e 67 são os primeiros 2 valores (mínimo) presentes na coluna Mark1. Então, 2 linhas correspondentes foram devolvidas.

Exemplo 2
Neste exemplo, obteremos as 4 primeiras linhas mínimas com base na coluna do Student_lastName.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get Primeiros 4 linhas mínimas com base na coluna Student_lastName
Imprimir (Pyspark_pandas.nsmalest (4, "student_lastname")))

Saída

Aqui, Chamundi, Hyna, Kapila e Lehara são os primeiros 4 valores (mínimo) presentes na coluna Student_name. Portanto, 4 linhas correspondentes foram devolvidas.

Pyspark - Pandas DataFrame: NLAR MAIGO ()

Pyspark.Pandas.Quadro de dados.NLAR MAGER ()

O NLAR MAGER () no Pyspark Pandas Dataframe é usado para retornar as primeiras linhas que são máximas com base na coluna. Portanto, ele retornará as primeiras linhas máximas inteiras presentes no Pyspark Pandas Dataframe. São necessários dois parâmetros.

Sintaxe

Pyspark_pandas.NLAR MAIGO (N, coluna)

Parâmetros

  1. n é usado para retornar o número de linhas máximas de todo o Pyspark Pandas com base na coluna
  2. coluna refere -se ao nome da coluna presente no quadro de dados Pyspark Pandas.

Exemplo 1
Neste exemplo, obteremos as 2 primeiras linhas máximas com base na coluna Mark1.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get primeiro 2 linhas máximas com base na coluna Mark1
Imprimir (Pyspark_pandas.NLAR MAIGO (2, "MARK1")))

Saída

Aqui, 90 e 90 são os 2 primeiros valores grandes (máximos) presentes na coluna Mark1. Então, 2 linhas correspondentes foram devolvidas.

Exemplo 2
Neste exemplo, obteremos as 4 primeiras linhas máximas com base na coluna do Student_lastName.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get Primeiros 4 linhas máximas com base na coluna Student_lastName
Imprimir (Pyspark_pandas.NLAR MAGER (4, "Student_lastName")))

Saída

Aqui, Manasa, Lehara, Kapila e Hyna são os primeiros 4 valores altos (máximos) presentes no Student_name.coluna. Portanto, 4 linhas correspondentes foram devolvidas.

Conclusão

Neste tutorial Pyspark Pandas Dataframe, vimos como obter os primeiros valores mínimos e máximos usando as funções nsmalest () e nlarger (). Essas funções tomam o nome da coluna que retornará as linhas com base nesta coluna.