PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
Vamos vê -los um por um.
Pyspark - Pandas DataFrame: NSMalest ()
Pyspark.Pandas.Quadro de dados.nsmalest ()O NSMAlest () no Pyspark Pandas Dataframe é usado para retornar as primeiras linhas que são mínimas com base na coluna. Portanto, retornará as primeiras linhas mínimas inteiras presentes no Pyspark Pandas Dataframe. São necessários dois parâmetros.
Sintaxe
Pyspark_pandas.nsmalest (n, coluna)Parâmetros
Exemplo 1
Neste exemplo, obteremos as duas primeiras linhas mínimas com base na coluna Mark1.
Saída
Aqui, 54 e 67 são os primeiros 2 valores (mínimo) presentes na coluna Mark1. Então, 2 linhas correspondentes foram devolvidas.
Exemplo 2
Neste exemplo, obteremos as 4 primeiras linhas mínimas com base na coluna do Student_lastName.
Saída
Aqui, Chamundi, Hyna, Kapila e Lehara são os primeiros 4 valores (mínimo) presentes na coluna Student_name. Portanto, 4 linhas correspondentes foram devolvidas.
Pyspark - Pandas DataFrame: NLAR MAIGO ()
Pyspark.Pandas.Quadro de dados.NLAR MAGER ()O NLAR MAGER () no Pyspark Pandas Dataframe é usado para retornar as primeiras linhas que são máximas com base na coluna. Portanto, ele retornará as primeiras linhas máximas inteiras presentes no Pyspark Pandas Dataframe. São necessários dois parâmetros.
Sintaxe
Pyspark_pandas.NLAR MAIGO (N, coluna)Parâmetros
Exemplo 1
Neste exemplo, obteremos as 2 primeiras linhas máximas com base na coluna Mark1.
Saída
Aqui, 90 e 90 são os 2 primeiros valores grandes (máximos) presentes na coluna Mark1. Então, 2 linhas correspondentes foram devolvidas.
Exemplo 2
Neste exemplo, obteremos as 4 primeiras linhas máximas com base na coluna do Student_lastName.
Saída
Aqui, Manasa, Lehara, Kapila e Hyna são os primeiros 4 valores altos (máximos) presentes no Student_name.coluna. Portanto, 4 linhas correspondentes foram devolvidas.
Conclusão
Neste tutorial Pyspark Pandas Dataframe, vimos como obter os primeiros valores mínimos e máximos usando as funções nsmalest () e nlarger (). Essas funções tomam o nome da coluna que retornará as linhas com base nesta coluna.