“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando séries, que armazenará os dados fornecidos em uma matriz (coluna no Pyspark internamente).
Pyspark - Pandas Series representa a série Pandas, mas mantém a coluna Pyspark internamente.
A estrutura de dados da série Pandas suporta e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pyspark
Sintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar a série do módulo pandas.
Sintaxe para criar a série Pandas
Pyspark.Pandas.Series()Podemos passar uma lista ou lista de listas com valores.
Vamos criar uma série de pandas através do Pyspark que possui cinco valores numéricos.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
Pyspark.Pandas.Series.nsmalest ()nsmalest () na série Pyspark Pandas é usado para retornar os primeiros valores que são mínimos. Simplesmente, ele retornará os primeiros menores valores da série de valores. É preciso um parâmetro.
Sintaxe
Pyspark_series.nsmalest (n)Onde Pyspark_series é a série Pyspark Pandas
Parâmetro
n é usado para retornar o número de valores mínimos de toda a série Pyspark com base na coluna
Exemplo 1
Retorne os 2 primeiros menores valores da série Pyspark Pandas.
Saída
Os 2 primeiros pequenos valores são 0 e 54.
Exemplo 2
Retorne os 4 primeiros menores valores da série Pyspark Pandas.
Saída
Os 4 primeiros valores pequenos são 0, 54, 56 e 78.
Pyspark.Pandas.Series.NLAR MAGER ()NLAR MAGER () na série Pyspark Pandas é usado para retornar os primeiros valores que são máximos. Simplesmente, ele retornará os primeiros maiores valores da série de valores. É preciso um parâmetro.
Sintaxe
Pyspark_series.NLAR MAGER (N)Onde Pyspark_series é a série Pyspark Pandas
Parâmetro
n é usado para retornar o número de valores máximos de toda a série Pyspark com base na coluna
Exemplo 1
Retorne os 2 primeiros maiores valores da série Pyspark Pandas.
Saída
Os 2 primeiros valores grandes são 90 e 78.
Exemplo 2
Retorne os 4 primeiros maiores valores da série Pyspark Pandas.
Saída
Os 4 primeiros pequenos valores são 90,78,56 e 54.
Conclusão
Neste tutorial da série Pyspark Pandas, vimos como obter os primeiros valores mínimos e máximos usando as funções nsmalest () e nlarger (). Essas funções tomam um parâmetro que se refere ao número de linhas a serem devolvidas (linhas mínimas para linhas nsmalest () e máximo para nlargest ()).