PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark com quatro colunas e cinco linhas.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
As funções agregadas são usadas para executar operações de agregação como Sum (), Min (), Mean () e Max ().Essas operações funcionam apenas em dados numéricos como número inteiro, duplo etc.
Vamos vê -los um por um.
Pyspark.Pandas.Quadro de dados.soma()
Sum () no Pyspark Pandas Dataframe é usado para retornar a soma total sobre as linhas e colunas.
Se você deseja retornar a soma em cada linha, deve especificar o eixo = 1 e, se quiser retornar a soma em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.
Sintaxe
Pyspark_pandas.soma (eixo = 0/eixo = 1)Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro
É preciso apenas um parâmetro.
O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.
Exemplo 1
Neste exemplo, retornaremos a soma total em cada linha.
Saída
0 281Podemos ver que a operação da soma é realizada em cada linha.
Como, primeira linha - 90+100+91 = 281.
Exemplo 2
Neste exemplo, retornaremos a soma total em cada coluna.
Saída
Mark1 379Podemos ver que a operação da soma é realizada em cada coluna.
Como, para a coluna Mark1 - 90+78+90+54+67 = 379.
Pyspark.Pandas.Quadro de dados.significar()
a média () no Pyspark Pandas Dataframe é usada para retornar a média total sobre as linhas e colunas.
Se você deseja retornar a média em cada linha, deve especificar o eixo = 1 e, se quiser retornar a média em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.
Sintaxe
Pyspark_pandas.média (eixo = 0/eixo = 1)Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro
É preciso apenas um parâmetro.
O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.
Exemplo 1
Neste exemplo, retornaremos a média total em cada linha.
Saída
0 93.666667Podemos ver que a operação média é realizada em cada linha.
Como, primeira linha - (90+100+91)/3 = 93.666667
Exemplo 2
Neste exemplo, retornaremos a média total em cada coluna.
Saída
Mark1 75.8Podemos ver que a operação média é realizada em cada coluna.
Como, para a coluna Mark1 - (90+78+90+54+67)/5 = 75.8.
Pyspark.Pandas.Quadro de dados.min ()
min () no pyspark pandasframe é usado para valor mínimo sobre as linhas e colunas.
Se você deseja retornar o valor mínimo em cada linha, deve especificar o eixo = 1 e, se quiser retornar o mínimo em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.
Sintaxe
Pyspark_pandas.min (eixo = 0/eixo = 1)Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro
É preciso apenas um parâmetro.
O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.
Exemplo 1
Neste exemplo, retornaremos o valor mínimo em cada linha.
Saída
0 90Podemos ver que a agregação min () é realizada em cada linha.
Como, primeira linha - mínimo (90.100,91) = 90
Exemplo 2
Neste exemplo, retornaremos o valor mínimo em cada coluna.
Saída
Mark1 54Podemos ver que a agregação min () é realizada em cada coluna.
Como, para a coluna Mark1 - min (90,78,90,54,67) = 54.
Pyspark.Pandas.Quadro de dados.max ()
max () no pyspark pandframe é usado para valor máximo sobre as linhas e colunas.
Se você deseja retornar o valor máximo em cada linha, deve especificar o eixo = 1 e, se quiser retornar o máximo em cada coluna, precisará especificar o eixo = 0. Por padrão, ele executará a coluna.
Sintaxe
Pyspark_pandas.max (eixo = 0/eixo = 1)Onde Pyspark_pandas é o Pyspark Pandas Dataframe.
Parâmetro
É preciso apenas um parâmetro.
O Axis-0 especifica a computação e o eixo em coluna = 1 especifica a computação em linha.
Exemplo 1
Neste exemplo, retornaremos o valor máximo em cada linha.
Saída
0 100Podemos ver que a agregação max () é realizada em cada linha.
Como, primeira linha - máximo (90,100,91) = 100
Exemplo 2
Neste exemplo, retornaremos o valor máximo em cada coluna.
Saída
Mark1 90Podemos ver que a agregação max () é realizada em cada coluna.
Como, para a coluna Mark1 - Max (90,78,90,54,67) = 90.
Conclusão
Neste tutorial Pyspark Pandas Dataframe, vimos quatro funções de agregação diferentes executadas no DataFrame. É possível calcular em toda a linha e colunas com parâmetros de eixo. Sum () retornará a soma total, o avg () é usado para retornar a média total, min () é usado para retornar o valor mínimo e max () retornará o valor máximo.