PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
Groupby () é usado para agrupar as linhas semelhantes no Pyspark Pandas Dataframe. Após o agrupamento, podemos executar operações estatísticas como MEAVE (), SUM (), MIN () e Max (). Veremos um por um com Groupby ().
Pyspark.Pandas.Quadro de dados.grupo () com média ()
Groupby () é usado para agrupar as linhas semelhantes no quadro de dados do Pyspark Pandas e retornar os valores médios para cada linha agrupada.
Sintaxe
Pyspark_pandas.grupo ([coluna/s]).significar()Onde,
Exemplo
Neste exemplo, retornaremos a média total de dados formados a partir de uma coluna do grupo - S_NAME.
Saída
Podemos ver que existem duas linhas semelhantes.
Depois disso, a média total para todas as três colunas foi devolvida.
Pyspark.Pandas.Quadro de dados.grupo () com sum ()
Groupby () é usado para agrupar as linhas semelhantes no quadro de dados Pyspark Pandas e retornar a soma total para cada linha agrupada.
Sintaxe
Pyspark_pandas.grupo ([coluna/s]).soma()Onde,
Exemplo
Neste exemplo, retornaremos a soma total de dados formados a partir de uma coluna do grupo - S_NAME.
Saída
Podemos ver que existem duas linhas semelhantes.
Depois disso, a soma total para todas as três colunas foi devolvida.
Pyspark.Pandas.Quadro de dados.grupo () com min ()
Groupby () é usado para agrupar as linhas semelhantes no quadro de dados do Pyspark Pandas e retornar o valor mínimo para cada linha agrupada.
Sintaxe
Pyspark_pandas.grupo ([coluna/s]).min ()Onde,
Exemplo
Neste exemplo, retornaremos o mínimo de dados formados a partir de uma coluna do grupo - S_NAME.
Saída
Podemos ver que existem duas linhas semelhantes.
Depois disso, o valor mínimo é retornado para todas as três colunas.
Pyspark.Pandas.Quadro de dados.grupo () com max ()
Groupby () é usado para agrupar as linhas semelhantes no quadro de dados do Pyspark Pandas e retornar o valor máximo para cada linha agrupada.
Sintaxe
Pyspark_pandas.grupo ([coluna/s]).max ()Onde,
Exemplo
Neste exemplo, retornaremos o máximo de dados formados a partir de uma coluna do grupo - S_NAME.
Saída
Podemos ver que existem duas linhas semelhantes.
Depois disso, o valor máximo é retornado para todas as três colunas.
Conclusão
Neste tutorial Pyspark Pandas DataFrame Groupby (), vemos o que é o Grupoby e como aplicar o Groupby () com funções estatísticas como Mestre (), Min (), Max () e Sum ().