Pyspark - Avg

Orlando Green

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. AVG () em Pyspark é usado para retornar o valor médio de uma coluna específica no DataFrame. Podemos obter a média de três maneiras.

Método 1: Usando o método select ()
Método 2: Usando o método agg ()
Método 3: Usando o Método Groupby ()

Antes disso, temos que criar dados de dados Pyspark para demonstração.

Exemplo:
Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()

Saída:

Método 1: Usando o método select ()

Podemos obter o valor médio da coluna no DataFrame usando o método select (). Ao usar o método AVG (), podemos obter o valor médio da coluna. Para usar este método, temos que importá -lo do Pyspark.SQL.Módulo de funções e, finalmente, podemos usar o método collect () para obter a média da coluna

Sintaxe:

df.Selecione (avg ('column_name')))

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna para obter o valor médio

Se queremos retornar o valor médio de várias colunas, precisamos usar o método avg () dentro do método select () especificando o nome da coluna separado por uma vírgula.

Sintaxe:

df.Selecione (AVG ('Column_Name'), AVG ('Column_Name'),… ., avg ('column_name'))

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna para obter o valor médio

Exemplo 1: coluna única

Este exemplo receberá o valor médio da coluna de altura no quadro de dados Pyspark.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função média - AVG
de Pyspark.SQL.funções importam avg
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return a média da coluna de altura
df.Selecione (AVG ('altura')).colecionar ()

Saída:

[Linha (AVG (altura) = 4.33)]

No exemplo acima, o valor médio da coluna de altura é retornado.

Exemplo 2: várias colunas

Este exemplo receberá o valor médio das colunas de altura, idade e peso no quadro de dados Pyspark.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função média - AVG
de Pyspark.SQL.funções importam avg
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return a média das colunas de altura, idade e peso
df.Selecione (AVG ('Height'), AVG ('Age'), AVG ('Peso')).colecionar ()

Saída:

[Linha (AVG (altura) = 4.33, avg (idade) = 18.4, avg (peso) = 40.0)]

No exemplo acima, o valor médio das colunas de altura, idade e peso é retornado.

Método 2: Usando o método agg ()

Podemos obter o valor médio da coluna no DataFrame usando o método agg (). Este método é conhecido como agregação, que agrupa os valores dentro de uma coluna. Será necessário o dicionário como um parâmetro nessa chave será o nome da coluna e o valor é a função agregada, i.e., Avg . Ao usar o método AVG (), podemos obter o valor médio da coluna e, finalmente, podemos usar o método collect () para obter a média da coluna.

Sintaxe:

df.agg ('column_name': avg)

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna para obter o valor médio
AVG é uma função de agregação usada para retornar a média

Se queremos retornar o valor médio de várias colunas, precisamos especificar o nome da coluna com a função AVG separada por uma vírgula.

Sintaxe:

df.agg ('column_name': avg, 'column_name': avg,…, 'column_name': avg)

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna para obter o valor médio
AVG é uma função de agregação usada para retornar a média

Exemplo 1: coluna única

Este exemplo receberá o valor médio da coluna de altura no quadro de dados Pyspark.

Saída:

[Linha (AVG (altura) = 4.33)]

No exemplo acima, o valor médio da coluna de altura é retornado.

Exemplo 2: várias colunas

Este exemplo receberá o valor médio das colunas de altura, idade e peso no quadro de dados Pyspark.

Saída:

[Linha (AVG (Peso) = 40.0, avg (idade) = 18.4, avg (altura) = 4.33)]

No exemplo acima, o valor médio das colunas de altura, idade e peso é retornado.

Método 3: Usando o Método Groupby ()

Podemos obter o valor médio da coluna no DataFrame usando o método Groupby (). Este método retornará o valor médio agrupando valores semelhantes em uma coluna. Temos que usar a função AVG () após executar a função Groupby ()

Sintaxe:

df.grupo (group_column).avg ('column_name')

Onde,

DF é o quadro de dados Pyspark de entrada
group_column é a coluna em que os valores são agrupados com base nesta coluna
Column_name é a coluna para obter o valor médio
AVG é uma função de agregação usada para retornar a média

Exemplo 1:

Neste exemplo, agruparemos a coluna de endereço com a coluna de altura para retornar o valor médio com base nesta coluna de endereço.

Saída:

Existem três valores únicos no campo de endereço - Hyd, Guntur e Patna. Portanto, a média será formada agrupando os valores nos valores do endereço.

[Linha (endereço = 'hyd', avg (altura) = 4.3566666666666665),
Linha (endereço = 'guntur', avg (altura) = 5.79),
Linha (endereço = 'patna', avg (altura) = 2.79)]

Exemplo 2:

Neste exemplo, agruparemos a coluna de endereço com a coluna de peso para retornar o valor médio com base nesta coluna de endereço.

Saída:

Existem três valores únicos no campo de endereço - Hyd, Guntur e Patna. Portanto, a média será formada agrupando os valores nos valores do endereço.

[Linha (endereço = 'hyd', avg (peso) = 38.666666666666664),
Linha (endereço = 'guntur', avg (peso) = 67.0),
Linha (endereço = 'patna', avg (peso) = 17.0)]

Conclusão:

Discutimos como obter o valor médio do quadro de dados Pyspark usando os métodos selecion () e agg (). Para obter o valor médio agrupando com outras colunas, usamos o grupo junto com a função AVG ().

Banco de dados Oracle

O Oracle Fusion considerado melhor que o SAP?

O Oracle Fusion (ERP baseado em nuvem) possui uma interface amigável, enquanto o SAP (nuvem e o loca...

Rickey Greenholt

Sqlite

Como usar o aplicativo da Web do Viewer SQLite

SQLITE Viewer Web App oferece excelentes recursos para visualizar os bancos de dados SQLite online n...

Carl Hintz DDS

Força de vendas

Carregador de dados do Salesforce

Tutorial sobre como inserir, excluir e atualizar os dados do Salesforce e como importar/exportar os ...

Mr. Warren Cummerata