No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. O desvio padrão é um cálculo matemático para determinar como números diferentes ou diferentes são. Por exemplo, as pessoas dirão que esse número é x número de desvios padrão longe da média. Ou no total, todos os números em um conjunto estão com o número Y de desvios padrão, etc. Demonstraremos três funções para desvio padrão neste artigo usando Pyspark. Para cada uma dessas funções, forneceremos exemplos
SELECT () e
agg () métodos.
- Pyspark - Stddev ()
- Pyspark - stddev_samp ()
- Pyspark - stddev_pop ()
Pyspark - Stddev ()
stddev () No Pyspark, é usado para retornar o desvio padrão de uma coluna específica no quadro de dados.
Antes disso, temos que criar dados de dados Pyspark para demonstração.
Exemplo:
Criaremos um quadro de dados com 5 linhas e 6 colunas e exibi -lo usando o mostrar() método.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()
Saída:
Método -1: Usando o método select ()
Podemos obter o desvio padrão da coluna no quadro de dados usando o método select (). Usando o método stddev (), podemos obter o desvio padrão da coluna. Para usar este método, temos que importá -lo do Pyspark.SQL.Módulo de funções e, finalmente, podemos usar o método collect () para obter o desvio padrão da coluna
Sintaxe:
df.Selecione (stddev ('column_name')))
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão
Se queremos retornar o desvio padrão de várias colunas, precisamos usar o método stddev () dentro do método select () especificando o nome da coluna separado por uma vírgula.
Sintaxe:
df.Selecione (stddev ('column_name'), stddev ('column_name'),… ., stddev ('column_name')))
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão
Exemplo 1: coluna única
Este exemplo receberá o desvio padrão da coluna de altura no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the Standsrd Desvio - função stddev
de Pyspark.SQL.Funções Import stddev
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura
df.Selecione (stddev ('altura')).colecionar ()
Saída:
[Linha (stddev_samp (altura) = 1.3030732903409539)]
No exemplo acima, o desvio padrão da coluna de altura é retornado.
Exemplo 2: várias colunas
Este exemplo receberá o desvio padrão das colunas de altura, idade e peso no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the Standsrd Desvio - função stddev
de Pyspark.SQL.Funções Import stddev
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura, idade e peso
df.Selecione (Stddev ('Height'), Stddev ('Age'), Stddev ('Peso')).colecionar ()
Saída:
[Linha (stddev_samp (altura) = 1.3030732903409539, stddev_samp (idade) = 12.157302332343306, stddev_samp (peso) = 20.211382931407737)]
O desvio padrão das colunas de altura, idade e peso é retornado no exemplo acima.
Método - 2: Usando o método agg ()
Podemos obter o desvio padrão da coluna no DataFrame usando o método agg (). Este método é conhecido como agregação, que agrupa os valores dentro de uma coluna. Será necessário o dicionário como um parâmetro nessa chave será o nome da coluna e o valor é a função agregada, i.e., stddev. Usando o método stddev (), podemos obter o desvio padrão da coluna e, finalmente, podemos usar o método collect () para obter o desvio padrão da coluna.
Sintaxe:
df.agg ('column_name': stddev)
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão
- Stddev é uma função de agregação usada para retornar o desvio padrão
Se queremos retornar o desvio padrão de várias colunas, precisamos especificar o nome da coluna com a função stddev separada por uma vírgula.
Sintaxe:
df.agg ('column_name': stddev, 'column_name': stddev,…, 'column_name': stddev)
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão
- Stddev é uma função de agregação usada para retornar o desvio padrão
Exemplo 1: coluna única
Este exemplo receberá o desvio padrão da coluna de altura no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura
df.agg ('altura': 'stddev').colecionar ()
Saída:
[Linha (stddev (altura) = 1.3030732903409539)]
No exemplo acima, o desvio padrão da coluna de altura é retornado.
Exemplo 2: várias colunas
Este exemplo receberá o desvio padrão das colunas de altura, idade e peso no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da altura e coluna de peso
df.agg ('altura': 'stddev', 'idade': 'stddev', 'peso': 'stddev').colecionar ()
Saída:
[Linha (stddev (peso) = 20.211382931407737, stddev (idade) = 12.157302332343306, stddev (altura) = 1.3030732903409539)]
O desvio padrão das colunas de altura, idade e peso é retornado no exemplo acima.
Pyspark - stddev_samp ()
Stddev_samp () em Pyspark é usado para retornar o desvio padrão de uma amostra de uma coluna específica no quadro de dados. É semelhante à função stddev ().
Antes disso, temos que criar dados de dados Pyspark para demonstração.
Exemplo:
Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()
Saída:
Método -1: Usando o método select ()
Podemos obter o desvio padrão da coluna no quadro de dados usando o método select (). Ao usar o método stddev_samp (), podemos obter o desvio padrão da coluna. Para usar este método, temos que importá -lo do Pyspark.SQL.Módulo de funções e, finalmente, podemos usar o método collect () para obter o desvio padrão da coluna
Sintaxe:
df.Selecione (stddev_samp ('column_name'))
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão em uma amostra
Se queremos retornar o desvio padrão de várias colunas de uma amostra, precisamos usar o método stddev_samp () dentro do método select () especificando o nome da coluna separado por vírgula.
Sintaxe:
df.Selecione (stddev_samp ('column_name'), stddev_samp ('column_name'),… ., stddev_samp ('column_name')))
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão para a amostra fornecida
Exemplo 1: coluna única
Neste exemplo, obteremos o desvio padrão de uma amostra da coluna de altura no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the Standsrd Desvio - Função Stddev_samp
de Pyspark.SQL.Funções Import stddev_samp
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura
df.Selecione (stddev_samp ('altura')).colecionar ()
Saída:
[Linha (stddev_samp (altura) = 1.3030732903409539)]
No exemplo acima, o desvio padrão da coluna de altura é retornado.
Exemplo 2: várias colunas
Neste exemplo, obteremos o desvio padrão da amostra das colunas de altura, idade e peso no pyspark Dataframe.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the Standsrd Desvio - Função Stddev_samp
de Pyspark.SQL.Funções Import stddev_samp
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura, idade e peso
df.Selecione (stddev_samp ('altura'), stddev_samp ('idade'), stddev_samp ('peso')).colecionar ()
Saída:
[Linha (stddev_samp (altura) = 1.3030732903409539, stddev_samp (idade) = 12.157302332343306, stddev_samp (peso) = 20.211382931407737)]
No exemplo acima, o desvio padrão das colunas de altura, idade e peso é retornado.
Método - 2: Usando o método agg ()
Podemos obter o desvio padrão de uma amostra da coluna no quadro de dados usando o método agg (). Este método é conhecido como agregação, que agrupa os valores dentro de uma coluna. Será necessário o dicionário como um parâmetro nessa chave será o nome da coluna e o valor é a função agregada, i.e., stddev_samp. Ao usar o método stddev_samp (), podemos obter o desvio padrão da coluna e, finalmente, podemos usar o método collect () para obter o desvio padrão de uma amostra da coluna.
Sintaxe:
df.agg ('column_name': stddev_samp)
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão de uma amostra
- stddev_samp é uma função de agregação usada para retornar o desvio padrão de uma amostra
Se queremos retornar o desvio padrão de várias colunas, precisamos especificar o nome da coluna com a função stddev_samp separada por uma vírgula.
Sintaxe:
df.agg ('column_name': stddev_samp, 'column_name': stddev_samp,…, 'column_name': stddev_samp)
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão de uma amostra
- stddev_samp é uma função de agregação usada para retornar o desvio padrão de uma amostra
Exemplo 1: coluna única
Este exemplo receberá o desvio padrão da coluna de altura no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura
df.agg ('altura': 'stddev_samp').colecionar ()
Saída:
[Linha (stddev_samp (altura) = 1.3030732903409539)]
No exemplo acima, o desvio padrão de uma amostra da coluna de altura é retornado.
Exemplo 2: várias colunas
Neste exemplo, obteremos o desvio padrão de uma amostra das colunas de altura, idade e peso no pyspark DataFrame.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da altura e coluna de peso
df.agg ('altura': 'stddev_samp', 'idade': 'stddev_samp', 'peso': 'stddev_samp').colecionar ()
Saída:
[Linha (stddev_samp (peso) = 20.211382931407737, stddev_samp (idade) = 12.157302332343306, stddev_samp (altura) = 1.3030732903409539)]
No exemplo acima, o desvio padrão das colunas de altura, idade e peso é retornado.
Pyspark - stddev_pop ()
stddev_pop () em Pyspark é usado para retornar o desvio padrão de uma população de uma coluna específica no quadro de dados.
Antes disso, temos que criar dados de dados Pyspark para demonstração.
Exemplo:
Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()
Saída:
Método -1: Usando o método select ()
Podemos obter o desvio padrão da coluna no quadro de dados usando o método select (). Ao usar o método stddev_pop (), podemos obter o desvio padrão da população da coluna. Para usar este método, temos que importá -lo do Pyspark.SQL.Módulo de funções e, finalmente, podemos usar o método collect () para obter o desvio padrão da coluna
Sintaxe:
df.Selecione (stddev_pop ('column_name'))
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão de uma população
Se quisermos retornar o desvio padrão de várias colunas para a amostra especificada, precisamos usar o método stddev_pop () dentro do método select () especificando o nome da coluna separado por vírgula.
Sintaxe:
df.Selecione (stddev_pop ('column_name'), stddev_pop ('column_name'),… ., stddev_pop ('column_name')))
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão para a população especificada
Exemplo 1: coluna única
Neste exemplo, obteremos o desvio padrão de uma população da coluna de altura no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import o desvio padrão - função stddev_pop
de Pyspark.SQL.Funções Import stddev_pop
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura
df.Selecione (stddev_pop ('altura')).colecionar ()
Saída:
[Linha (stddev_pop (altura) = 1.1655041827466772)]
No exemplo acima, o desvio padrão da coluna de altura é retornado.
Exemplo 2: várias colunas
Neste exemplo, obteremos o desvio padrão da população das colunas de altura, idade e peso no quadro de dados do Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the Standsrd Desvio - Função Stddev_pop
de Pyspark.SQL.Funções Import stddev_pop
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura, idade e peso
df.Selecione (stddev_pop ('altura'), stddev_pop ('idade'), stddev_pop ('peso')).colecionar ()
Saída:
[Linha (stddev_pop (altura) = 1.1655041827466772, stddev_pop (idade) = 10.87382177525455, stddev_pop (peso) = 18.077610461562667)]
No exemplo acima, o desvio padrão das colunas de altura, idade e peso é retornado.
Método - 2: Usando o método agg ()
Podemos obter o desvio padrão da população da coluna no quadro de dados usando o método agg (). Este método é conhecido como agregação, que agrupa os valores dentro de uma coluna. Será necessário o dicionário como um parâmetro nessa chave será o nome da coluna e o valor é a função agregada, i.e. stddev_pop. Usando o método stddev_pop (), podemos obter o desvio padrão da coluna. Finalmente, podemos usar o método collect () para obter o desvio padrão de uma população da coluna.
Sintaxe:
df.agg ('column_name': stddev_pop)
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão de uma população
- stddev_pop é uma função de agregação usada para retornar o desvio padrão de uma população
Se queremos retornar o desvio padrão de várias colunas, precisamos especificar o nome da coluna com a função stddev_pop separada por uma vírgula.
Sintaxe:
df.agg ('column_name': stddev_pop, 'column_name': stddev_pop,…, 'column_name': stddev_pop)
Onde,
- DF é o quadro de dados Pyspark de entrada
- Column_name é a coluna para obter o desvio padrão de uma população
- stddev_pop é uma função de agregação usada para retornar o desvio padrão de uma população
Exemplo 1: coluna única
Este exemplo receberá o desvio padrão da coluna de altura no quadro de dados Pyspark.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da coluna de altura
df.agg ('altura': 'stddev_pop').colecionar ()
Saída:
[Linha (stddev_pop (altura) = 1.1655041827466772)]
No exemplo acima, o desvio padrão de uma amostra da coluna de altura é retornado.
Exemplo 2: várias colunas
Neste exemplo, obteremos o desvio padrão de uma amostra das colunas de altura, idade e peso no pyspark DataFrame.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Return O desvio padrão da altura e coluna de peso
df.agg ('altura': 'stddev_pop', 'idade': 'stddev_pop', 'peso': 'stddev_pop').colecionar ()
Saída:
[Linha (stddev_pop (peso) = 18.077610461562667, stddev_pop (idade) = 10.87382177525455, stddev_pop (altura) = 1.1655041827466772)]
No exemplo acima, o desvio padrão das colunas de altura, idade e peso é retornado.
Conclusão
Discutimos como obter o desvio padrão do quadro de dados Pyspark usando stddev (), stddev_samp () e stddev_pop () funciona através do SELECT () e agg () métodos.