Pyspark - ASC & DEC

Pyspark - ASC & DEC

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Vamos criar um pyspark DataFrame.

Exemplo:

Neste exemplo, criaremos o pyspark DataFrame com 5 linhas e 6 colunas e exibir o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()

Saída:

Pyspark - ASC ()

Em Pyspark, asc () é usado para organizar as linhas em ordem crescente no quadro de dados.

Ele retornará o novo DataFrame organizando as linhas no DataFrame existente. É usado com funções de classificação () ou orderby ().

Método - 1: Usando asc () com função col

Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem crescente. Temos que especificar os nomes de colunas dentro da função OrderBy ()/Sort () através da função Col. Temos que importar essa função do Pyspark.SQL.Módulo de funções. Isso é usado para ler uma coluna do Pyspark DataFrame.

Sintaxe:

quadro de dados.Orderby (col ("column_name").asc (),…, col ("column_name").ASC ())
quadro de dados.Sort (col ("column_name").asc (),…, col ("column_name").ASC ())

Aqui,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. Column_name é a coluna em que a classificação é aplicada através da função Col.

Exemplo:

Neste exemplo, classificaremos o quadro de dados em ordem ascendente com base em colunas de endereço e idade com as funções Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (col ("endereço").asc (), col ("idade").ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (col ("endereço").asc (), col ("idade").ASC ()).colet ()))

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]

Método - 2: Usando asc () com o rótulo de dados de dados

Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem crescente. Temos que especificar os nomes/etiquetas das colunas dentro da função Orderby ()/Sort () através do nome/rótulo da coluna DataFrame.

Sintaxe:

quadro de dados.orderby (dataframe.nome da coluna.ASC (),…, DataFrame.nome da coluna.ASC ())
quadro de dados.classificar (DataFrame.nome da coluna.ASC (),…, DataFrame.nome da coluna.ASC ())

Aqui,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. Column_name é a coluna em que a classificação é aplicada.

Exemplo:

Neste exemplo, classificaremos o quadro de dados em ordem ascendente com base no endereço e nas colunas da idade com a função Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df.endereço.ASC (), DF.idade.ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (df.endereço.ASC (), DF.idade.ASC ()).colet ()))

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]

Método - 3: Usando asc () com índice de dados de dados

Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem crescente. Temos que especificar o índice/índices da coluna dentro da função OrderBy ()/Sort () através do Índice/Posição da Coluna de Dadosframe. No DataFrame, a indexação começa com '0'.

Sintaxe:

quadro de dados.Orderby (DataFrame [Column_index].ASC (),…, DataFrame [Column_index].ASC ())
quadro de dados.Sort (DataFrame [Column_index].ASC (),…, DataFrame [Column_index].ASC ())

Aqui,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. Column_index é a posição da coluna em que a classificação é aplicada.

Exemplo:

Neste exemplo, classificaremos o quadro de dados em ordem ascendente com base no endereço e nas colunas da idade com a função Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df [0].asc (), df [1].ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (df [0].asc (), df [1].ASC ()).colet ()))

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]

Pyspark - Desc ()

Em Pyspark, desc () é usado para organizar as linhas em ordem decrescente no quadro de dados.

Ele retornará o novo DataFrame organizando as linhas no DataFrame existente. É usado com funções de classificação () ou orderby ().

Método - 1: Usando desc () com função col

Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas para classificar o quadro de dados do Pyspark em ordem descendente. Temos que especificar os nomes de colunas dentro da função OrderBy ()/Sort () através da função Col. Temos que importar essa função do Pyspark.SQL.Módulo de funções. Isso é usado para ler uma coluna do Pyspark DataFrame.

Sintaxe:

quadro de dados.Orderby (col ("column_name").Desc (),…, Col (“Column_Name”).desc ())
quadro de dados.Sort (col ("column_name").Desc (),…, Col (“Column_Name”).desc ())

Aqui,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. Column_name é a coluna em que a classificação é aplicada através da função Col.

Exemplo:

Neste exemplo, classificaremos o quadro de dados na ordem descendente com base em colunas de endereço e idade com as funções Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (col ("endereço").Desc (), Col ("Age").desc ()).colet ()))
imprimir()
Imprimir (df.classificar (col ("endereço").Desc (), Col ("Age").desc ()).colet ()))

Saída:

[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Método - 2: Usando Desc () com o rótulo DataFrame

Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas para classificar o quadro de dados do Pyspark em ordem descendente. Temos que especificar os nomes/etiquetas das colunas dentro da função Orderby ()/Sort () através do nome/rótulo da coluna DataFrame.

Sintaxe:

quadro de dados.orderby (dataframe.nome da coluna.Desc (),…, DataFrame.nome da coluna.desc ())
quadro de dados.classificar (DataFrame.nome da coluna.Desc (),…, DataFrame.nome da coluna.desc ())

Aqui,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. Column_name é a coluna em que a classificação é aplicada.

Exemplo:

Neste exemplo, classificaremos o quadro de dados na ordem descendente com base em colunas de endereço e idade com a função Orderby () e Sort () e exibirá o quadro de dados classificado usando o método collect ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df.endereço.desc (), df.idade.desc ()).colet ()))
imprimir()
Imprimir (df.classificar (df.endereço.desc (), df.idade.desc ()).colet ()))

Saída:

[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Método - 3: Usando asc () com índice de dados de dados

Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem descendente. Temos que especificar o índice/índices da coluna dentro da função OrderBy ()/Sort () através do Índice/Posição da Coluna de Dadosframe. No DataFrame, a indexação começa com '0'.

Sintaxe:

quadro de dados.Orderby (DataFrame [Column_index].Desc (),…, DataFrame [Column_index].desc ())
quadro de dados.Sort (DataFrame [Column_index].Desc (),…, DataFrame [Column_index].desc ())

Aqui,

  1. DataFrame é a entrada Pyspark DataFrame.
  2. Column_index é a posição da coluna em que a classificação é aplicada.

Exemplo:

Neste exemplo, classificaremos o quadro de dados na ordem descendente com base em colunas de endereço e idade com a função Orderby () e Sort () e exibirá o quadro de dados classificado usando o método collect ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df [0].asc (), df [1].ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (df [0].asc (), df [1].ASC ()).colet ()))

Saída:

[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Diversos

Também podemos usar as duas funções em diferentes colunas no Pyspark DataFrame de cada vez.

Exemplo:

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (col ("endereço").Desc (), Col ("Age").ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (col ("endereço").asc (), col ("idade").desc ()).colet ()))

Saída:

[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17), linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28), linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34), linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54), linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67), linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54), linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34), linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28), linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]

Conclusão

Neste artigo, discutimos como usar a função ASC () usando três cenários com as funções de Sort () e Orderby () no Pyspark Dataframe no Python. Finalmente, chegamos a um ponto em que podemos classificar os dados em ordem ascendente usando asc () e a ordem descendente usando desc () no quadro de dados Pyspark com base nas colunas presentes no DataFrame.