No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Vamos criar um pyspark DataFrame.
Exemplo:
Neste exemplo, criaremos o pyspark DataFrame com 5 linhas e 6 colunas e exibir o método show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()
Saída:
Pyspark - ASC ()
Em Pyspark, asc () é usado para organizar as linhas em ordem crescente no quadro de dados.
Ele retornará o novo DataFrame organizando as linhas no DataFrame existente. É usado com funções de classificação () ou orderby ().
Método - 1: Usando asc () com função col
Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem crescente. Temos que especificar os nomes de colunas dentro da função OrderBy ()/Sort () através da função Col. Temos que importar essa função do Pyspark.SQL.Módulo de funções. Isso é usado para ler uma coluna do Pyspark DataFrame.
Sintaxe:
quadro de dados.Orderby (col ("column_name").asc (),…, col ("column_name").ASC ())
quadro de dados.Sort (col ("column_name").asc (),…, col ("column_name").ASC ())
Aqui,
- DataFrame é a entrada Pyspark DataFrame.
- Column_name é a coluna em que a classificação é aplicada através da função Col.
Exemplo:
Neste exemplo, classificaremos o quadro de dados em ordem ascendente com base em colunas de endereço e idade com as funções Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (col ("endereço").asc (), col ("idade").ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (col ("endereço").asc (), col ("idade").ASC ()).colet ()))
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
Método - 2: Usando asc () com o rótulo de dados de dados
Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem crescente. Temos que especificar os nomes/etiquetas das colunas dentro da função Orderby ()/Sort () através do nome/rótulo da coluna DataFrame.
Sintaxe:
quadro de dados.orderby (dataframe.nome da coluna.ASC (),…, DataFrame.nome da coluna.ASC ())
quadro de dados.classificar (DataFrame.nome da coluna.ASC (),…, DataFrame.nome da coluna.ASC ())
Aqui,
- DataFrame é a entrada Pyspark DataFrame.
- Column_name é a coluna em que a classificação é aplicada.
Exemplo:
Neste exemplo, classificaremos o quadro de dados em ordem ascendente com base no endereço e nas colunas da idade com a função Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df.endereço.ASC (), DF.idade.ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (df.endereço.ASC (), DF.idade.ASC ()).colet ()))
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
Método - 3: Usando asc () com índice de dados de dados
Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem crescente. Temos que especificar o índice/índices da coluna dentro da função OrderBy ()/Sort () através do Índice/Posição da Coluna de Dadosframe. No DataFrame, a indexação começa com '0'.
Sintaxe:
quadro de dados.Orderby (DataFrame [Column_index].ASC (),…, DataFrame [Column_index].ASC ())
quadro de dados.Sort (DataFrame [Column_index].ASC (),…, DataFrame [Column_index].ASC ())
Aqui,
- DataFrame é a entrada Pyspark DataFrame.
- Column_index é a posição da coluna em que a classificação é aplicada.
Exemplo:
Neste exemplo, classificaremos o quadro de dados em ordem ascendente com base no endereço e nas colunas da idade com a função Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df [0].asc (), df [1].ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (df [0].asc (), df [1].ASC ()).colet ()))
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
Pyspark - Desc ()
Em Pyspark, desc () é usado para organizar as linhas em ordem decrescente no quadro de dados.
Ele retornará o novo DataFrame organizando as linhas no DataFrame existente. É usado com funções de classificação () ou orderby ().
Método - 1: Usando desc () com função col
Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas para classificar o quadro de dados do Pyspark em ordem descendente. Temos que especificar os nomes de colunas dentro da função OrderBy ()/Sort () através da função Col. Temos que importar essa função do Pyspark.SQL.Módulo de funções. Isso é usado para ler uma coluna do Pyspark DataFrame.
Sintaxe:
quadro de dados.Orderby (col ("column_name").Desc (),…, Col (“Column_Name”).desc ())
quadro de dados.Sort (col ("column_name").Desc (),…, Col (“Column_Name”).desc ())
Aqui,
- DataFrame é a entrada Pyspark DataFrame.
- Column_name é a coluna em que a classificação é aplicada através da função Col.
Exemplo:
Neste exemplo, classificaremos o quadro de dados na ordem descendente com base em colunas de endereço e idade com as funções Orderby () e Sort () e exibir o quadro de dados classificado usando o método collect ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (col ("endereço").Desc (), Col ("Age").desc ()).colet ()))
imprimir()
Imprimir (df.classificar (col ("endereço").Desc (), Col ("Age").desc ()).colet ()))
Saída:
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
Método - 2: Usando Desc () com o rótulo DataFrame
Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas para classificar o quadro de dados do Pyspark em ordem descendente. Temos que especificar os nomes/etiquetas das colunas dentro da função Orderby ()/Sort () através do nome/rótulo da coluna DataFrame.
Sintaxe:
quadro de dados.orderby (dataframe.nome da coluna.Desc (),…, DataFrame.nome da coluna.desc ())
quadro de dados.classificar (DataFrame.nome da coluna.Desc (),…, DataFrame.nome da coluna.desc ())
Aqui,
- DataFrame é a entrada Pyspark DataFrame.
- Column_name é a coluna em que a classificação é aplicada.
Exemplo:
Neste exemplo, classificaremos o quadro de dados na ordem descendente com base em colunas de endereço e idade com a função Orderby () e Sort () e exibirá o quadro de dados classificado usando o método collect ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df.endereço.desc (), df.idade.desc ()).colet ()))
imprimir()
Imprimir (df.classificar (df.endereço.desc (), df.idade.desc ()).colet ()))
Saída:
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
Método - 3: Usando asc () com índice de dados de dados
Aqui, estamos usando as funções Orderby () ou Sort () para classificar o quadro de dados Pyspark com base nas colunas em ordem descendente. Temos que especificar o índice/índices da coluna dentro da função OrderBy ()/Sort () através do Índice/Posição da Coluna de Dadosframe. No DataFrame, a indexação começa com '0'.
Sintaxe:
quadro de dados.Orderby (DataFrame [Column_index].Desc (),…, DataFrame [Column_index].desc ())
quadro de dados.Sort (DataFrame [Column_index].Desc (),…, DataFrame [Column_index].desc ())
Aqui,
- DataFrame é a entrada Pyspark DataFrame.
- Column_index é a posição da coluna em que a classificação é aplicada.
Exemplo:
Neste exemplo, classificaremos o quadro de dados na ordem descendente com base em colunas de endereço e idade com a função Orderby () e Sort () e exibirá o quadro de dados classificado usando o método collect ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (df [0].asc (), df [1].ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (df [0].asc (), df [1].ASC ()).colet ()))
Saída:
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
Diversos
Também podemos usar as duas funções em diferentes colunas no Pyspark DataFrame de cada vez.
Exemplo:
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Classifique o quadro de dados com base em colunas de endereço e idade
# e exiba o quadro de dados classificado
Imprimir (df.ordem (col ("endereço").Desc (), Col ("Age").ASC ()).colet ()))
imprimir()
Imprimir (df.classificar (col ("endereço").asc (), col ("idade").desc ()).colet ()))
Saída:
[Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17), linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28), linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34), linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54), linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67), linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54), linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34), linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28), linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
Conclusão
Neste artigo, discutimos como usar a função ASC () usando três cenários com as funções de Sort () e Orderby () no Pyspark Dataframe no Python. Finalmente, chegamos a um ponto em que podemos classificar os dados em ordem ascendente usando asc () e a ordem descendente usando desc () no quadro de dados Pyspark com base nas colunas presentes no DataFrame.