Pyspark - Selecione Cláusula

Pyspark - Selecione Cláusula
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.

Selecionar () no Pyspark é usado para selecionar as colunas no DataFrame.

Podemos selecionar colunas de várias maneiras.

Vamos discutir um por um. Antes disso, temos que criar dados de dados Pyspark para demonstração.

Exemplo:

Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()

Saída:

Método -1: Usando nomes de colunas

Aqui, daremos nomes de colunas diretamente para selecionar () método. Este método retorna os dados presentes nessas colunas; Podemos dar várias colunas simultaneamente.

Sintaxe:

Quadro de dados.Selecione (“Column_name”,… .)

Exemplo:

Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibi -lo usando o método collect ()

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
df.Selecione ("Nome", "Endereço").colecionar ()

Saída:

[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]

Método -2: Usando nomes de colunas com dataframe

Aqui, daremos nomes de colunas com dataframe para selecionar () método. Este método retorna os dados presentes nessas colunas; Podemos dar várias colunas simultaneamente.

Sintaxe:

Quadro de dados.Selecione (DataFrame.nome da coluna,… .)

Exemplo:

Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibi -lo usando o método collect ()

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
df.Selecione (df.nome, df.endereço).colecionar ()

Saída:

[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]

Método -3: Usando [] operador

Aqui, daremos aos nomes das colunas dentro do operador [] com dataframe para selecionar () método. Este método retorna os dados presentes nessas colunas; Podemos dar várias colunas simultaneamente.

Sintaxe:

Quadro de dados.Selecione (DataFrame.nome da coluna,… .)

Exemplo:

Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibi -lo usando o método collect ()

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
df.Selecione (df ["nome"], df ["endereço"]).colecionar ()

Saída:

[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]

Método -4: Usando a função Col

Aqui, daremos nomes de colunas dentro da função col para selecionar () método. Esta função está disponível no Pyspark.As funções SQL, que retornam os dados presentes nessas colunas; Podemos dar várias colunas de cada vez dentro do método select ().Sintaxe:

Quadro de dados.Selecione (col ("column_name"),… .)

Exemplo:

Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibir usando o método collect ()

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
#com função col
df.Selecione (col ("nome"), col ("endereço"))).colecionar ()

Saída:

[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]

Conclusão

Neste artigo, discutimos como selecionar os dados do DataFrame e discutimos 4 maneiras de selecionar os dados usando nomes de colunas com o método collect ().