No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.
Selecionar () no Pyspark é usado para selecionar as colunas no DataFrame.
Podemos selecionar colunas de várias maneiras.
Vamos discutir um por um. Antes disso, temos que criar dados de dados Pyspark para demonstração.
Exemplo:
Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().
#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()
Saída:
Método -1: Usando nomes de colunas
Aqui, daremos nomes de colunas diretamente para selecionar () método. Este método retorna os dados presentes nessas colunas; Podemos dar várias colunas simultaneamente.
Sintaxe:
Quadro de dados.Selecione (“Column_name”,… .)
Exemplo:
Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibi -lo usando o método collect ()
#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
df.Selecione ("Nome", "Endereço").colecionar ()
Saída:
[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]
Método -2: Usando nomes de colunas com dataframe
Aqui, daremos nomes de colunas com dataframe para selecionar () método. Este método retorna os dados presentes nessas colunas; Podemos dar várias colunas simultaneamente.
Sintaxe:
Quadro de dados.Selecione (DataFrame.nome da coluna,… .)
Exemplo:
Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibi -lo usando o método collect ()
#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
df.Selecione (df.nome, df.endereço).colecionar ()
Saída:
[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]
Método -3: Usando [] operador
Aqui, daremos aos nomes das colunas dentro do operador [] com dataframe para selecionar () método. Este método retorna os dados presentes nessas colunas; Podemos dar várias colunas simultaneamente.
Sintaxe:
Quadro de dados.Selecione (DataFrame.nome da coluna,… .)
Exemplo:
Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibi -lo usando o método collect ()
#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
df.Selecione (df ["nome"], df ["endereço"]).colecionar ()
Saída:
[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]
Método -4: Usando a função Col
Aqui, daremos nomes de colunas dentro da função col para selecionar () método. Esta função está disponível no Pyspark.As funções SQL, que retornam os dados presentes nessas colunas; Podemos dar várias colunas de cada vez dentro do método select ().Sintaxe:
Quadro de dados.Selecione (col ("column_name"),… .)
Exemplo:
Neste exemplo, vamos selecionar o nome e a coluna de endereço no Pyspark DataFrame e exibir usando o método collect ()
#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display Nome e colunas de endereço
#com função col
df.Selecione (col ("nome"), col ("endereço"))).colecionar ()
Saída:
[Linha (nome = 'sravan', endereço = 'guntur'),
Linha (nome = 'ojaswi', endereço = 'hyd'),
Linha (nome = 'gnanesh Chowdary', endereço = 'patna'),
Linha (nome = 'rohith', endereço = 'hyd'),
Linha (nome = 'sridevi', endereço = 'hyd')]]
Conclusão
Neste artigo, discutimos como selecionar os dados do DataFrame e discutimos 4 maneiras de selecionar os dados usando nomes de colunas com o método collect ().