Introdução Pyspark

Introdução Pyspark
Os dados estão aumentando dia a dia. Precisamos de uma enorme quantidade de memória para armazenar e processar esses dados. Isso deve ser eficiente e fácil de gerenciar. Então a tecnologia de big data entrou em cena, fornecendo Spark.

Spark é uma poderosa ferramenta de processamento de dados usada para armazenar e processar dados de maneira eficaz e eficiente. Foi introduzido pela equipe do Apache e também é conhecido como Apache Spark.

Podemos relacionar os dados em um formato tabular. Portanto, a estrutura de dados usada é dataframe. De qualquer forma, o Spark suportará linguagens de programação Java, Scala e Python. Usaremos o Spark na linguagem de programação Python a partir de agora.

Podemos chamá -lo de pyspark. No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento usando dados de dados.

Instalação

Mas precisamos apenas instalar o Pyspark em nosso sistema. Para instalar qualquer módulo, temos que usar o comando pip no python. E a sintaxe é a seguinte.

Sintaxe:

pip install pyspark

Antes de usar este Pyspark, temos que importar este módulo em nossa organização, e nossos dados exigirão um aplicativo Spark. Então, vamos importar este módulo e criar um aplicativo.

Podemos criar um aplicativo usando o SparkSession importando esta classe do Pyspark.Módulo SQL.

Isso criará uma sessão para o nosso aplicativo.

Agora, crie um aplicativo Spark a partir desta sessão. Podemos criar um aplicativo Spark usando o método getorCreate ()

Sintaxe:

Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()

É hora de criar uma excelente estrutura de dados conhecida como DataFrame que armazena os dados fornecidos em formato de linha e coluna.

Em Pyspark, podemos criar um DataFrame do Spark App com o método CreateDataFrame ()

Sintaxe:

Spark_App.CreatedataFrame (input_data, colunas)

Onde input_data talvez seja um dicionário ou uma lista para criar um quadro de dados a partir desses dados e se o input_data for uma lista de dicionários, as colunas não precisam ser fornecidas; Se for uma lista aninhada, temos que fornecer os nomes das colunas.

Vamos criar o quadro de dados Pyspark

Código:

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()

Saída

No código acima, criamos o dicionário com 5 linhas e 6 colunas e passamos este dicionário para o método CreateDataFrame () para gerar o quadro de dados. Finalmente, estamos exibindo o DataFrame com o método show (). Este método exibirá o quadro de dados em um formato tabular.

Vamos exibir as colunas no Pyspark DataFrame.

Podemos obter os nomes das colunas em um formato de lista usando o método das colunas.

Sintaxe:

quadro de dados.colunas

Exemplo 2:

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# colunas de dados de dados
df.colunas

Saída:

['endereço', 'idade', 'altura', 'nome', 'rollno', 'peso']

Conclusão

Neste artigo, discutimos como criar o Pyspark Dataframe junto com a instalação e como podemos obter as colunas no quadro de dados. E usamos o método show () para exibir o quadro de dados em formato tabular.