Spark é uma poderosa ferramenta de processamento de dados usada para armazenar e processar dados de maneira eficaz e eficiente. Foi introduzido pela equipe do Apache e também é conhecido como Apache Spark.
Podemos relacionar os dados em um formato tabular. Portanto, a estrutura de dados usada é dataframe. De qualquer forma, o Spark suportará linguagens de programação Java, Scala e Python. Usaremos o Spark na linguagem de programação Python a partir de agora.
Podemos chamá -lo de pyspark. No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento usando dados de dados.
Instalação
Mas precisamos apenas instalar o Pyspark em nosso sistema. Para instalar qualquer módulo, temos que usar o comando pip no python. E a sintaxe é a seguinte.
Sintaxe:
pip install pysparkAntes de usar este Pyspark, temos que importar este módulo em nossa organização, e nossos dados exigirão um aplicativo Spark. Então, vamos importar este módulo e criar um aplicativo.
Podemos criar um aplicativo usando o SparkSession importando esta classe do Pyspark.Módulo SQL.
Isso criará uma sessão para o nosso aplicativo.
Agora, crie um aplicativo Spark a partir desta sessão. Podemos criar um aplicativo Spark usando o método getorCreate ()
Sintaxe:
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()É hora de criar uma excelente estrutura de dados conhecida como DataFrame que armazena os dados fornecidos em formato de linha e coluna.
Em Pyspark, podemos criar um DataFrame do Spark App com o método CreateDataFrame ()
Sintaxe:
Spark_App.CreatedataFrame (input_data, colunas)Onde input_data talvez seja um dicionário ou uma lista para criar um quadro de dados a partir desses dados e se o input_data for uma lista de dicionários, as colunas não precisam ser fornecidas; Se for uma lista aninhada, temos que fornecer os nomes das colunas.
Vamos criar o quadro de dados Pyspark
Código:
#import o módulo PysPaprkSaída
No código acima, criamos o dicionário com 5 linhas e 6 colunas e passamos este dicionário para o método CreateDataFrame () para gerar o quadro de dados. Finalmente, estamos exibindo o DataFrame com o método show (). Este método exibirá o quadro de dados em um formato tabular.
Vamos exibir as colunas no Pyspark DataFrame.
Podemos obter os nomes das colunas em um formato de lista usando o método das colunas.
Sintaxe:
quadro de dados.colunasExemplo 2:
#import o módulo PysPaprkSaída:
['endereço', 'idade', 'altura', 'nome', 'rollno', 'peso']Conclusão
Neste artigo, discutimos como criar o Pyspark Dataframe junto com a instalação e como podemos obter as colunas no quadro de dados. E usamos o método show () para exibir o quadro de dados em formato tabular.