Instalando o Apache Spark no Ubuntu

Instalando o Apache Spark no Ubuntu
Apache-Spark é uma estrutura de código aberto para processamento de big data, usado por cientistas e engenheiros profissionais de dados para executar ações em grandes quantidades de dados. Como o processamento de grandes quantidades de dados precisa de processamento rápido, a máquina/pacote de processamento deve ser eficiente para fazê -lo. O Spark usa o DAG Scheduler, o cache de memória e a execução de consultas para processar os dados o mais rápido possível e, portanto, para grande manuseio de dados.

A estrutura de dados do Spark é baseada no RDD (sigla do conjunto de dados distribuído resiliente); RDD consiste em uma coleção distribuída imutável de objetos; Esses conjuntos de dados podem conter qualquer tipo de objetos relacionados a Python, Java, Scala e também podem conter as classes definidas pelo usuário. O amplo uso do Apache-Spark é por causa de seu mecanismo de trabalho que ele segue:

O Apache Spark trabalha sobre fenômenos de mestre e escravo; Seguindo esse padrão, um coordenador central em Spark é conhecido como “motorista”(Atos como mestre) e seus trabalhadores distribuídos são nomeados como“ executores ”(atua como escravo). E o terceiro componente principal do Spark é “Gerenciador de clusters”; Como o nome indica que é um gerente que gerencia executores e drivers. Os executores são lançados por “Gerenciador de clusters”E, em alguns casos. Por fim, o gerente interno do Spark é responsável por lançar qualquer aplicativo Spark nas máquinas: o Apache-Spark consiste em vários recursos notáveis ​​necessários para discutir aqui para destacar o fato de que eles são usados ​​no grande processamento de dados? Portanto, os recursos do Apache-Spark estão descritos abaixo:

Características

Aqui estão alguns recursos distintos que tornam o Apache-Spark uma escolha melhor do que seus concorrentes:

Velocidade: Como discutido acima, ele usa o DAG Scheduler (agenda os trabalhos e determina o local adequado para cada tarefa), execução de consultas e bibliotecas de suporte para executar qualquer tarefa de maneira eficaz e rápida.

Suporte de Multi Linguagem:.

Processamento em tempo real: Em vez de processar dados armazenados, os usuários podem obter o processamento dos resultados pelo processamento em tempo real dos dados e, portanto, produz resultados instantâneos.

Melhor análise: Para análises, o Spark usa uma variedade de bibliotecas para fornecer análises como algoritmos de aprendizado de máquina, consultas SQL etc. No entanto, seu concorrente Apache-Mapreduce usa apenas o mapa e reduz as funções para fornecer análises; Esta diferenciação analítica também indica por que o Spark supera o MapReduce.

Focar a importância e as características incríveis do Apache Spark; Nossa escrita de hoje abrirá o caminho para você instalar o Apache Spark no seu Ubuntu

Como instalar o Apache Spark no Ubuntu

Esta seção o guiará a instalar o Apache Spark no Ubuntu:

Etapa 1: atualize o sistema e instale Java

Antes de obter informações sobre a parte central da instalação; Vamos atualizar o sistema usando o comando mencionado abaixo:

$ sudo apt update

Após a atualização, o comando escrito abaixo instalará o ambiente Java, pois o Apache-Spark é um aplicativo baseado em Java:

$ sudo apt install default-jdk

Etapa 2: Faça o download do arquivo Apache Spark e extraia

Depois que o Java for instalado com sucesso, você estará pronto para baixar o arquivo Apache Spark da Web e o seguinte comando baixará os últimos 3.0.3 construção de faísca:

$ wget https: // arquivo.apache.org/dist/spark/spark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ

Você deve extrair o arquivo baixado; O comando a seguir executará a extração (no meu caso):

$ tar xvf Spark-3.0.3-bin-hadoop2.7.TGZ

Depois disso, mova a pasta extraída para “//optar/”Diretório seguindo o comando abaixo mencionado:

$ sudo MV Spark-3.0.3-bin-hadoop2.7//Opt/Spark

Depois de concluir os processos acima, isso significa que você terminou com o download do Apache Spark, mas espere; Não funcionará até você configurar o Spark Environment, as próximas seções o guiarão a configurar e usar o Spark:

Como configurar o ambiente de faísca

Para isso, você deve definir algumas variáveis ​​de ambiente no arquivo de configuração “~/.perfil”;

Acesse este arquivo usando seu editor (Nano no meu caso), o comando escrito abaixo abrirá este arquivo no Nano Editor:

$ sudo nano ~//.perfil

E escreva as seguintes linhas no final deste arquivo; Depois de terminar, pressione “Ctrl+s”Para salvar o arquivo:

exportar Spark_home =/Opt/Spark
Caminho de exportação = $ PATH: $ Spark_home/bin: $ Spark_home/sbin
exportar pyspark_python =/usr/bin/python3

Carregue o arquivo para obter as alterações para o ambiente do Spark:

$ fonte ~//.perfil

Como iniciar o servidor mestre independente do Spark

Uma vez que as variáveis ​​de ambiente estiverem definidas; Agora você pode iniciar o processo de servidor mestre independente usando o comando escrito abaixo:

$ start-mestre.sh

Depois de iniciar o processo; A interface da web do servidor mestre pode ser buscada usando o endereço mencionado abaixo; Escreva o seguinte endereço na barra de endereço do seu navegador

https: // localhost: 8080/

Como iniciar o servidor de escravos/trabalhadores de faísca

O servidor escravo pode ser iniciado usando o comando declarado abaixo: percebe -se que você precisa de URL do servidor mestre para iniciar o trabalhador:

$ Start-Slave.SH Spark: // Adnan: 7077

Depois de começar; Execute o endereço (https: // localhost: 8080) e você notará que há um trabalhador adicionado em “Trabalhadores" seção. Percebe -se que o trabalhador está usando o núcleo "1" do processador e 3.3 GB de RAM por padrão:

Por exemplo, limitaremos o número de núcleos dos trabalhadores usando o sinalizador "-C": por exemplo, o comando mencionado abaixo iniciará um servidor com núcleos "0" do uso do processador:

$ Start-Slave.sh -c 0 Spark: // adnan: 7077

Você pode ver as alterações recarregando a página (https: // localhost: 8080/):

Além disso, você pode limitar a memória dos novos trabalhadores também usando “-mSinalizador: o comando escrito abaixo iniciará um escravo com uso de memória de 256 MB:

$ Start-Slave.sh -m 256m Spark: // adnan: 7077

O trabalhador adicionado com memória limitada é visível na interface da web (https: // localhost: 8080/):

Como iniciar/parar o mestre e escravo

Você pode parar ou estrelar mestre e escravo imediatamente usando o comando mencionado abaixo:

$ Start-All.sh

Da mesma forma, o comando declarado abaixo interromperá todas as instâncias de uma só vez:

$ Stop-All.sh

Para iniciar e interromper apenas a instância mestre, use os seguintes comandos:

$ start-mestre.sh

E para parar o mestre em execução:

$ stop-mestre.sh

Como executar Spark Shell

Depois de terminar a configuração do ambiente de faísca; Você pode usar o comando mencionado abaixo para executar o slok shell; Por isso, também é testado:

$ Spark-shell

Como correr python em spark shell

Se o Spark Shell estiver em execução no seu sistema, você poderá executar o Python nesse ambiente; Execute o seguinte comando para obter o seguinte:

$ pyspark

Observação: O comando acima não funcionará se você estiver trabalhando com Scala (linguagem padrão no slok shell), você pode sair disso digitando “: q"E pressionando"Digitar"Ou apenas pressione"Ctrl+c”.

Conclusão

O Apache Spark é um mecanismo de análise unificado de código aberto usado para processamento de big data usando várias bibliotecas e principalmente usado por engenheiros de dados e outros que precisam trabalhar em enormes quantidades de dados. Neste artigo, fornecemos um guia de instalação do Apache-Spark; bem como a configuração do ambiente de faísca também é descrito em detalhes. A adição de trabalhadores com números limitados ou núcleos e memória especificada seria útil para economizar recursos enquanto trabalhava com Spark.