A estrutura de dados do Spark é baseada no RDD (sigla do conjunto de dados distribuído resiliente); RDD consiste em uma coleção distribuída imutável de objetos; Esses conjuntos de dados podem conter qualquer tipo de objetos relacionados a Python, Java, Scala e também podem conter as classes definidas pelo usuário. O amplo uso do Apache-Spark é por causa de seu mecanismo de trabalho que ele segue:
O Apache Spark trabalha sobre fenômenos de mestre e escravo; Seguindo esse padrão, um coordenador central em Spark é conhecido como “motorista”(Atos como mestre) e seus trabalhadores distribuídos são nomeados como“ executores ”(atua como escravo). E o terceiro componente principal do Spark é “Gerenciador de clusters”; Como o nome indica que é um gerente que gerencia executores e drivers. Os executores são lançados por “Gerenciador de clusters”E, em alguns casos. Por fim, o gerente interno do Spark é responsável por lançar qualquer aplicativo Spark nas máquinas: o Apache-Spark consiste em vários recursos notáveis necessários para discutir aqui para destacar o fato de que eles são usados no grande processamento de dados? Portanto, os recursos do Apache-Spark estão descritos abaixo:
Características
Aqui estão alguns recursos distintos que tornam o Apache-Spark uma escolha melhor do que seus concorrentes:
Velocidade: Como discutido acima, ele usa o DAG Scheduler (agenda os trabalhos e determina o local adequado para cada tarefa), execução de consultas e bibliotecas de suporte para executar qualquer tarefa de maneira eficaz e rápida.
Suporte de Multi Linguagem:.
Processamento em tempo real: Em vez de processar dados armazenados, os usuários podem obter o processamento dos resultados pelo processamento em tempo real dos dados e, portanto, produz resultados instantâneos.
Melhor análise: Para análises, o Spark usa uma variedade de bibliotecas para fornecer análises como algoritmos de aprendizado de máquina, consultas SQL etc. No entanto, seu concorrente Apache-Mapreduce usa apenas o mapa e reduz as funções para fornecer análises; Esta diferenciação analítica também indica por que o Spark supera o MapReduce.
Focar a importância e as características incríveis do Apache Spark; Nossa escrita de hoje abrirá o caminho para você instalar o Apache Spark no seu Ubuntu
Como instalar o Apache Spark no Ubuntu
Esta seção o guiará a instalar o Apache Spark no Ubuntu:
Etapa 1: atualize o sistema e instale Java
Antes de obter informações sobre a parte central da instalação; Vamos atualizar o sistema usando o comando mencionado abaixo:
$ sudo apt update
Após a atualização, o comando escrito abaixo instalará o ambiente Java, pois o Apache-Spark é um aplicativo baseado em Java:
$ sudo apt install default-jdk
Etapa 2: Faça o download do arquivo Apache Spark e extraia
Depois que o Java for instalado com sucesso, você estará pronto para baixar o arquivo Apache Spark da Web e o seguinte comando baixará os últimos 3.0.3 construção de faísca:
$ wget https: // arquivo.apache.org/dist/spark/spark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ
Você deve extrair o arquivo baixado; O comando a seguir executará a extração (no meu caso):
$ tar xvf Spark-3.0.3-bin-hadoop2.7.TGZ
Depois disso, mova a pasta extraída para “//optar/”Diretório seguindo o comando abaixo mencionado:
$ sudo MV Spark-3.0.3-bin-hadoop2.7//Opt/Spark
Depois de concluir os processos acima, isso significa que você terminou com o download do Apache Spark, mas espere; Não funcionará até você configurar o Spark Environment, as próximas seções o guiarão a configurar e usar o Spark:
Como configurar o ambiente de faísca
Para isso, você deve definir algumas variáveis de ambiente no arquivo de configuração “~/.perfil”;
Acesse este arquivo usando seu editor (Nano no meu caso), o comando escrito abaixo abrirá este arquivo no Nano Editor:
$ sudo nano ~//.perfil
E escreva as seguintes linhas no final deste arquivo; Depois de terminar, pressione “Ctrl+s”Para salvar o arquivo:
exportar Spark_home =/Opt/Spark
Caminho de exportação = $ PATH: $ Spark_home/bin: $ Spark_home/sbin
exportar pyspark_python =/usr/bin/python3
Carregue o arquivo para obter as alterações para o ambiente do Spark:
$ fonte ~//.perfil
Como iniciar o servidor mestre independente do Spark
Uma vez que as variáveis de ambiente estiverem definidas; Agora você pode iniciar o processo de servidor mestre independente usando o comando escrito abaixo:
$ start-mestre.sh
Depois de iniciar o processo; A interface da web do servidor mestre pode ser buscada usando o endereço mencionado abaixo; Escreva o seguinte endereço na barra de endereço do seu navegador
https: // localhost: 8080/
Como iniciar o servidor de escravos/trabalhadores de faísca
O servidor escravo pode ser iniciado usando o comando declarado abaixo: percebe -se que você precisa de URL do servidor mestre para iniciar o trabalhador:
$ Start-Slave.SH Spark: // Adnan: 7077
Depois de começar; Execute o endereço (https: // localhost: 8080) e você notará que há um trabalhador adicionado em “Trabalhadores" seção. Percebe -se que o trabalhador está usando o núcleo "1" do processador e 3.3 GB de RAM por padrão:
Por exemplo, limitaremos o número de núcleos dos trabalhadores usando o sinalizador "-C": por exemplo, o comando mencionado abaixo iniciará um servidor com núcleos "0" do uso do processador:
$ Start-Slave.sh -c 0 Spark: // adnan: 7077
Você pode ver as alterações recarregando a página (https: // localhost: 8080/):
Além disso, você pode limitar a memória dos novos trabalhadores também usando “-mSinalizador: o comando escrito abaixo iniciará um escravo com uso de memória de 256 MB:
$ Start-Slave.sh -m 256m Spark: // adnan: 7077
O trabalhador adicionado com memória limitada é visível na interface da web (https: // localhost: 8080/):
Como iniciar/parar o mestre e escravo
Você pode parar ou estrelar mestre e escravo imediatamente usando o comando mencionado abaixo:
$ Start-All.sh
Da mesma forma, o comando declarado abaixo interromperá todas as instâncias de uma só vez:
$ Stop-All.sh
Para iniciar e interromper apenas a instância mestre, use os seguintes comandos:
$ start-mestre.sh
E para parar o mestre em execução:
$ stop-mestre.sh
Como executar Spark Shell
Depois de terminar a configuração do ambiente de faísca; Você pode usar o comando mencionado abaixo para executar o slok shell; Por isso, também é testado:
$ Spark-shell
Como correr python em spark shell
Se o Spark Shell estiver em execução no seu sistema, você poderá executar o Python nesse ambiente; Execute o seguinte comando para obter o seguinte:
$ pyspark
Observação: O comando acima não funcionará se você estiver trabalhando com Scala (linguagem padrão no slok shell), você pode sair disso digitando “: q"E pressionando"Digitar"Ou apenas pressione"Ctrl+c”.
Conclusão
O Apache Spark é um mecanismo de análise unificado de código aberto usado para processamento de big data usando várias bibliotecas e principalmente usado por engenheiros de dados e outros que precisam trabalhar em enormes quantidades de dados. Neste artigo, fornecemos um guia de instalação do Apache-Spark; bem como a configuração do ambiente de faísca também é descrito em detalhes. A adição de trabalhadores com números limitados ou núcleos e memória especificada seria útil para economizar recursos enquanto trabalhava com Spark.