Instalando o Apache Spark no Ubuntu

Apache-Spark é uma estrutura de código aberto para processamento de big data, usado por cientistas e engenheiros profissionais de dados para executar ações em grandes quantidades de dados. Como o processamento de grandes quantidades de dados precisa de processamento rápido, a máquina/pacote de processamento deve ser eficiente para fazê -lo. O Spark usa o DAG Scheduler, o cache de memória e a execução de consultas para processar os dados o mais rápido possível e, portanto, para grande manuseio de dados.

A estrutura de dados do Spark é baseada no RDD (sigla do conjunto de dados distribuído resiliente); RDD consiste em uma coleção distribuída imutável de objetos; Esses conjuntos de dados podem conter qualquer tipo de objetos relacionados a Python, Java, Scala e também podem conter as classes definidas pelo usuário. O amplo uso do Apache-Spark é por causa de seu mecanismo de trabalho que ele segue:

O Apache Spark trabalha sobre fenômenos de mestre e escravo; Seguindo esse padrão, um coordenador central em Spark é conhecido como “motorista”(Atos como mestre) e seus trabalhadores distribuídos são nomeados como“ executores ”(atua como escravo). E o terceiro componente principal do Spark é “Gerenciador de clusters”; Como o nome indica que é um gerente que gerencia executores e drivers. Os executores são lançados por “Gerenciador de clusters”E, em alguns casos. Por fim, o gerente interno do Spark é responsável por lançar qualquer aplicativo Spark nas máquinas: o Apache-Spark consiste em vários recursos notáveis necessários para discutir aqui para destacar o fato de que eles são usados no grande processamento de dados? Portanto, os recursos do Apache-Spark estão descritos abaixo:

Características

Aqui estão alguns recursos distintos que tornam o Apache-Spark uma escolha melhor do que seus concorrentes:

Velocidade: Como discutido acima, ele usa o DAG Scheduler (agenda os trabalhos e determina o local adequado para cada tarefa), execução de consultas e bibliotecas de suporte para executar qualquer tarefa de maneira eficaz e rápida.

Suporte de Multi Linguagem:.

Processamento em tempo real: Em vez de processar dados armazenados, os usuários podem obter o processamento dos resultados pelo processamento em tempo real dos dados e, portanto, produz resultados instantâneos.

Melhor análise: Para análises, o Spark usa uma variedade de bibliotecas para fornecer análises como algoritmos de aprendizado de máquina, consultas SQL etc. No entanto, seu concorrente Apache-Mapreduce usa apenas o mapa e reduz as funções para fornecer análises; Esta diferenciação analítica também indica por que o Spark supera o MapReduce.

Focar a importância e as características incríveis do Apache Spark; Nossa escrita de hoje abrirá o caminho para você instalar o Apache Spark no seu Ubuntu

Como instalar o Apache Spark no Ubuntu

Esta seção o guiará a instalar o Apache Spark no Ubuntu:

Etapa 1: atualize o sistema e instale Java

Antes de obter informações sobre a parte central da instalação; Vamos atualizar o sistema usando o comando mencionado abaixo:

$ sudo apt update

Após a atualização, o comando escrito abaixo instalará o ambiente Java, pois o Apache-Spark é um aplicativo baseado em Java:

$ sudo apt install default-jdk

Etapa 2: Faça o download do arquivo Apache Spark e extraia

Depois que o Java for instalado com sucesso, você estará pronto para baixar o arquivo Apache Spark da Web e o seguinte comando baixará os últimos 3.0.3 construção de faísca:

$ wget https: // arquivo.apache.org/dist/spark/spark-3.0.3/Spark-3.0.3-bin-hadoop2.7.TGZ

Você deve extrair o arquivo baixado; O comando a seguir executará a extração (no meu caso):

$ tar xvf Spark-3.0.3-bin-hadoop2.7.TGZ

Depois disso, mova a pasta extraída para “//optar/”Diretório seguindo o comando abaixo mencionado:

$ sudo MV Spark-3.0.3-bin-hadoop2.7//Opt/Spark

Depois de concluir os processos acima, isso significa que você terminou com o download do Apache Spark, mas espere; Não funcionará até você configurar o Spark Environment, as próximas seções o guiarão a configurar e usar o Spark:

Como configurar o ambiente de faísca

Para isso, você deve definir algumas variáveis de ambiente no arquivo de configuração “~/.perfil”;

Acesse este arquivo usando seu editor (Nano no meu caso), o comando escrito abaixo abrirá este arquivo no Nano Editor:

$ sudo nano ~//.perfil

E escreva as seguintes linhas no final deste arquivo; Depois de terminar, pressione “Ctrl+s”Para salvar o arquivo:

exportar Spark_home =/Opt/Spark
Caminho de exportação = $ PATH: $ Spark_home/bin: $ Spark_home/sbin
exportar pyspark_python =/usr/bin/python3

Carregue o arquivo para obter as alterações para o ambiente do Spark:

$ fonte ~//.perfil

Como iniciar o servidor mestre independente do Spark

Uma vez que as variáveis de ambiente estiverem definidas; Agora você pode iniciar o processo de servidor mestre independente usando o comando escrito abaixo:

$ start-mestre.sh

Depois de iniciar o processo; A interface da web do servidor mestre pode ser buscada usando o endereço mencionado abaixo; Escreva o seguinte endereço na barra de endereço do seu navegador

https: // localhost: 8080/

Como iniciar o servidor de escravos/trabalhadores de faísca

O servidor escravo pode ser iniciado usando o comando declarado abaixo: percebe -se que você precisa de URL do servidor mestre para iniciar o trabalhador:

$ Start-Slave.SH Spark: // Adnan: 7077

Depois de começar; Execute o endereço (https: // localhost: 8080) e você notará que há um trabalhador adicionado em “Trabalhadores" seção. Percebe -se que o trabalhador está usando o núcleo "1" do processador e 3.3 GB de RAM por padrão:

Por exemplo, limitaremos o número de núcleos dos trabalhadores usando o sinalizador "-C": por exemplo, o comando mencionado abaixo iniciará um servidor com núcleos "0" do uso do processador:

$ Start-Slave.sh -c 0 Spark: // adnan: 7077

Você pode ver as alterações recarregando a página (https: // localhost: 8080/):

Além disso, você pode limitar a memória dos novos trabalhadores também usando “-mSinalizador: o comando escrito abaixo iniciará um escravo com uso de memória de 256 MB:

$ Start-Slave.sh -m 256m Spark: // adnan: 7077

O trabalhador adicionado com memória limitada é visível na interface da web (https: // localhost: 8080/):

Como iniciar/parar o mestre e escravo

Você pode parar ou estrelar mestre e escravo imediatamente usando o comando mencionado abaixo:

$ Start-All.sh

Da mesma forma, o comando declarado abaixo interromperá todas as instâncias de uma só vez:

$ Stop-All.sh

Para iniciar e interromper apenas a instância mestre, use os seguintes comandos:

$ start-mestre.sh

E para parar o mestre em execução:

$ stop-mestre.sh

Como executar Spark Shell

Depois de terminar a configuração do ambiente de faísca; Você pode usar o comando mencionado abaixo para executar o slok shell; Por isso, também é testado:

$ Spark-shell

Como correr python em spark shell

Se o Spark Shell estiver em execução no seu sistema, você poderá executar o Python nesse ambiente; Execute o seguinte comando para obter o seguinte:

$ pyspark

Observação: O comando acima não funcionará se você estiver trabalhando com Scala (linguagem padrão no slok shell), você pode sair disso digitando “: q"E pressionando"Digitar"Ou apenas pressione"Ctrl+c”.

Conclusão

O Apache Spark é um mecanismo de análise unificado de código aberto usado para processamento de big data usando várias bibliotecas e principalmente usado por engenheiros de dados e outros que precisam trabalhar em enormes quantidades de dados. Neste artigo, fornecemos um guia de instalação do Apache-Spark; bem como a configuração do ambiente de faísca também é descrito em detalhes. A adição de trabalhadores com números limitados ou núcleos e memória especificada seria útil para economizar recursos enquanto trabalhava com Spark.

Pitão

Como faço para verificar se uma string está vazia em python

Operador “não”, função “len ()”, função “strip ()”, “==” operador, “__eq __ ()” método, ou “não + st...

Marlon Bernhard

Docker

O que é o Docker Bind Mounds?

Uma montagem de ligação do Docker é um tipo de montagem que permite aos usuários mapear um diretório...

Salvatore Watsica

Banco de dados Oracle

O Oracle Fusion considerado melhor que o SAP?

O Oracle Fusion (ERP baseado em nuvem) possui uma interface amigável, enquanto o SAP (nuvem e o loca...

Rickey Greenholt