Instale o Apache Spark no Windows Top 10

Instale o Apache Spark no Windows Top 10
Ao trabalhar com dados de programação, geralmente é bastante difícil para os desenvolvedores da Web processar uma quantidade tão grande de dados. Junto com isso, às vezes você tende a trabalhar em diferentes linguagens de programação simultaneamente para projetar seu sistema. Em tais situações, você pode ter que passar por uma imensa quantidade de código e processá -lo. Portanto, precisamos de um sistema para processar nossa carga de trabalho sem passar por todo o processo de todo o sistema. Apache Spark nos oferece a oportunidade de trabalhar com muitos idiomas de cada vez, como java, r, python e scala. Além disso, oculta o processamento complexo e nos permite trabalhar com menos códigos. Este guia o ajudará a instalar o tubarão Apache no Windows 11.

Instale Java:

Começando com o lançamento do seu navegador mais usado, faça o download e instale a versão mais recente do Java. Para isso, procure o site oficial “Java” e rota para sua página de download. Na página abaixo, faça o download da versão mais recente do Java, de acordo com as especificações do seu sistema.

Execute o arquivo "jre" baixado usando a opção "Executar como administrador". Depois de executar este arquivo "jre" baixado, você receberá uma nova janela mostrada abaixo. Você deve concordar com o contrato de licença de Java para instalá -lo. Então, toque no botão "Instalar" para continuar.

A configuração de instalação do Java começará a instalá -lo em nosso sistema operacional Windows 11.

Depois que a instalação do Java está concluída, pressione o botão "Fechar" para fechar a janela.

Ao verificar a versão do Java no prompt de comando, você verá a versão do Java instalada em nosso sistema na primeira linha da saída de comando “-version”.

Instale o Python:

É hora de instalar a versão mais recente do Python em nosso sistema operacional Windows 11. Sem Python, nossa faísca Apache pode não funcionar. Portanto, vá para o site oficial do Python usando seu navegador e navegue na página de download. Você será mostrado o mais recente lançamento do Python. Toque no link recomendado para baixá -lo no seu sistema, eu.E, Windows 11.

Execute o arquivo exe "Python" baixado e aguarde até começar a progressão da instalação.

A janela de instalação do Python apareceria, mostrando -nos as informações sobre sua instalação. Você precisa usar a opção "Instalar agora" das opções disponíveis. Não marque o “Adicionar Python 3.20 To Path ”Caixa de seleção. A instalação seria iniciada depois disso.

Depois de um tempo, o Python será instalado com sucesso e você poderá fechar a janela de instalação mostrada abaixo usando o botão "Fechar" na parte inferior direita.

Usando o comando da versão para python no prompt de comando, você verá a versão instalada do python, i i.e., Python 3.10.6.

Baixar Spark:

Após as instalações bem -sucedidas de Java e Python, nosso sistema agora está pronto para instalar o Spark. Para isso, faça o download de seu site oficial primeiro. Certifique-se de selecionar a versão mais recente e a opção “pré-criada para o Apache Hadoop 3.3 e altere ”da lista suspensa e clique único no arquivo“ TGZ ”na frente da terceira linha, eu.e., "Download Spark".

Você será redirecionado para outra página, onde poderá selecionar o arquivo espelho para Spark conforme sua escolha. Recomendamos que você use o primeiro link fornecido na imagem abaixo.

Agora que o arquivo Spark "TGZ" foi baixado, é hora de usá -lo para instalação.

Verifique o arquivo Spark:

Para verificar a confiabilidade do seu software baixado, você precisa utilizar o comando Certutil mostrado-Below. Ele garantirá a integridade do arquivo usando sua soma de verificação da opção "Summas de verificação" na linha 4 da página de download. Você precisa fornecer o caminho do seu arquivo neste comando com a opção "-Hashfile". A saída exibe sua soma de verificação junto com a mensagem de conclusão bem -sucedida para este comando. Você pode confirmar isso visitando a página de download.

Instale o Apache Spark:

Depois disso, você precisa criar uma nova pasta para uma faísca em sua pasta raiz, onde você tende a instalar o sistema operacional e outras pessoas também, eu.e., "C" Drive. Então, use a instrução "mkdir" para criar uma pasta "Spark" dentro dela.

Agora, abra sua unidade C e navegue dentro da pasta "Spark". Você precisa extrair o arquivo zip "Spark" baixado, como mostrado na imagem.

Adicione os winutils.arquivo exe:

Abra a página do Github usando o "Path" da imagem abaixo e toque em "Winutils.exe". Outra tela apareceria, e você precisa bater o botão "Download" para obtê -lo.

Você deve criar a pasta "Hadoop" na unidade "C" e criar uma pasta "bin" nela através da consulta Mkdir.

Coloque o baixado “Winutils.Arquivo EXE "dentro da pasta recém -criada" Hadoop \ bin ".

Configure variáveis ​​de ambiente para Spark:

É hora de adicionar Spark, Hadoop e Java às nossas variáveis ​​de ambiente. Portanto, procure a palavra -chave "ambiente" na barra de pesquisa e toque na ferramenta "Editar as variáveis ​​do ambiente do sistema" que apenas apareceu na tela.

A janela chamada "Propriedades do sistema" será aberta na sua tela. Na seção abaixo, pressione o botão “Variáveis ​​de ambiente…” para prosseguir.

Você pode ver todas as suas variáveis ​​de sistema listadas lá. Toque no botão "novo" para gerar um novo ambiente mutável para "Spark" primeiro.

Uma caixa de diálogo com "Editar Variável do Usuário" aparecerá em um momento e você deve nomear uma variável "Spark_home" com o caminho da pasta Spark como o valor variável, I.e., “C: \ Spark \ Spark-3.3.0-bin-hadoop3 ”. Clicar no botão "OK" definirá uma nova variável de ambiente em um sistema.

Você verá uma variável chamada "Spark_home" na seção Variáveis ​​do usuário. Toque na variável denominada "Path" e esmaga o botão "Editar".

Uma tela “Variável do ambiente de edição” será aberta. Aperte o botão "novo" para adicionar o caminho da variável. Considere usar o nome da variável %spark_home %”com a pasta“ \ bin ”.

Da mesma forma, crie uma nova variável para "Hadoop".

Em seguida, crie uma nova variável para "Java" também e toque em "OK".

Da mesma maneira, toque na variável "Path" e adicione um caminho para as variáveis ​​"java" e "hadoop" que acabamos de criar eu.e. Usando o "%hadoop_home%" e "%java_home%" nomes com a pasta "\ bin", conforme exibido na tela abaixo.

Agora, inicie seu aplicativo "CMD" como "Administrador" através do uso da escolha "Run como administrador". Adicione o caminho de comando abaixo da balança em sua área de consulta com a "Sparkshell" para ver se a faísca está configurada com sucesso ou não. Uma nova janela de fluxo de informação será aberta e você precisa usar o botão "Permitir" para dar acesso. Se o seu prompt de comando mostrar o logotipo do design "Spark" junto com a versão instalada, o Spark será totalmente configurado e pronto para uso.

C: \ Spark \ Spark-3.3.0-bin-hadoop3 \ bin \ Sparkshell

Abra seu navegador preferido e entre no caminho “Localhost: 4040/Jobs/”. A interface do usuário da Web do Apache Spark aparecerá, exibindo o resumo dos eventos do seu sistema.

Conclusão:

Depois de passar por este guia, você poderá usar o Apache Spark no seu sistema operacional Windows 11, pois implementamos todas as configurações necessárias para configurar o Apache Spark. Para garantir que seu Apache Spark funcione bem no final, você não deve deixar uma única etapa mencionada acima no guia, começando a instalar Java, Python, Spark, adicionando os winutils.arquivo exe e a parte mais importante da definição das variáveis ​​de ambiente.