Instale Java:
Começando com o lançamento do seu navegador mais usado, faça o download e instale a versão mais recente do Java. Para isso, procure o site oficial “Java” e rota para sua página de download. Na página abaixo, faça o download da versão mais recente do Java, de acordo com as especificações do seu sistema.
Execute o arquivo "jre" baixado usando a opção "Executar como administrador". Depois de executar este arquivo "jre" baixado, você receberá uma nova janela mostrada abaixo. Você deve concordar com o contrato de licença de Java para instalá -lo. Então, toque no botão "Instalar" para continuar.
A configuração de instalação do Java começará a instalá -lo em nosso sistema operacional Windows 11.
Depois que a instalação do Java está concluída, pressione o botão "Fechar" para fechar a janela.
Ao verificar a versão do Java no prompt de comando, você verá a versão do Java instalada em nosso sistema na primeira linha da saída de comando “-version”.
Instale o Python:
É hora de instalar a versão mais recente do Python em nosso sistema operacional Windows 11. Sem Python, nossa faísca Apache pode não funcionar. Portanto, vá para o site oficial do Python usando seu navegador e navegue na página de download. Você será mostrado o mais recente lançamento do Python. Toque no link recomendado para baixá -lo no seu sistema, eu.E, Windows 11.
Execute o arquivo exe "Python" baixado e aguarde até começar a progressão da instalação.
A janela de instalação do Python apareceria, mostrando -nos as informações sobre sua instalação. Você precisa usar a opção "Instalar agora" das opções disponíveis. Não marque o “Adicionar Python 3.20 To Path ”Caixa de seleção. A instalação seria iniciada depois disso.
Depois de um tempo, o Python será instalado com sucesso e você poderá fechar a janela de instalação mostrada abaixo usando o botão "Fechar" na parte inferior direita.
Usando o comando da versão para python no prompt de comando, você verá a versão instalada do python, i i.e., Python 3.10.6.
Baixar Spark:
Após as instalações bem -sucedidas de Java e Python, nosso sistema agora está pronto para instalar o Spark. Para isso, faça o download de seu site oficial primeiro. Certifique-se de selecionar a versão mais recente e a opção “pré-criada para o Apache Hadoop 3.3 e altere ”da lista suspensa e clique único no arquivo“ TGZ ”na frente da terceira linha, eu.e., "Download Spark".
Você será redirecionado para outra página, onde poderá selecionar o arquivo espelho para Spark conforme sua escolha. Recomendamos que você use o primeiro link fornecido na imagem abaixo.
Agora que o arquivo Spark "TGZ" foi baixado, é hora de usá -lo para instalação.
Verifique o arquivo Spark:
Para verificar a confiabilidade do seu software baixado, você precisa utilizar o comando Certutil mostrado-Below. Ele garantirá a integridade do arquivo usando sua soma de verificação da opção "Summas de verificação" na linha 4 da página de download. Você precisa fornecer o caminho do seu arquivo neste comando com a opção "-Hashfile". A saída exibe sua soma de verificação junto com a mensagem de conclusão bem -sucedida para este comando. Você pode confirmar isso visitando a página de download.
Instale o Apache Spark:
Depois disso, você precisa criar uma nova pasta para uma faísca em sua pasta raiz, onde você tende a instalar o sistema operacional e outras pessoas também, eu.e., "C" Drive. Então, use a instrução "mkdir" para criar uma pasta "Spark" dentro dela.
Agora, abra sua unidade C e navegue dentro da pasta "Spark". Você precisa extrair o arquivo zip "Spark" baixado, como mostrado na imagem.
Adicione os winutils.arquivo exe:
Abra a página do Github usando o "Path" da imagem abaixo e toque em "Winutils.exe". Outra tela apareceria, e você precisa bater o botão "Download" para obtê -lo.
Você deve criar a pasta "Hadoop" na unidade "C" e criar uma pasta "bin" nela através da consulta Mkdir.
Coloque o baixado “Winutils.Arquivo EXE "dentro da pasta recém -criada" Hadoop \ bin ".
Configure variáveis de ambiente para Spark:
É hora de adicionar Spark, Hadoop e Java às nossas variáveis de ambiente. Portanto, procure a palavra -chave "ambiente" na barra de pesquisa e toque na ferramenta "Editar as variáveis do ambiente do sistema" que apenas apareceu na tela.
A janela chamada "Propriedades do sistema" será aberta na sua tela. Na seção abaixo, pressione o botão “Variáveis de ambiente…” para prosseguir.
Você pode ver todas as suas variáveis de sistema listadas lá. Toque no botão "novo" para gerar um novo ambiente mutável para "Spark" primeiro.
Uma caixa de diálogo com "Editar Variável do Usuário" aparecerá em um momento e você deve nomear uma variável "Spark_home" com o caminho da pasta Spark como o valor variável, I.e., “C: \ Spark \ Spark-3.3.0-bin-hadoop3 ”. Clicar no botão "OK" definirá uma nova variável de ambiente em um sistema.
Você verá uma variável chamada "Spark_home" na seção Variáveis do usuário. Toque na variável denominada "Path" e esmaga o botão "Editar".
Uma tela “Variável do ambiente de edição” será aberta. Aperte o botão "novo" para adicionar o caminho da variável. Considere usar o nome da variável %spark_home %”com a pasta“ \ bin ”.
Da mesma forma, crie uma nova variável para "Hadoop".
Em seguida, crie uma nova variável para "Java" também e toque em "OK".
Da mesma maneira, toque na variável "Path" e adicione um caminho para as variáveis "java" e "hadoop" que acabamos de criar eu.e. Usando o "%hadoop_home%" e "%java_home%" nomes com a pasta "\ bin", conforme exibido na tela abaixo.
Agora, inicie seu aplicativo "CMD" como "Administrador" através do uso da escolha "Run como administrador". Adicione o caminho de comando abaixo da balança em sua área de consulta com a "Sparkshell" para ver se a faísca está configurada com sucesso ou não. Uma nova janela de fluxo de informação será aberta e você precisa usar o botão "Permitir" para dar acesso. Se o seu prompt de comando mostrar o logotipo do design "Spark" junto com a versão instalada, o Spark será totalmente configurado e pronto para uso.
C: \ Spark \ Spark-3.3.0-bin-hadoop3 \ bin \ SparkshellAbra seu navegador preferido e entre no caminho “Localhost: 4040/Jobs/”. A interface do usuário da Web do Apache Spark aparecerá, exibindo o resumo dos eventos do seu sistema.
Conclusão:
Depois de passar por este guia, você poderá usar o Apache Spark no seu sistema operacional Windows 11, pois implementamos todas as configurações necessárias para configurar o Apache Spark. Para garantir que seu Apache Spark funcione bem no final, você não deve deixar uma única etapa mencionada acima no guia, começando a instalar Java, Python, Spark, adicionando os winutils.arquivo exe e a parte mais importante da definição das variáveis de ambiente.