Os principais componentes do Apache Hadoop são:
Agora, confira os métodos abaixo do qual Instalando e configurando o Apache Hadoop em seu sistema Ubuntu. Então vamos começar!
Como instalar o Apache Hadoop no Ubuntu
Primeiro de tudo, abriremos nosso terminal do Ubuntu pressionando “Ctrl+alt+t", Você também pode digitar"terminal”Na barra de pesquisa do aplicativo da seguinte forma:
O próximo passo é atualizar os repositórios do sistema:
$ sudo apt update
Agora vamos instalar Java Em nosso sistema Ubuntu, escrevendo o seguinte comando no terminal:
$ sudo apt install OpenJDK-11-JDK
Digitar "y/y”Para permitir que o processo de instalação continue:
Agora, verifique a existência do Java instalado verificando sua versão:
$ java -version
Criaremos um usuário separado para executar o Apache Hadoop em nosso sistema, utilizando o “adicionar usuário”Comando:
$ sudo adduser hadoopuser
Digite a senha do novo usuário, seu nome completo e outras informações. Tipo "y/y”Para confirmar que as informações fornecidas estão corretas:
É hora de mudar o usuário atual com o usuário do Hadoop criado, que é “HadoopUser" no nosso caso:
$ su - hadoopuser
Agora, utilize o comando abaixo para gerar pares de chaves públicas e privadas:
$ ssh -keygen -t rsa
Digite o endereço do arquivo onde deseja salvar o par de chaves. Depois disso, adicione uma senha de que você será usado em toda a configuração do usuário do Hadoop:
Em seguida, adicione estes pares de teclas aos SSH Authorized_Keys:
em ~//.ssh/id_rsa.pub >> ~///.ssh/autorizado_keys
Como armazenamos o par de chaves gerados na chave autorizada do SSH, agora alteraremos as permissões de arquivo para “640”O que significa que somente nós como o“proprietário”Do arquivo terá as permissões de leitura e gravação,“grupos”Só terá a permissão de leitura. Nenhuma permissão será concedida a “outros usuários”:
$ chmod 640 ~//.ssh/autorizado_keys
Agora autentique o host localizador escrevendo o seguinte comando:
$ ssh host
Utilize o abaixo do ritmo wget Comando para instalar a estrutura do Hadoop para o seu sistema:
$ wget https: // downloads.apache.org/hadoop/comum/hadoop-3.3.0/Hadoop-3.3.0.alcatrão.gz
Extraia o baixado “Hadoop-3.3.0.alcatrão.gz”Arquivo com o comando tar:
$ tar -xvzf hadoop -3.3.0.alcatrão.gz
Você também pode renomear o diretório extraído, como faremos ao executar o comando abaixo:
$ MV Hadoop-3.3.0 Hadoop
Agora, configure variáveis de ambiente Java para configurar o Hadoop. Para isso, verificaremos a localização do nosso “Java_home" variável:
$ Dirname $ (Dirname $ (readlink -f $ (que java))))
Abra o "~/.Bashrc"Arquivo em seu"Nano" editor de texto:
$ nano ~//.Bashrc
Adicione os seguintes caminhos no aberto “~/.Bashrc" arquivo:
exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64
exportar hadoop_home =/home/hadoopuser/hadoop
exportar hadoop_install = $ hadoop_home
exportar hadoop_mapred_home = $ hadoop_home
exportar hadoop_common_home = $ hadoop_home
exportar hadoop_hdfs_home = $ hadoop_home
exportar hadoop_yarn_home = $ hadoop_home
exportar hadoop_common_lib_native_dir = $ hadoop_home/lib/nativo
Caminho de exportação = $ PATH: $ HADOOP_HOME/SBIN: $ HADOOP_HOME/BIN
exportar Hadoop_Opts = "-Djava.biblioteca.caminho = $ hadoop_home/lib/nativo "
Depois disso, pressione “Ctrl+o”Para salvar as alterações que fizemos no arquivo:
Agora, escreva o comando abaixo para ativar o “Java_home" variável de ambiente:
$ fonte ~//.Bashrc
A próxima coisa que precisamos fazer é abrir o arquivo variável do ambiente do Hadoop:
$ nano $ hadoop_home/etc/hadoop/hadoop-env.sh
Temos que definir nosso “Java_home”Variável no ambiente Hadoop:
exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64
Novamente, pressione “Ctrl+o”Para salvar o conteúdo do arquivo:
Como configurar o Apache Hadoop no Ubuntu
Até esse ponto, instalamos com sucesso o Java e o Hadoop, criamos usuários do Hadoop, configuramos a autenticação baseada em chave SSH. Agora, iremos avançar para mostrar a você Como configurar o Apache Hadoop no Ubuntu sistema. Para isso, a etapa é criar dois diretórios: DataNode e Namenode, Dentro do Diretório Home do Hadoop:
$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode
Vamos atualizar o Hadoop “Site do núcleo.xml”Arquivo adicionando nosso nome de host, então, em primeiro lugar, confirme o nome do host do sistema executando este comando:
$ hostname
Agora, abra o “Site do núcleo.xml"Arquivo em seu"Nano" editor:
$ nano $ hadoop_home/etc/hadoop/site core.xml
Nosso nome de host do sistema em “Linuxhint-vBox”, Você pode adicionar as seguintes linhas com o nome do host do sistema no“ local do núcleo aberto.XML ”Arquivo Hadoop:
fs.Defaultfs hdfs: // hadoop.Linuxhint-vBox.com: 9000
Imprensa "Ctrl+o”E salve o arquivo:
No "Site HDFS.xml”Arquivo, mudaremos o caminho do diretório de“DataNode" e "Namenode”:
$ nano $ hadoop_home/etc/hadoop/hdfs-site.xml
dfs.replicação 1 dfs.nome.dir Arquivo: /// home/hadoopuser/hadoopdata/hdfs/namenode dfs.dados.dir Arquivo: /// home/hadoopuser/hadoopdata/hdfs/datanode
Novamente, para escrever o código adicionado no arquivo, pressione “CRTL+O”:
Em seguida, abra o “MapRed-site.xml”Arquive e adicione o código abaixo:
$ nano $ hadoop_home/etc/hadoop/mapa-site.xml
MapReduce.estrutura.nome fio
Imprensa "Ctrl+o”Para salvar as alterações que você fez no arquivo:
O último arquivo que precisa ser atualizado é o “Site de fio.xml”. Abra este arquivo Hadoop no “Nano" editor:
$ nano $ hadoop_home/etc/hadoop/site de fio.xml
Escreva linhas abaixo de dadas em “Site de fio.xml" arquivo:
fio.NodeManager.Aux-Services mapReduce_shuffle
Temos que iniciar o cluster Hadoop para operar o Hadoop. Para isso, vamos formatar nosso “Namenode" primeiro:
$ hdfs namenode -format
Agora comece o cluster Hadoop escrevendo o comando abaixo do seu terminal:
$ start-dfs.sh
No processo de iniciar o cluster Hadoop, se você receber o “Pode resolver o erro do nome do host”Então você deve especificar o nome do host no“/etc/host" arquivo:
$ sudo nano /etc /hosts
Salve o "/etc/host”Arquivo, e agora todos estão prontos para iniciar o cluster Hadoop:
$ start-dfs.sh
Na próxima etapa, iniciaremos o “fio”Serviço do Hadoop:
$ start-yarn.sh
A execução do comando acima mencionado mostrará a seguinte saída:
Para verificar o status de todos os serviços do Hadoop, execute o “JPS”Comando em seu terminal:
$ jps
A saída mostra que todos os serviços estão sendo executados com sucesso:
Hadoop ouve no porto 8088 e 9870, Então você deve permitir essas portas através do firewall:
$ firewall-cmd --permanent --add-port = 9870/tcp
$ firewall-cmd --permanent --ad-port = 8088/tcp
Agora, recarregue as configurações do firewall:
$ firewall-cmd--reload
Agora, abra seu navegador e acesse seu Hadoop “Namenode”Ao inserir seu endereço IP com a porta 9870:
Utilize a porta “8080”Com seu endereço IP para acessar o Hadoop Resource Manager:
Na interface da web Hadoop, você pode procurar o “Procure diretório”Ao rolar para baixo na página da web aberta da seguinte forma:
Isso se tratava de instalar e configurar o Apache Hadoop no sistema Ubuntu. Para interromper o cluster do Hadoop, você deve interromper os serviços de “fio" e "Namenode”:
$ stop-dfs.sh
$ stop-yarn.sh
Conclusão
Para diferentes aplicativos de big data, Apache Hadoop é uma plataforma disponível gratuitamente para gerenciamento, armazenamento e processamento de dados que opera em servidores em cluster. É um sistema de arquivos distribuído tolerante a falhas que permite processamento paralelo. No Hadoop, o modelo MapReduce é utilizado para armazenar e extrair dados de seus nós. Neste artigo, mostramos o método Para instalar e configurar o Apache Hadoop no seu sistema Ubuntu.