Como instalar e configurar o Apache Hadoop no Ubuntu

Como instalar e configurar o Apache Hadoop no Ubuntu
Apache Hadoop é uma plataforma de software baseada em Java, de código aberto e disponível para armazenar e analisar grandes conjuntos de dados em seus clusters de sistema. Ele mantém seus dados no Sistema de Arquivos Distribuídos do Hadoop (HDFS) e processa que utiliza o MapReduce. Hadoop tem sido usado em técnicas de aprendizado de máquina e mineração de dados. Também é usado para gerenciar vários servidores dedicados.

Os principais componentes do Apache Hadoop são:

  • HDFS: No Apache Hadoop, o HDFS é um sistema de arquivos que é distribuído por vários nós.
  • MapReduce: É uma estrutura para o desenvolvimento de aplicativos que lidam com uma quantidade enorme de dados.
  • Hadoop comum: É um conjunto de bibliotecas e utilitários necessários para os módulos Hadoop.
  • Fio Hadoop: No Hadoop, o Hadoop Yarn gerencia as camadas de recursos.

Agora, confira os métodos abaixo do qual Instalando e configurando o Apache Hadoop em seu sistema Ubuntu. Então vamos começar!

Como instalar o Apache Hadoop no Ubuntu

Primeiro de tudo, abriremos nosso terminal do Ubuntu pressionando “Ctrl+alt+t", Você também pode digitar"terminal”Na barra de pesquisa do aplicativo da seguinte forma:

O próximo passo é atualizar os repositórios do sistema:

$ sudo apt update

Agora vamos instalar Java Em nosso sistema Ubuntu, escrevendo o seguinte comando no terminal:

$ sudo apt install OpenJDK-11-JDK

Digitar "y/y”Para permitir que o processo de instalação continue:

Agora, verifique a existência do Java instalado verificando sua versão:

$ java -version

Criaremos um usuário separado para executar o Apache Hadoop em nosso sistema, utilizando o “adicionar usuário”Comando:

$ sudo adduser hadoopuser

Digite a senha do novo usuário, seu nome completo e outras informações. Tipo "y/y”Para confirmar que as informações fornecidas estão corretas:

É hora de mudar o usuário atual com o usuário do Hadoop criado, que é “HadoopUser" no nosso caso:

$ su - hadoopuser

Agora, utilize o comando abaixo para gerar pares de chaves públicas e privadas:

$ ssh -keygen -t rsa

Digite o endereço do arquivo onde deseja salvar o par de chaves. Depois disso, adicione uma senha de que você será usado em toda a configuração do usuário do Hadoop:

Em seguida, adicione estes pares de teclas aos SSH Authorized_Keys:

em ~//.ssh/id_rsa.pub >> ~///.ssh/autorizado_keys

Como armazenamos o par de chaves gerados na chave autorizada do SSH, agora alteraremos as permissões de arquivo para “640”O que significa que somente nós como o“proprietário”Do arquivo terá as permissões de leitura e gravação,“grupos”Só terá a permissão de leitura. Nenhuma permissão será concedida a “outros usuários”:

$ chmod 640 ~//.ssh/autorizado_keys

Agora autentique o host localizador escrevendo o seguinte comando:

$ ssh host

Utilize o abaixo do ritmo wget Comando para instalar a estrutura do Hadoop para o seu sistema:

$ wget https: // downloads.apache.org/hadoop/comum/hadoop-3.3.0/Hadoop-3.3.0.alcatrão.gz

Extraia o baixado “Hadoop-3.3.0.alcatrão.gz”Arquivo com o comando tar:

$ tar -xvzf hadoop -3.3.0.alcatrão.gz

Você também pode renomear o diretório extraído, como faremos ao executar o comando abaixo:

$ MV Hadoop-3.3.0 Hadoop

Agora, configure variáveis ​​de ambiente Java para configurar o Hadoop. Para isso, verificaremos a localização do nosso “Java_home" variável:

$ Dirname $ (Dirname $ (readlink -f $ (que java))))

Abra o "~/.Bashrc"Arquivo em seu"Nano" editor de texto:

$ nano ~//.Bashrc

Adicione os seguintes caminhos no aberto “~/.Bashrc" arquivo:

exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64
exportar hadoop_home =/home/hadoopuser/hadoop
exportar hadoop_install = $ hadoop_home
exportar hadoop_mapred_home = $ hadoop_home
exportar hadoop_common_home = $ hadoop_home
exportar hadoop_hdfs_home = $ hadoop_home
exportar hadoop_yarn_home = $ hadoop_home
exportar hadoop_common_lib_native_dir = $ hadoop_home/lib/nativo
Caminho de exportação = $ PATH: $ HADOOP_HOME/SBIN: $ HADOOP_HOME/BIN
exportar Hadoop_Opts = "-Djava.biblioteca.caminho = $ hadoop_home/lib/nativo "

Depois disso, pressione “Ctrl+o”Para salvar as alterações que fizemos no arquivo:

Agora, escreva o comando abaixo para ativar o “Java_home" variável de ambiente:

$ fonte ~//.Bashrc

A próxima coisa que precisamos fazer é abrir o arquivo variável do ambiente do Hadoop:

$ nano $ hadoop_home/etc/hadoop/hadoop-env.sh

Temos que definir nosso “Java_home”Variável no ambiente Hadoop:

exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64

Novamente, pressione “Ctrl+o”Para salvar o conteúdo do arquivo:

Como configurar o Apache Hadoop no Ubuntu

Até esse ponto, instalamos com sucesso o Java e o Hadoop, criamos usuários do Hadoop, configuramos a autenticação baseada em chave SSH. Agora, iremos avançar para mostrar a você Como configurar o Apache Hadoop no Ubuntu sistema. Para isso, a etapa é criar dois diretórios: DataNode e Namenode, Dentro do Diretório Home do Hadoop:

$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode

Vamos atualizar o Hadoop “Site do núcleo.xml”Arquivo adicionando nosso nome de host, então, em primeiro lugar, confirme o nome do host do sistema executando este comando:

$ hostname

Agora, abra o “Site do núcleo.xml"Arquivo em seu"Nano" editor:

$ nano $ hadoop_home/etc/hadoop/site core.xml

Nosso nome de host do sistema em “Linuxhint-vBox”, Você pode adicionar as seguintes linhas com o nome do host do sistema no“ local do núcleo aberto.XML ”Arquivo Hadoop:



fs.Defaultfs
hdfs: // hadoop.Linuxhint-vBox.com: 9000

Imprensa "Ctrl+o”E salve o arquivo:

No "Site HDFS.xml”Arquivo, mudaremos o caminho do diretório de“DataNode" e "Namenode”:

$ nano $ hadoop_home/etc/hadoop/hdfs-site.xml


dfs.replicação
1


dfs.nome.dir
Arquivo: /// home/hadoopuser/hadoopdata/hdfs/namenode


dfs.dados.dir
Arquivo: /// home/hadoopuser/hadoopdata/hdfs/datanode

Novamente, para escrever o código adicionado no arquivo, pressione “CRTL+O”:

Em seguida, abra o “MapRed-site.xml”Arquive e adicione o código abaixo:

$ nano $ hadoop_home/etc/hadoop/mapa-site.xml


MapReduce.estrutura.nome
fio

Imprensa "Ctrl+o”Para salvar as alterações que você fez no arquivo:

O último arquivo que precisa ser atualizado é o “Site de fio.xml”. Abra este arquivo Hadoop no “Nano" editor:

$ nano $ hadoop_home/etc/hadoop/site de fio.xml

Escreva linhas abaixo de dadas em “Site de fio.xml" arquivo:



fio.NodeManager.Aux-Services
mapReduce_shuffle

Temos que iniciar o cluster Hadoop para operar o Hadoop. Para isso, vamos formatar nosso “Namenode" primeiro:

$ hdfs namenode -format

Agora comece o cluster Hadoop escrevendo o comando abaixo do seu terminal:

$ start-dfs.sh

No processo de iniciar o cluster Hadoop, se você receber o “Pode resolver o erro do nome do host”Então você deve especificar o nome do host no“/etc/host" arquivo:

$ sudo nano /etc /hosts

Salve o "/etc/host”Arquivo, e agora todos estão prontos para iniciar o cluster Hadoop:

$ start-dfs.sh

Na próxima etapa, iniciaremos o “fio”Serviço do Hadoop:

$ start-yarn.sh

A execução do comando acima mencionado mostrará a seguinte saída:

Para verificar o status de todos os serviços do Hadoop, execute o “JPS”Comando em seu terminal:

$ jps

A saída mostra que todos os serviços estão sendo executados com sucesso:

Hadoop ouve no porto 8088 e 9870, Então você deve permitir essas portas através do firewall:

$ firewall-cmd --permanent --add-port = 9870/tcp
$ firewall-cmd --permanent --ad-port = 8088/tcp

Agora, recarregue as configurações do firewall:

$ firewall-cmd--reload

Agora, abra seu navegador e acesse seu Hadoop “Namenode”Ao inserir seu endereço IP com a porta 9870:

Utilize a porta “8080”Com seu endereço IP para acessar o Hadoop Resource Manager:

Na interface da web Hadoop, você pode procurar o “Procure diretório”Ao rolar para baixo na página da web aberta da seguinte forma:

Isso se tratava de instalar e configurar o Apache Hadoop no sistema Ubuntu. Para interromper o cluster do Hadoop, você deve interromper os serviços de “fio" e "Namenode”:

$ stop-dfs.sh
$ stop-yarn.sh

Conclusão

Para diferentes aplicativos de big data, Apache Hadoop é uma plataforma disponível gratuitamente para gerenciamento, armazenamento e processamento de dados que opera em servidores em cluster. É um sistema de arquivos distribuído tolerante a falhas que permite processamento paralelo. No Hadoop, o modelo MapReduce é utilizado para armazenar e extrair dados de seus nós. Neste artigo, mostramos o método Para instalar e configurar o Apache Hadoop no seu sistema Ubuntu.