Como instalar e usar o Apache Mahout no Linux

Como instalar e usar o Apache Mahout no Linux

Mahout é um projeto de código aberto da Apache Software Foundation. É usado para a criação de algoritmos de aprendizado de máquina e análises estatísticas ou matemáticas. Mahout é capaz de assumir tarefas de mineração e aprendizado de máquina bastante grandes devido à sua abordagem de computação distribuída a esses problemas. Usando o Hadoop em segundo plano, Mahout é capaz de dividir as grandes tarefas de mineração de dados em subtarefas menores, que estão programadas para executar em diferentes instâncias de maneira paralela. Isso permite ao usuário realizar uma tarefa complexa relativamente rapidamente, dividindo -a em tarefas menores e executando todas elas juntas em diferentes instâncias do aplicativo usando a infraestrutura em nuvem.

Mahout fornece a seus usuários uma variedade de funcionalidades diferentes. Isso inclui técnicas relacionadas ao aprendizado de máquina e análise de dados, algumas das quais são recomendação modelos, classificação técnicas e clustering modelos. Como é construído sobre o Hadoop, permite que os usuários usem a computação em nuvem distribuída do Hadoop. Trabalhando perfeitamente ao lado do Hadoop, Mahout é capaz de realizar grandes tarefas de mineração e análise de dados muito rapidamente, tornando -o uma das melhores soluções para grandes problemas de mineração de dados.

Instalação

Usar Mahout, você primeiro precisa da versão Java (JDK).7, MAVEN Versão 3.0 ou superior e subversão. Sem essas três dependências, o Apache Mahout não funcionará em sua máquina Linux.

Instalação Java JDK

1. Vá para a página Java Downloads clicando neste link.

2. Selecione o Linux X64: JDK-7U45-Linux-X64.alcatrão.gz, aceite os termos de licenciamento e faça o download do arquivo.

3. Vá para o diretório onde baixou o arquivo e abra o terminal aqui.


Execute o seguinte comando:

$ sudo cp jdk-7u45-linux-x64.alcatrão.gz/usr/local/lib/

Isso copia a pasta extraída em /usr/local/lib/.

4. Mova -se para o /usr/local/lib/ Pasta executando o seguinte comando:

$ CD/usr/local/lib/

5. Execute o seguinte comando no terminal para extrair o conteúdo da pasta compactada:

$ sudo tar -xzvf jdk-7u45-linux-x64.alcatrão.gz


6. Remova o arquivo compactado que acabamos de extrair:

$ sudo rm jdk-7u45-linux-x64.alcatrão.gz

7. Mova -se para o seu Home/Nome de usuário/ Ao executar o seguinte comando:

$ CD /Home //

8. Adicione a casa de Java ao caminho, executando as seguintes etapas:

Execute o seguinte comando:

$ nano .perfil

Adicione as duas linhas a seguir no final do perfil que acabamos de abrir.

exportar java_home = "/usr/local/lib/jdk1.7.0_45 "
Caminho de exportação = "$ java_home/bin: $ path"


Instalação do Maven

1. Com um Java JDK agora instalado, agora instalamos o Maven, que é o segundo requisito para executar o Mahout.

Execute o seguinte comando no terminal:

$ sudo apt-get install maven

Você deve ver uma saída semelhante à seguinte ilustração:

Para verificar se o Maven foi instalado com sucesso em sua máquina, execute o seguinte comando no terminal:

$ mvn -v



Instalação de subversão

1. Com o Maven agora instalado com sucesso, agora instalamos a subversão. Subversão é um sistema de controle de revisão de software livre para usar. Ele permite que os usuários acompanhem diferentes versões do código -fonte em suas máquinas.

Execute o seguinte comando:

$ sudo apt-get install subversão

Você deve ver uma saída semelhante em seu terminal:

Execute o seguinte comando para verificar se a subversão foi instalada com sucesso:

$ svn --versões


2. Com a subversão agora instalada, instalamos com sucesso todas as dependências para Mahout.

Agora iremos fazer o download e instalar mahout.

Primeiro, mude para o diretório em que você deseja instalar o Mahout.

Execute o seguinte comando:

$ svn co http: // svn.apache.org/repos/asf/mahout/tronco

Você deve ver uma saída de terminal semelhante:

Agora nos mudamos para o porta-malas diretório:

$ CD tronco

Agora, execute o seguinte comando:

$ mvn -dskiptests

Agora você deve ter o Apache Mahout pronto para usar em sua máquina Linux.

Guia de usuario

Mahout usa uma interface de programação para desbloquear o potencial da computação distribuída de Mahout. A linguagem usada para interagir com esta estrutura é Java.

Mahout é uma solução abrangente para as tarefas complexas de aprendizado de máquina e mineração de dados. Como não fornece uma interface de usuário interativa, os usuários devem saber o uso da linguagem Java para liberar todo o potencial dessa estrutura.

Isso significa que Mahout não pode ser usado por pessoas que não são fluentes em java. No entanto, isso não significa que não se tem que tentar. Aprender uma nova linguagem de programação é algo que não é complexo hoje. Com os recursos prontamente disponíveis, pode -se aprender facilmente Java e interagir com a estrutura Mahout para criar algoritmos que podem ser usados ​​com grandes conjuntos de dados para encontrar as soluções e padrões para problemas em um ambiente distribuído.

Conclusão

Existem muitas estruturas de mineração de dados e aprendizado de máquina que estão disponíveis no mercado hoje. Mahout por Apache é uma dessas estruturas. Mahout é famoso por permitir o uso de um ambiente distribuído usando o Hadoop sobre a nuvem para dividir as complexas tarefas de mineração de dados em subtarefas menores que podem ser executadas em várias instâncias do aplicativo. Isso resulta em uma tarefa maior sendo concluída em um período mais curto do tempo, além de reduzir a potência de computação geral que é usada para unidades menores.

Mahout é usado escrevendo o código em Java, que é um idioma que fez seu nome sobreviver aos testes do tempo. Isso faz de Java uma habilidade muito útil para ter. Aprender Java a usar essa funcionalidade oferecida pelo Apache é algo que a maioria dos cientistas de dados faz em algum momento de suas carreiras. Embora a maioria dos profissionais de mineração de dados nunca precise usar a computação em nuvem distribuída no campo da ciência de dados, ela existe para a pequena quantidade de tarefas que exigem uma solução distribuída mais escalável.