Como instalar e usar o MOA no Linux

Como instalar e usar o MOA no Linux

A Mastive Online Analytics (MOA) é gratuita para usar a ferramenta de software de código aberto que permite aos usuários trabalhar com fluxos de dados. Os fluxos de dados são pacotes contínuos de dados que são transmitidos em tempo real para serem usados ​​à medida que são recebidos. O que torna o MOA especial é que ele é capaz de receber fluxos de dados como entrada e ampliar a execução de um algoritmo subjacente para atender às necessidades dos dados recebidos.

O MOA é amplamente utilizado pela comunidade científica de dados para gerar insights sobre dados de natureza contínua. Ele contém agrupamentos, classificação, regressão, detecção outlier, desvio conceitual e algoritmos de aprendizado ativo que podem usar os fluxos de dados recebidos para gerar inferências valiosas. Essas inferências podem então ser avaliadas usando os algoritmos de avaliação internos.

Ferramentas como o MOA, que vêm com interfaces gráficas intuitivas de usuário, facilitam a criação de algoritmos complexos capazes de gerar informações úteis sobre dados que, de outra forma, exigiriam codificação em uma linguagem de programação. O MOA permite que as pessoas de origens não programadors funcionem com modelos complexos de aprendizado de máquina e também lhes permita obter resultados valiosos como saídas em diferentes formas, incluindo gráficos, tabelas e gráficos.

Instalação

Para instalar o MOA em qualquer máquina Linux, começamos com o download do arquivo MOA primeiro.

1. Faça o download do arquivo da página da MOA.

2. Depois que o arquivo foi baixado, extraímos o arquivo baixado e o colocamos onde precisamos.


3. Agora abrimos a pasta extraída e nos movemos para o diretório raiz do MOA.

4. Depois de mudar para o diretório raiz, abrimos uma instância do terminal aqui clicando com o botão direito do mouse Aberto no terminal opção.

5. Agora executamos o seguinte comando para executar o MOA em qualquer máquina Linux:

$ bin/moa.sh

Você deve obter uma saída de terminal que seja semelhante a isso:

Com isso, uma instância de MOA deve iniciar uma execução em sua máquina Linux.

Parece algo semelhante a isso:

Guia de usuario

Com MOA Agora instalado e pronto para uso em sua máquina Linux, você pode começar a criar seu fluxo de trabalho de análise de dados.

Para começar, você deve clicar no Configure Opção no topo da interface do usuário gráfico do MOA. Isso fornece categorias e opções diferentes que você pode escolher e selecionar com base em que tipo de modelo de mineração de dados seu aplicativo específico exige.

Para este experimento, criamos um Classificação modelo selecionando a opção de classificação no lado esquerdo.

As três categorias principais que você pode alterar ou melhorar são as Aluno, Fluxo, e Avaliador.


Aluno

Isso especifica que tipo de modelo você deseja que seu fluxo de trabalho utilize para treinamento em seus dados. Existem várias opções para escolher, algumas das quais são:

    1. Baías ingénuas
    2. MultinomialNaiveBayes
    3. MainceClass
    4. DriftDeTectionMethodClassifier

Para este experimento, usamos o MultinomialNaiveBayes modelo.


Fluxo

Isso especifica que tipo de instâncias de dados queremos que nosso modelo gere. Existem várias opções para escolher, que incluem:

    1. RandomTreeGenerator
    2. Staggenerator
    3. Seenerator
    4. WaveFormGenerator

Esta opção depende especificamente do tipo de instâncias geradas que seu caso de uso exige.

Nós usamos WaveFormGenerator Para este guia.


Avaliador

Isso especifica o tipo de avaliação que queremos que as saídas geradas sejam. Existem três opções principais para escolher nesta categoria que incluem:

    1. BASICCLASSIFICATIFICATIFICATIFICAÇÃO
    2. FadingFactorClassificationPerFormForationEvaluator
    3. WindowClassificationPerformanceEvaluator

Nós usamos o Windowclassification Avaliador com precisão, recall, precisão por classe, recall por classe e pontuação F1 por classe, todos os resultados como resultado. Essas métricas de desempenho nos ajudam a entender melhor as pontuações de distribuição e desempenho de classe para nossos dados.


Existem outras opções após as três opções principais relacionadas ao modelo que também podemos ajustar. Eles incluem coisas como limitar o número de instâncias ao modelo e informações sobre onde produzir os resultados de previsão gerados pelo modelo. Vamos deixá -los para suas predefinições padrão, pois não são necessárias para os fins deste experimento.

Depois de terminarmos de configurar o modelo para atender às nossas necessidades exatas, clicamos no Correr opção que essencialmente executa o modelo como ele. Com dados contínuos sendo alimentados por meio de fluxos de dados, ele continua a executar as iterações do modelo, pois continua a receber os dados como entrada. Com cada iteração sendo executada, os resultados que gera são emitidos na tela.

A imagem a seguir mostra os diferentes resultados que o modelo gerou. Isso inclui categorias como o número de instâncias que o modelo treinou e o tempo de avaliação que a CPU leva para gerar os resultados nesses dados.


Se rolarmos mais longe, podemos ver as métricas de desempenho de classe sendo emitidas. Essas métricas de desempenho nos dizem as pontuações de classe, recall e F1 de classe. Todos os quais são ativados durante a etapa de configuração na criação do modelo.

Conclusão

O mundo da análise de dados tem muitas ferramentas que podem ser usadas para realizar os fluxos de trabalho de mineração de dados. Alguns deles vêm com interfaces gráficas de usuário, enquanto outros são estritamente baseados em programação. A análise online maciça é uma dessas ferramentas que usa uma GUI intuitiva. Isso ajuda pessoas com pouca ou nenhuma experiência de programação a também criar e executar modelos inteligentes complexos que os ajudam a gerar resultados em seus fluxos de dados.

O principal benefício do uso do MOA é que ele permite que os usuários trabalhem com fluxos de dados. Isso significa que os algoritmos de análise de dados em tempo real podem ser criados e utilizados para determinados casos de uso. Como resultado, essa ferramenta se tornou a solução preferida para a maioria dos aplicativos de geração de inferência em tempo real.