Descubra os padrões e informações ocultas em seus dados usando o Apache UIMA no Linux

Descubra os padrões e informações ocultas em seus dados usando o Apache UIMA no Linux

Ao trabalhar com grandes quantidades de dados capturados usando um amplo conjunto de parâmetros, tentar encontrar as relações e os padrões entre os recursos pode se tornar uma tarefa cansativa. Apesar de ter diferentes modelos pré-existentes que já estão disponíveis no espaço de análise de dados, usando um para realmente encontrar uma inferência significativa em grandes conjuntos de dados pode se tornar uma tarefa de descoberta de conhecimento complexa e abrangente. Grandes conjuntos de dados com um conjunto muito amplo de parâmetros de coleta de dados tendem a ter vários tipos diferentes de inferências de dados, todos armazenados juntos. A inteligência leve em encontrar algoritmos não é capaz de encontrar corretamente todos os relacionamentos que estão contidos em esse conjunto de dados.

É aqui que entra o Apache Uima. Os aplicativos de gerenciamento de informações não estruturados (UIMA) são criados especificamente para esse fim - encontrar o significado em uma distribuição de dados aparentemente impecável. Geralmente é usado para classificar os dados não estruturados e categorizar os significados que estão contidos nas relações entre diferentes recursos que estão presentes em um conjunto de dados. O que o Apache UIMA faz é permitir que os usuários entendam quais recursos são co -dependentes um do outro, quais relacionamentos são importantes para quais categorias em um conjunto de dados e como todas as instâncias em um conjunto de dados acabam pressionando o conjunto de dados em uma certa direção.

O UIMA não se limita a trabalhar com dados baseados em texto; Também pode ser usado com dados baseados em sinal (dados de vídeo e áudio). Isso significa que não apenas o UIMA pode encontrar o significado nos dados textuais, mas também pode analisar os grandes conjuntos de dados que contêm as amostras de áudio ou vídeo e gerar o significado para o usuário com base em algum conjunto de parâmetros fornecidos. Para resumir, o Apache UIMA permite a descoberta do conhecimento usando uma abordagem analítica multimodal que vê o conjunto de dados de diferentes perspectivas para encontrar todos os relacionamentos que estão contidos dentro.

Instalação

Para começar com a instalação do Apache UIMA, começamos com a atualização do repositório local adequado, que contém os nomes e informações dos pacotes.

1. Execute o seguinte comando no terminal para atualizar os repositórios e informações locais do APT:

$ sudo apt -get update -y

Você deve ver uma saída semelhante ao seguinte:

2. Agora instalamos o Apache UIMA executando o seguinte comando no terminal:

$ sudo apt-get install -y uima-doc

OBSERVAÇÃO: O argumento -y garante que a instalação ocorra silenciosamente sem que você precise inserir "sim" para qualquer aviso de que a configuração da instalação exige.

Você deve ver uma saída semelhante ao seguinte:

3. Agora baixamos o pacote de distribuição UIMA preferido, visitando o link ou usando a ferramenta WGET e executando o comando no terminal (somente para usuários do Linux):

$ wget https: // dlcdn.apache.org // uima // uimaj-3.3.1/uimaj-3.3.1-bin.alcatrão.gz

Você deve ver uma saída semelhante ao seguinte:

4. Depois que o download estiver concluído, extraímos o arquivo e o CD baixado para ele.

Execute o seguinte comando no terminal:

$ tar xzf

Igual a:

Em seguida, vá para a pasta extraída executando o seguinte comando:

$ cd apache-uima

5. Agora criamos uma variável de ambiente UIMA e damos o caminho onde a pasta extraída reside.
Execute o seguinte comando no terminal:

$ export uima_home = ""

6. Execute os seguintes comandos no terminal. Você verá uma instância de Apache Uima se abrindo:

$ $ Uima_home/bin/ajustexamplepaths.sh $ $ uima_home/bin/documentanalyzer.sh

Guia de usuario

Com o Apache UIMA agora pronto para usar, começamos com a seleção da localização do Descritor de Análise do Engine XML. Para os fins deste guia, selecionamos uma distribuição de dados pré -fabricados para executar a análise e encontrar os padrões nessa distribuição de dados.

Agora executamos o modelo e examinamos as saídas que ele gera.

Vamos dar uma olhada em uma das saídas geradas:

Podemos ver isso de todo o conjunto de dados que contêm as multidões das passagens baseadas em texto que contêm informações diferentes sobre diferentes assuntos, a UIMA é capaz de classificá-los em distribuições menores que contêm as informações sobre um determinado tópico.

Ao selecionar a pessoa nas anotações disponíveis, podemos ver que ele é capaz de destacar todas as pessoas mencionadas na distribuição de dados.

Conclusão

Encontrar o significado e a inferência em grandes conjuntos de dados não estruturados pode ser uma tarefa difícil. O número de parâmetros diferentes a serem observados e analisar tornam o espaço alvo muito enorme e torna -se um tanto ineficiente analisar esse conjunto de dados com os algoritmos tradicionais. O Apache UIMA ajuda a resolver esse problema, pois é capaz de analisar os grandes conjuntos de dados com relativa facilidade e gerar inferência, encontrar relacionamentos e descobrir os padrões até nos maiores conjuntos de dados que são compilados com base em um conjunto muito amplo de parâmetros de entrada. Não apenas tem desempenho brilhante em dados baseados em texto, como também se sai muito bem nos dados de áudio ou vídeo.