Como instalar e usar o easyocr no Linux

Ed Treutel IV

Este artigo abordará um guia sobre a instalação e o uso da ferramenta de linha de comando Easyocr e módulo Python. Disponível como um aplicativo gratuito e de código aberto, ele pode ser usado para identificar e extrair texto das imagens. Ele usa a tecnologia de reconhecimento óptico de caracteres (OCR) e uma variedade de algoritmos e modelos de idiomas diferentes para detectar o texto.

Principais características do Easyocr

Easyocr pode detectar texto em mais de 80 idiomas e scripts. Inclui modelos pré-treinados para esses idiomas, mas você pode usar o Easyocr para treinar seus próprios modelos do zero. Além do conteúdo baseado em texto digital e impresso encontrado nas imagens, o Easyocr também pode detectar e extrair texto manuscrito. Outras características principais do Easyocr incluem a capacidade de processar várias imagens de uma só vez, a capacidade de limitar e bloquear certos caracteres de um idioma, uma opção de converter linhas extraídas em parágrafos, capacidade de redimensionar e ampliar imagens para melhorar a precisão da detecção, e assim por diante.

Instalando o Easyocr no Linux

Você pode instalar o easyocr no Linux usando o gerenciador de pacotes pip. Para instalar o PIP Package Manager no Ubuntu, use o seguinte comando:

$ sudo apt install python3-pip

O Pip Package Manager está disponível em repositórios oficiais de muitas distribuições Linux, para que você possa instalá -lo no gerenciador de pacotes de ações. Você também pode acompanhar as instruções oficiais de instalação disponíveis aqui para instalar o gerenciador de pacotes PIP em seu sistema Linux.

Depois de instalar com êxito o PIP Package Manager, execute o seguinte comando para instalar o Easyocr no Linux:

$ pip3 instale easyocr

Usando o Easyocr no Linux

A imagem a seguir será usada para extrair texto por meio de vários comandos easyocr explicados abaixo:

Para extrair texto da imagem acima, você precisará executar um comando no seguinte formato:

$ easyocr -l en -f imagem.png

A primeira opção "-l" pode ser usada para especificar o idioma do conteúdo de texto que você deseja ser capturado pelo Easyocr. Você pode especificar vários idiomas usando códigos de linguagem separados de comando. A chave "-f" é usada para especificar o arquivo de imagem de entrada. Uma lista de todos os idiomas suportados pelo Easyocr e seus códigos pode ser encontrada aqui (role para baixo para vê -los).

Depois de executar o comando acima, você deve ver a seguinte saída no terminal:

A saída mostra certos números e o texto extraído da imagem. Esta saída pode ser lida no seguinte formato: Coordenadas de peças de texto individuais> Texto detectado> Nível de confiança. Portanto, os números no lado esquerdo representam coordenadas das caixas de texto identificadas, enquanto o número do lado direito indica o quão precisa é o texto extraído.

Se você deseja apenas receber o texto detectado em forma legível humana, adicione o comando “-Detail 0” ao comando acima:

$ easyocr -l en -detail 0 -f imagem.png

Depois de executar o comando acima, você deve obter alguma saída semelhante a isso:

Como você pode ver na saída, o texto extraído não está na ordem adequada. Você pode experimentar a opção de linha de comando “-paragraph True” para unir peças e frases individuais em ordem adequada.

$ easyocr -l en - -detail 0 -parágrafo true -f imagem.png

Depois de executar o comando acima, você deve obter alguma saída semelhante a isso:

Observe que, dependendo da qualidade e clareza de uma imagem e do conteúdo de texto da imagem, certas imprecisões podem estar sempre presentes no texto extraído e você pode ter que fazer correções manuais para corrigi -las.

Para salvar o texto identificado em um arquivo externo, use o símbolo ">" e forneça um nome para o arquivo de saída. Aqui está um comando de exemplo:

$ easyocr -l en - -detail 0 -parágrafo true -f imagem.png> saída.TXT

Para saber mais sobre todas as opções de linha de comando suportadas pela Easyocr, use o seguinte comando:

$ easyocr - -help

Usando o Easyocr em programas Python

O Easyocr também está disponível como uma biblioteca Python, para que você possa importar seu módulo principal em seus programas Python. Abaixo está uma amostra de código que ilustra seu uso em um programa Python:

importar easyocr
leitor = easyocr.Leitor (['en'])
resultado = leitor.ReadText ('imagem.png ', detalhe = 0, parágrafo = true)
com open ("saída.txt "," w ") como f:
para linha no resultado:
Imprimir (linha, arquivo = f)

A primeira declaração é usada para importar o módulo "Easyocr" em seu programa Python. Em seguida, uma nova instância da classe "leitor" (classe base) é criada fornecendo uma lista de idiomas suportados pelo easyocr como o argumento principal. Se sua imagem contiver texto em vários idiomas, você poderá adicionar mais códigos de idioma à lista. Em seguida, o método "ReadText" é chamado na instância do "leitor" e o caminho do arquivo de imagem é fornecido como o primeiro parâmetro. Este método identificará e extrairá texto da imagem fornecida. Os dois argumentos opcionais, "detalhe" e "parágrafo" são os mesmos que as opções da linha de comando explicadas acima. Eles simplificam o texto removendo elementos desnecessários.

Depois de executar o comando acima, você deve ter a seguinte linha em “Saída.arquivo txt ”:

Você pode ler mais sobre a API do Python do Easyocr daqui. Uma versão on -line do Easyocr está disponível aqui para testar.

Conclusão

Easyocr é uma ferramenta de extração de texto da linha de comando que vem com modelos pré-treinados para vários idiomas. Isso facilita para os usuários finais identificar e extrair rapidamente o texto das imagens sem ter seus próprios modelos de idioma. Ele também fornece coordenadas detalhadas para caixas delimitadoras em torno de palavras identificadas e tokenizadas, facilitando a análise de peças individuais de textos.

Docker

O que é o Docker Bind Mounds?

Uma montagem de ligação do Docker é um tipo de montagem que permite aos usuários mapear um diretório...

Salvatore Watsica

Golang

O que são estruturas em Golang

Em Golang, uma estrutura é um tipo de dados composto que consiste em zero ou mais campos nomeados, c...

Salvatore Watsica

Golang

Introdução à linguagem de programação de Golang

Golang é uma linguagem de programação de código aberto desenvolvido pelo Google. Siga este artigo pa...

Pedro Macejkovic