Esses software OCR são especialmente úteis para converter e preservar documentos antigos, pois podem ser usados para identificar o texto e criar cópias digitais. Às vezes, o texto identificado pode não ser 100% preciso, mas o software OCR remove a necessidade de edições manuais em grande parte, extraindo o máximo de texto possível. As edições manuais podem ser feitas posteriormente para melhorar ainda mais a precisão e criar réplicas individuais. A maioria dos softwares OCR pode extrair texto em arquivos separados, embora alguns também suportem a sobreposição de uma camada de texto oculta em arquivos originais. O texto sobreposto permite que você leia conteúdo em impressão e formato original, mas também permite selecionar e copiar texto. Esta técnica é usada especialmente para digitalizar documentos antigos no formato PDF.
TESSERACT OCR
O TESSERACT OCR é um software OCR de código aberto e gratuito disponível para Linux. Patrocinado pelo Google e mantido por muitos voluntários, é provavelmente a suíte OCR mais abrangente disponível por aí que pode até vencer algumas soluções proprietárias pagas. Ele fornece ferramentas de linha de comando, bem como uma API que você pode integrar em seus próprios programas. Pode detectar texto em vários idiomas com boa precisão. Ele vem com um conjunto de dados pré-treinados que podem ser usados para identificar e extrair texto. Você também pode usar seus próprios dados treinados se precisar de uma solução personalizada ou pode obter mais modelos de terceiros. O TESSERACT OCR vem com vários mecanismos de detecção e você pode usá -los de acordo com suas necessidades, dependendo do método de instalação.
Para instalar o TESSERACT OCR no Ubuntu, use o comando especificado abaixo:
$ sudo apt install Tesseract-ocr
Você pode instalá -lo em outras distribuições Linux de repositórios padrão através do gerenciador de pacotes. Um arquivo de appimage universal e mais instruções de instalação estão disponíveis aqui.
O TESSERACT OCR vem com suporte para detectar o conteúdo do idioma inglês por padrão. Se você deseja ativar idiomas adicionais, pode ser necessário baixar mais pacotes de idiomas. O link fornecido acima tem instruções para instalar pacotes de idiomas adicionais. No Ubuntu, você pode encontrar pacotes de idiomas diretamente executando o comando abaixo:
$ apt-cache pesquisa tesseract-ocr-
O comando acima será lançado nomes de pacotes para diferentes pacotes de idiomas. Basta instalá -los executando um comando no seguinte formato:
$ sudo apt install
Você pode obter uma lista de todos os pacotes de idiomas instalados executando o comando abaixo:
$ TESSERACT-LISTA-LANGS
Depois que o pacote principal do TESSERACT OCR e os pacotes de idiomas adicionais foram instalados, você pode começar a detectar texto de imagens e arquivos PDF. Para extrair texto, use comandos nos seguintes formatos:
$ TESSERACT Imagem.PNG Output -l Eng
$ TESSERACT Imagem.PNG Output -l Eng+Spa
$ TESSERACT Imagem.png output -l Eng pdf
O primeiro comando extrairá texto de “Image.arquivo png "no idioma" Eng "e armazená -lo em um arquivo chamado" saída ". O segundo comando analisará a imagem usando vários pacotes de idiomas. O terceiro comando pode ser usado para criar um arquivo PDF com uma camada de texto sobreposta no arquivo de imagem.
Para obter mais informações sobre o uso da linha de comando do TESSERACT OCR, use os dois comandos a seguir:
$ TESSERACT -Help
$ MAN TESSERACT
GIMAGERER
GimageRader é um cliente gráfico para o mecanismo TESSERACT OCR mencionado acima. Você pode usá-lo para executar a maioria das opções e ações da linha de comando suportadas pelo TESSERACT OCR, incluindo a extração de texto de vários arquivos, verificando o texto extraído e executando o pós-processamento no texto identificado.
Para instalar o GimageReader no Ubuntu, use o comando especificado abaixo:
$ sudo apt install gimagerader
Você pode instalá -lo em outras distribuições Linux de repositórios padrão através do gerenciador de pacotes. Mais pacotes específicos de distribuição estão disponíveis aqui.
Papelada
A papelada é um gerente de documentos de código aberto e de código aberto. Você pode usá -lo para gerenciar com eficiência sua biblioteca de documentos, especialmente se você tiver uma grande coleção. Ele também vem com um modo OCR embutido que usa "pyocr", um módulo Python baseado em motores de tesseract e cuneiforme OCR. Outras características principais da papelada incluem capacidade de editar documentos digitalizados, uma barra de pesquisa para pesquisar biblioteca de documentos, capacidade de classificar documentos, suporte para scanners e assim por diante.
Para instalar a papelada no Ubuntu, use o comando especificado abaixo:
$ sudo apt install paperwork-gtk
Você pode instalá -lo em outras distribuições Linux de repositórios padrão através do gerenciador de pacotes. Um pacote Universal Flatpak também está disponível aqui.
OCRFEEDER
OCRFeeder é um software gráfico de OCR de código aberto e de código aberto mantido pela equipe GNOME. Ele suporta o reconhecimento de texto em vários idiomas e pode exportar conteúdo em vários formatos de arquivo. Ele suporta muitos motores OCR, incluindo TESSERACT OCR, GOCR, OCRAD e Cuneiform. Ele também permite que você faça algum pós-processamento para melhorar a formatação e o layout do conteúdo de texto extraído.
Para instalar o OCRFeeder no Ubuntu, use o comando especificado abaixo:
$ sudo apt install ocrfeeder
Você pode instalá -lo em outras distribuições Linux de repositórios padrão através do gerenciador de pacotes. Um pacote Universal Flatpak também está disponível aqui.
Observe que, em meus testes, o OCRFeeder instalado a partir de repositórios do Ubuntu veio com apenas um mecanismo OCR. No entanto, a construção FLATPAK veio com todos os quatro motores OCR suportados, embora baixasse dados de 2 GB. O pacote incluído no repositório do Ubuntu era muito menor em tamanho.
GScan2pdf
O GScan2pdf é um utilitário gráfico de código aberto e gratuito que pode identificar e extrair texto de uma variedade de formatos de arquivo. Ele pode trabalhar diretamente com scanners para digitalizar papéis e depois exportar OCR detectado conteúdo de texto para arquivos PDF. Ele também suporta vários mecanismos OCR, incluindo TESSERACT OCR, GOCR, OCROPUS e CUNEIFORIFORE, desde que os pacotes para esses motores sejam instalados em seu sistema. Além da varredura direta de papéis, você também pode importar arquivos de imagem e extrair texto deles.
Para instalar o GScan2pdf no Ubuntu, use o comando especificado abaixo:
$ sudo apt install gscan2pdf gocr cuneiform tesseract-ocr
Você pode instalá -lo em outras distribuições Linux de repositórios padrão através do gerenciador de pacotes. O código -fonte e os binários executáveis também estão disponíveis aqui.
Conclusão
Estes são alguns dos mecanismos de comando mais úteis e os motores e software gráficos disponíveis para Linux. O TESSERACT OCR é a ferramenta mais desenvolvida e mais abrangente para detectar texto e deve ser suficiente para a maioria de suas necessidades. Embora você também possa tentar outros aplicativos mencionados neste artigo, se você não estiver satisfeito com os resultados do Tesseract OCR.