Linuxhint já publicou um tutorial explicando como instalar e entender o treinamento de Tesseract.
Este tutorial mostra o processo de instalação da Tesseract nos sistemas Debian/Ubuntu, mas não se estende a funcionalidades de treinamento, se você não estiver familiarizado com este software que lê o artigo mencionado pode ser uma boa introdução. Em seguida, mostraremos como processar uma imagem GIF com TESSERACT para tirar o texto.
Correr:
APT Instale Tesseract-ococ
Agora você precisa instalar o ImageMagick, que é um conversor de imagem.
Depois de instalado, já podemos testar o Tesseract, para testá -lo, encontrei um GIF licenciado para reutilização.
Agora vamos ver o que acontece quando executamos o Tesseract na imagem do GIF:
TESSERACT 2002NY40.gif 1Result
Agora faça um "menos" em 1Result.TXT
menos 1 resulto.TXT
Aqui está a imagem com o texto:
Neste tesseract ́s, as configurações padrão são bastante precisas, geralmente para obter tanta precisão que requer treinamento. Vamos tentar outra imagem gratuita que encontrei no Wiki Commons, depois de baixá -la, execute:
tesseract atualizar_gnulinux_terminal_apt-get.gif 2Result
Agora verifique o conteúdo do arquivo.
menos 2 resultação.TXT
Foi o resultado enquanto o conteúdo da imagem original foi:
Para melhorar o reconhecimento de caracteres, temos muitas opções e etapas a seguir, que foram detalhados em nosso tutorial anterior: remoção de borda, remoção de ruído, otimização de tamanho e rotação de páginas, entre outras funções, como a colheita.
Para este tutorial, usaremos o TextCleaner, um script desenvolvido pelos scripts ImageMagick de Fred.
Baixe o script e execute:
./textcleaner -g -e Stretch -f 25 -o 10 -s 1
Atualizador_gnulinux_terminal_apt-get.Teste de GIF.gif
Observação: Antes de executar o script, dê permissões de execução executando “chmod +x textcleaner”Como raiz ou com sudo prefixo.
Onde:
textcleaner: chama o programa
-g: Converta a imagem em escala de cinza
-e: Enache
-f: Filtersize
-s: sharpamt, quantidade de afiação de pixels a ser aplicada ao resultado.
Para obter informações e exemplos de uso com textcleaner, visite http: // www.FMWCOCTECTS.com/imagemagick/textcleaner/index.php
Ao ver o textcleaner, mudou a cor do plano de fundo, aumentando o contraste entre a fonte e o fundo.
Se executarmos o Tesseract provavelmente o resultado será diferente:
Teste de tesseract.GIF TestOutput
Menos testes de teste
Como você vê, o resultado realmente melhorou, mesmo quando não é totalmente preciso.
O comando converter Fornecido pela ImageMagick, nos permite extrair quadros das imagens GIF a serem processadas posteriormente pelo TESSERACT, isso é útil se houver conteúdo extraível em diferentes quadros da imagem GIF.
A sintaxe é simples:
converter
O resultado será gerado como número de arquivos como quadros no GIF, no exemplo fornecido, os resultados seriam: saída-0.jpg, saída 1.jpg, saída-2.jpg, etc.
Em seguida, você pode processá -los com o Tesseract, instruindo -o a processar todos os arquivos com um curinga salvando o resultado em um único arquivo executando:
para i na saída-*; Faça tesseract $ i outputResult; feito;
ImageMagick tem uma enorme variedade de opções para otimizar as imagens e não há um modo genérico, para cada tipo de cenário que você deve ler para o comando do Convert's Man Page.
Espero que você tenha encontrado este tutorial sobre tesseract, resultou útil.