O TESSERACT é uma ferramenta de reconhecimento de texto de código aberto disponível gratuitamente, também conhecido como OCR (reconhecimento de caracteres ópticos). É usado principalmente para identificar e extrair texto das imagens. Ele lerá o texto dos dados da imagem e gravará a saída em um novo .arquivo txt. O TESSERACT também está trabalhando com o Python, pois é usado principalmente para reconhecer a caligrafia de imagens. Está usando o modelo LSTR (Memory de curto prazo). Tesseract está trabalhando sob o Apache 2.0 licença.
Vamos elaborar o método para instalar o Tesseract no Windows neste blog.
Então vamos começar!
Como instalar o Tesseract no Windows?
O Tesseract é uma ferramenta de linha de comando usada para extração de texto das imagens. Para instalar o TESSERACT no Windows, você precisa acompanhar as instruções abaixo dadas.
Etapa 1: Baixe o TESSERACT Installer
Em primeiro lugar, navegue até o link abaixo fornecido e faça o download do instalador do TESSERACT de acordo com a especificação do seu sistema:
https: // github.com/ub-mannheim/tesseract/wiki
Etapa 2: Execute o TESSERACT Installer
Visite a "Transferências”Diretório onde o instalador do TESSERACT é baixado. Para instalar o Tesseract no Windows, execute o instalador do TESSERACT clicando duas vezes nele:
Etapa 3: Selecione o idioma
Muitos idiomas são suportados pelo instalador do TESSERACT. Para interagir com a interface do usuário do instalador, escolha “Inglês”Como seu idioma e clique em“OK”:
Etapa 4: Instale o Tesseract
Ao fazer isso, o assistente de configuração do TESSERACT OCR aparecerá na tela. Para começar a instalação do TESSERACT, pressione o “Próximo" botão:
Para aceitar o “Contrato de licença", Clique no "Concordo" botão:
Selecione os "Instale para qualquer pessoa que use este computadorOpção e pressione a “Próximo" botão:
Se você deseja adicionar dados de script ou incluir outro idioma, marque suas respectivas caixas de seleção e atingir o “Próximo" botão. Como não queremos nenhum script de dados ou idioma adicional, continuaremos com opções selecionadas padrão:
Escolha o local da instalação e clique no “Próximo" botão:
Se você não deseja criar um atalho no menu Iniciar, marque o “Não crie atalhos"Caixa de seleção e pressione o"Instalar" botão:
Depois disso, a instalação do Tesseract será iniciada. Espere até a instalação completar e atingir o “Próximo" botão:
Por fim, clique no “Terminar" botão:
Etapa 5: Defina a variável de ambiente
Após a instalação, você precisa definir a variável de ambiente do Tesseract. Para fazer isso, visite primeiro o diretório onde você instalou o Tesseract e copie o caminho do “Endereço" bar:
Faça uma pesquisa por “variáveis ambientais" no "ComeceMenu e Abra “Edite as variáveis do ambiente do sistema”:
Dentro das configurações, navegue para o “Avançado”Menu de configuração e clique no“variáveis ambientais" botão:
Escolha o "Caminho”Variável da“Variáveis do sistemaPainel, e atingir o “Editar" botão:
Depois disso "Editar variável de ambiente”A janela aparecerá na tela. Aperte o "Novo”Botão e cole o caminho do diretório de instalação copiado do Tesseract aqui. Por fim, clique no “OK" botão:
Etapa 6: Verifique a instalação do tesseract
Para verificar a instalação do TESSERACT, abra o prompt de comando do Windows pesquisando “Prompt de comando" no "Comece" cardápio:
Confira a versão TESSERACT usando o comando fornecido:
> TESSERACT --VERSION
A saída abaixo do ritmo indica que instalamos com sucesso a versão TESSERACT “v5.2.0”No Windows:
Vamos seguir em frente para verificar como usar o Tesseract no Windows.
Como usar o Tesseract no Windows?
O Tesseract é usado para ler a caligrafia ou extrair texto das imagens. Vamos ver como isso funciona:
Etapa 1: Selecione Imagem
Selecione a imagem da qual você deseja extrair texto. Como escolhemos “1.png”:
Etapa 2: extrair texto da imagem
Depois que o CMD é aberto. Utilize o “cd”Comando para alterar o diretório onde a imagem é armazenada. Então execute o “tesseract”Comando e defina o nome do arquivo de imagem como especificamos“1.png”. O "Texto”O parâmetro mostra o nome do nome do arquivo de saída:
> CD C: \ Usuários \ Anuma \ OneDrive \ Pictures \ Salved Pictures
> TESSERACT 1.png "texto"
Etapa 3: Verifique a extração de texto
Para verificar a extração de texto, navegue no diretório onde o arquivo de imagem existe. Você pode ver que o arquivo de saída “Texto”Também é salvo aqui. Clique duas vezes no arquivo de saída para verificar se o Tesseract extraiu o texto da imagem ou não:
Você pode ver que extraímos com sucesso o texto usando a ferramenta Tesseract Command Line:
Demonstramos a técnica para instalar e usar o TESSERACT no Windows.
Conclusão
Para instalar o Tesseract no Windows, é necessário fazer o download do instalador TESSERACT. Para esse fim, siga a primeira sessão deste artigo. Em seguida, defina a variável de ambiente do caminho para usar e acessar o Tesseract do prompt de comando do Windows. Em seguida, selecione o arquivo de imagem e use o “Tesseract”Comando para reconhecer e extrair o texto da imagem. Aqui, você aprendeu a instalar e usar o “Tesseract”No Windows.