Como instalar o Tesseract no Windows

Como instalar o Tesseract no Windows

O TESSERACT é uma ferramenta de reconhecimento de texto de código aberto disponível gratuitamente, também conhecido como OCR (reconhecimento de caracteres ópticos). É usado principalmente para identificar e extrair texto das imagens. Ele lerá o texto dos dados da imagem e gravará a saída em um novo .arquivo txt. O TESSERACT também está trabalhando com o Python, pois é usado principalmente para reconhecer a caligrafia de imagens. Está usando o modelo LSTR (Memory de curto prazo). Tesseract está trabalhando sob o Apache 2.0 licença.

Vamos elaborar o método para instalar o Tesseract no Windows neste blog.

Então vamos começar!

Como instalar o Tesseract no Windows?

O Tesseract é uma ferramenta de linha de comando usada para extração de texto das imagens. Para instalar o TESSERACT no Windows, você precisa acompanhar as instruções abaixo dadas.

Etapa 1: Baixe o TESSERACT Installer

Em primeiro lugar, navegue até o link abaixo fornecido e faça o download do instalador do TESSERACT de acordo com a especificação do seu sistema:

https: // github.com/ub-mannheim/tesseract/wiki

Etapa 2: Execute o TESSERACT Installer

Visite a "Transferências”Diretório onde o instalador do TESSERACT é baixado. Para instalar o Tesseract no Windows, execute o instalador do TESSERACT clicando duas vezes nele:

Etapa 3: Selecione o idioma

Muitos idiomas são suportados pelo instalador do TESSERACT. Para interagir com a interface do usuário do instalador, escolha “Inglês”Como seu idioma e clique em“OK”:

Etapa 4: Instale o Tesseract

Ao fazer isso, o assistente de configuração do TESSERACT OCR aparecerá na tela. Para começar a instalação do TESSERACT, pressione o “Próximo" botão:

Para aceitar o “Contrato de licença", Clique no "Concordo" botão:

Selecione os "Instale para qualquer pessoa que use este computadorOpção e pressione a “Próximo" botão:

Se você deseja adicionar dados de script ou incluir outro idioma, marque suas respectivas caixas de seleção e atingir o “Próximo" botão. Como não queremos nenhum script de dados ou idioma adicional, continuaremos com opções selecionadas padrão:

Escolha o local da instalação e clique no “Próximo" botão:

Se você não deseja criar um atalho no menu Iniciar, marque o “Não crie atalhos"Caixa de seleção e pressione o"Instalar" botão:

Depois disso, a instalação do Tesseract será iniciada. Espere até a instalação completar e atingir o “Próximo" botão:

Por fim, clique no “Terminar" botão:

Etapa 5: Defina a variável de ambiente

Após a instalação, você precisa definir a variável de ambiente do Tesseract. Para fazer isso, visite primeiro o diretório onde você instalou o Tesseract e copie o caminho do “Endereço" bar:

Faça uma pesquisa por “variáveis ​​ambientais" no "ComeceMenu e Abra “Edite as variáveis ​​do ambiente do sistema”:

Dentro das configurações, navegue para o “Avançado”Menu de configuração e clique no“variáveis ​​ambientais" botão:

Escolha o "Caminho”Variável da“Variáveis ​​do sistemaPainel, e atingir o “Editar" botão:

Depois disso "Editar variável de ambiente”A janela aparecerá na tela. Aperte o "Novo”Botão e cole o caminho do diretório de instalação copiado do Tesseract aqui. Por fim, clique no “OK" botão:

Etapa 6: Verifique a instalação do tesseract

Para verificar a instalação do TESSERACT, abra o prompt de comando do Windows pesquisando “Prompt de comando" no "Comece" cardápio:

Confira a versão TESSERACT usando o comando fornecido:

> TESSERACT --VERSION

A saída abaixo do ritmo indica que instalamos com sucesso a versão TESSERACT “v5.2.0”No Windows:

Vamos seguir em frente para verificar como usar o Tesseract no Windows.

Como usar o Tesseract no Windows?

O Tesseract é usado para ler a caligrafia ou extrair texto das imagens. Vamos ver como isso funciona:

Etapa 1: Selecione Imagem

Selecione a imagem da qual você deseja extrair texto. Como escolhemos “1.png”:

Etapa 2: extrair texto da imagem

Depois que o CMD é aberto. Utilize o “cd”Comando para alterar o diretório onde a imagem é armazenada. Então execute o “tesseract”Comando e defina o nome do arquivo de imagem como especificamos“1.png”. O "Texto”O parâmetro mostra o nome do nome do arquivo de saída:

> CD C: \ Usuários \ Anuma \ OneDrive \ Pictures \ Salved Pictures
> TESSERACT 1.png "texto"

Etapa 3: Verifique a extração de texto

Para verificar a extração de texto, navegue no diretório onde o arquivo de imagem existe. Você pode ver que o arquivo de saída “Texto”Também é salvo aqui. Clique duas vezes no arquivo de saída para verificar se o Tesseract extraiu o texto da imagem ou não:

Você pode ver que extraímos com sucesso o texto usando a ferramenta Tesseract Command Line:

Demonstramos a técnica para instalar e usar o TESSERACT no Windows.

Conclusão

Para instalar o Tesseract no Windows, é necessário fazer o download do instalador TESSERACT. Para esse fim, siga a primeira sessão deste artigo. Em seguida, defina a variável de ambiente do caminho para usar e acessar o Tesseract do prompt de comando do Windows. Em seguida, selecione o arquivo de imagem e use o “Tesseract”Comando para reconhecer e extrair o texto da imagem. Aqui, você aprendeu a instalar e usar o “Tesseract”No Windows.