Como usar o Textract para extrair texto de arquivos

Como usar o Textract para extrair texto de arquivos
Este artigo abordará um guia sobre o uso do módulo Python e o utilitário de linha de comando “Textract” para extrair conteúdo baseado em texto de uma variedade de diferentes formatos de arquivo. Ele pode extrair texto de mais de 20 formatos de arquivo diferentes e você pode usá -lo programaticamente em seu próprio programa Python, importando seu módulo principal. Você pode ter usado outras ferramentas de linha de comando de extração de texto semelhantes. No entanto, eles são limitados principalmente a um ou dois formatos de arquivo específicos. Textract fornece uma solução única com uma interface unificada para extrair texto de uma infinidade de diferentes formatos de arquivo. Ele pode até usar o reconhecimento óptico de caracteres (OCR) e as tecnologias de reconhecimento de fala para extrair texto de arquivos de imagem e áudio, respectivamente.

Instalando o Textract no Linux

Você pode instalar o Textract no Linux no gerenciador de pacotes PIP. Você pode instalar o Pip Package Manager no Ubuntu executando o comando abaixo:

$ sudo apt install python3-pip

Depois de instalar o Pip Manager, execute o seguinte comando para instalar dependências para o Textract:

$ sudo apt install python3-dev libxml2-dev libxslt1-dev anti-palavra untrtf popple-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-tesources

Agora use o Pip Package Manager para instalar o Textract no Ubuntu:

$ PIP3 Instale Textract

Você pode instalar o Pip Package Manager em outras distribuições Linux do gerenciador de pacotes. Como alternativa, você pode instalar o Pip Package Manager no Linux seguindo as instruções oficiais de instalação disponíveis aqui. Depois que o gerenciador de pacotes PIP estiver instalado, você pode usar o comando pip especificado acima ou seguir outras instruções de instalação disponíveis na documentação oficial do Textract (apenas para distribuições Linux que não sejam o Ubuntu).

Extraindo texto de arquivos

De acordo com a documentação oficial do Textract, você pode usá -lo para extrair texto dos seguintes formatos de arquivo:

Para extrair texto de qualquer um desses arquivos suportados e mostrar a saída como stdout no terminal, execute um comando no seguinte formato:

$ Textract arquivo.pdf

Você pode substituir “arquivo.PDF ”com qualquer outro formato de arquivo suportado pelo Textract. Dependendo do conteúdo de um arquivo, você deve ver alguma saída semelhante a esta:

Para salvar a saída extraída em outro arquivo, execute um comando no seguinte formato:

$ Textract arquivo.arquivo pdf -o.TXT

Você pode substituir os nomes de arquivos conforme necessário. A chave "-o" é usada para especificar o nome do arquivo de saída onde o texto extraído será armazenado.

Textract detecta automaticamente o tipo de extensão de arquivo e usa a tecnologia apropriada para analisar e extrair o conteúdo do arquivo. Portanto, para detectar e extrair texto de um arquivo de imagem, você pode apenas usar o comando mencionado acima e fornecer um tipo de arquivo de imagem suportado como um argumento. Desde que você use o tipo de arquivo suportado e especifique corretamente o nome do arquivo com extensão na linha de comando, o Textract fará todo o trabalho para você. Por exemplo, para extrair o conteúdo de texto de um arquivo "PNG" ou "OGG", você pode simplesmente executar esses comandos:

$ Textract arquivo.arquivo png -o.TXT
$ Textract arquivo.arquivo OGG -O.TXT

Para saber mais sobre o uso da linha de comando Textract, execute o seguinte comando:

$ texract --help

Usando o Textract como um módulo Python

Você pode usar o Textract em um programa Python, começando com a seguinte amostra de código:

Importar Textract
texto = textract.processo ("arquivo.png ")
Imprimir (texto)

A primeira declaração importa o módulo principal do Textract. Em seguida, o método de "processo" é chamado fornecendo -lhe um nome de arquivo como um argumento. Como o utilitário de linha de comando, o método do processo detecta automaticamente o tipo de arquivo atual usando seu nome de extensão e depois usa um analisador de conteúdo apropriado e o extrator adequado para a extensão do arquivo.

Você também pode substituir manualmente a extensão do arquivo usando o argumento de "extensão". Aqui está uma amostra de código:

Importar Textract
texto = textract.processo ("arquivo.ogg ", extension =" ogg ")
Imprimir (texto)

Se você deseja substituir manualmente um método de extração automática usada pelo Textract, pode usar o argumento do "método" (como mostrado no exemplo de código abaixo):

Importar Textract
texto = textract.processo ("arquivo.Ogg ", Method =" Sox ")
Imprimir (texto)

Tipos de arquivos suportados e métodos de extração estão listados aqui.

Para saber mais sobre os métodos Textract Python e seu uso, você pode ver a documentação da API disponível aqui.

Conclusão

Textract fornece uma única interface de linha de comando unificada e API Python para extrair texto de vários tipos de arquivos diferentes. Você pode até usá -lo para extrair conteúdo de arquivos de mídia. É especialmente adequado nos casos em que você não deseja passar por uma infinidade de utilitários de linha de comando diferentes para lidar com a extração de texto e deseja usar uma única API para tudo.