Instalando o Textract no Linux
Você pode instalar o Textract no Linux no gerenciador de pacotes PIP. Você pode instalar o Pip Package Manager no Ubuntu executando o comando abaixo:
$ sudo apt install python3-pip
Depois de instalar o Pip Manager, execute o seguinte comando para instalar dependências para o Textract:
$ sudo apt install python3-dev libxml2-dev libxslt1-dev anti-palavra untrtf popple-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-tesources
Agora use o Pip Package Manager para instalar o Textract no Ubuntu:
$ PIP3 Instale Textract
Você pode instalar o Pip Package Manager em outras distribuições Linux do gerenciador de pacotes. Como alternativa, você pode instalar o Pip Package Manager no Linux seguindo as instruções oficiais de instalação disponíveis aqui. Depois que o gerenciador de pacotes PIP estiver instalado, você pode usar o comando pip especificado acima ou seguir outras instruções de instalação disponíveis na documentação oficial do Textract (apenas para distribuições Linux que não sejam o Ubuntu).
Extraindo texto de arquivos
De acordo com a documentação oficial do Textract, você pode usá -lo para extrair texto dos seguintes formatos de arquivo:
Para extrair texto de qualquer um desses arquivos suportados e mostrar a saída como stdout no terminal, execute um comando no seguinte formato:
$ Textract arquivo.pdf
Você pode substituir “arquivo.PDF ”com qualquer outro formato de arquivo suportado pelo Textract. Dependendo do conteúdo de um arquivo, você deve ver alguma saída semelhante a esta:
Para salvar a saída extraída em outro arquivo, execute um comando no seguinte formato:
$ Textract arquivo.arquivo pdf -o.TXT
Você pode substituir os nomes de arquivos conforme necessário. A chave "-o" é usada para especificar o nome do arquivo de saída onde o texto extraído será armazenado.
Textract detecta automaticamente o tipo de extensão de arquivo e usa a tecnologia apropriada para analisar e extrair o conteúdo do arquivo. Portanto, para detectar e extrair texto de um arquivo de imagem, você pode apenas usar o comando mencionado acima e fornecer um tipo de arquivo de imagem suportado como um argumento. Desde que você use o tipo de arquivo suportado e especifique corretamente o nome do arquivo com extensão na linha de comando, o Textract fará todo o trabalho para você. Por exemplo, para extrair o conteúdo de texto de um arquivo "PNG" ou "OGG", você pode simplesmente executar esses comandos:
$ Textract arquivo.arquivo png -o.TXT
$ Textract arquivo.arquivo OGG -O.TXT
Para saber mais sobre o uso da linha de comando Textract, execute o seguinte comando:
$ texract --help
Usando o Textract como um módulo Python
Você pode usar o Textract em um programa Python, começando com a seguinte amostra de código:
Importar Textract
texto = textract.processo ("arquivo.png ")
Imprimir (texto)
A primeira declaração importa o módulo principal do Textract. Em seguida, o método de "processo" é chamado fornecendo -lhe um nome de arquivo como um argumento. Como o utilitário de linha de comando, o método do processo detecta automaticamente o tipo de arquivo atual usando seu nome de extensão e depois usa um analisador de conteúdo apropriado e o extrator adequado para a extensão do arquivo.
Você também pode substituir manualmente a extensão do arquivo usando o argumento de "extensão". Aqui está uma amostra de código:
Importar Textract
texto = textract.processo ("arquivo.ogg ", extension =" ogg ")
Imprimir (texto)
Se você deseja substituir manualmente um método de extração automática usada pelo Textract, pode usar o argumento do "método" (como mostrado no exemplo de código abaixo):
Importar Textract
texto = textract.processo ("arquivo.Ogg ", Method =" Sox ")
Imprimir (texto)
Tipos de arquivos suportados e métodos de extração estão listados aqui.
Para saber mais sobre os métodos Textract Python e seu uso, você pode ver a documentação da API disponível aqui.
Conclusão
Textract fornece uma única interface de linha de comando unificada e API Python para extrair texto de vários tipos de arquivos diferentes. Você pode até usá -lo para extrair conteúdo de arquivos de mídia. É especialmente adequado nos casos em que você não deseja passar por uma infinidade de utilitários de linha de comando diferentes para lidar com a extração de texto e deseja usar uma única API para tudo.