A análise de arquivos PDF é muito tediosa e complicada para qualquer desenvolvedor de software, não porque é complexo, mas devido à natureza dos arquivos PDF. Os arquivos PDF contêm objetos que são identificados por um número exclusivo. Objetos em PDF podem coletar informações como imagens, texto e muito mais. Esses objetos são criptografados e compactados, tornando quase impossível processar PDFs como documentos de texto.
Este guia aprenderá a analisar documentos em PDF usando a linguagem de programação PHP.
Configurar
O primeiro passo é configurar um ambiente de desenvolvimento. Começaremos instalando o PHP e as bibliotecas necessárias.
Para instalar o PHP, abra o terminal e insira o comando:
$ sudo apt-get install php7.5 -y
Depois que o PHP estiver instalado, use -o para instalar o Composer, conforme mostrado nos comandos:
php -r "copy ('https: // getcomposer.org/instalador ',' compositor-setup.php '); "Depois de instalar e configurar o compositor, podemos continuar usando a biblioteca PDFPARSER.
Abra o terminal e insira o comando:
$ sudo php compositor.Phar requer smalot/pdfparser
Gerar arquivo PDF
O próximo passo é selecionar um arquivo PDF para uso. Existem várias maneiras e recursos que você pode usar para criar um arquivo pdf. Por exemplo, se você estiver no Windows, pode exportar um .documento doc/docx para pdf.
No entanto, para este exemplo, usaremos arquivos gratuitos prontamente disponíveis na Internet. Abra seu navegador e navegue até o recurso fornecido abaixo:
https: // arquivos amostras.com/formatos/pdf
Selecione um dos arquivos PDF disponíveis e salve -os em seu sistema.
OBSERVAÇÃO: Certifique -se de verificar se há arquivos maliciosos antes de usar esses documentos. Ferramentas como Virustotal são ótimos recursos.
https: // www.VIRUSTOTAL.com/gui/
A seguir, é apresentado um relatório de varredura de amostra1.ficheiro PDF.
https: // www.VIRUSTOTAL.com/GUI/FILE/6B22904A7DE5B77BF40598C37E94E01771485E1B900651B58BF50AF7009F8056
Extrato de metadados em PDF
Para extrair metadados do PDF usando a biblioteca de analisador PDF, podemos implementar o código de exemplo, como mostrado abaixo:
// inclua o compositor automaticamenteO código acima deve buscar informações de metadados sobre o arquivo. Essas informações incluem:
CreationDate: 2016-12-22T11: 43: 55-05: 00Extrair texto
Para extrair texto de cada página do PDF enviado, podemos implementar o código como mostrado abaixo:
inclua "fornecedor/automóvel.php ";Depois de executar o código acima, devemos ver o texto extraído da amostra1.ficheiro PDF. Exemplo OUPUT é como mostrado abaixo:
Fechamento
Este guia mostra como você pode analisar arquivos PDF usando PHP e a biblioteca PDFPARSER. Verifique a documentação para saber mais.