Como analisar pdf em php

Jackie Blanda

Você já tentou abrir um arquivo pdf para pesquisar uma linha ou palavra específica? Não funciona. Tudo o que você encontrará são dados binários que não fazem absolutamente nenhum sentido.

A análise de arquivos PDF é muito tediosa e complicada para qualquer desenvolvedor de software, não porque é complexo, mas devido à natureza dos arquivos PDF. Os arquivos PDF contêm objetos que são identificados por um número exclusivo. Objetos em PDF podem coletar informações como imagens, texto e muito mais. Esses objetos são criptografados e compactados, tornando quase impossível processar PDFs como documentos de texto.

Este guia aprenderá a analisar documentos em PDF usando a linguagem de programação PHP.

Configurar

O primeiro passo é configurar um ambiente de desenvolvimento. Começaremos instalando o PHP e as bibliotecas necessárias.

Para instalar o PHP, abra o terminal e insira o comando:

$ sudo apt-get install php7.5 -y

Depois que o PHP estiver instalado, use -o para instalar o Composer, conforme mostrado nos comandos:

php -r "copy ('https: // getcomposer.org/instalador ',' compositor-setup.php '); "
php -r "if (hash_file ('sha384', 'compositor -setup.php ') ===
'906A84DF04CEA2AA72F40B5F787E49F22D4C2F19492AC310E8CBA5B96AC8B64115AC402C8CD292B
8A03482574915D1A8 ') ECHO' instalador verificado '; else echo 'instalador corrompido';
desvincular ('compositor-setup.php '); echo php_eol; "
PHP compositor-setup.php
php -r "desvincular ('compositor -setup.php '); "

Depois de instalar e configurar o compositor, podemos continuar usando a biblioteca PDFPARSER.

Abra o terminal e insira o comando:

$ sudo php compositor.Phar requer smalot/pdfparser

Gerar arquivo PDF

O próximo passo é selecionar um arquivo PDF para uso. Existem várias maneiras e recursos que você pode usar para criar um arquivo pdf. Por exemplo, se você estiver no Windows, pode exportar um .documento doc/docx para pdf.

No entanto, para este exemplo, usaremos arquivos gratuitos prontamente disponíveis na Internet. Abra seu navegador e navegue até o recurso fornecido abaixo:

https: // arquivos amostras.com/formatos/pdf

Selecione um dos arquivos PDF disponíveis e salve -os em seu sistema.

OBSERVAÇÃO: Certifique -se de verificar se há arquivos maliciosos antes de usar esses documentos. Ferramentas como Virustotal são ótimos recursos.

https: // www.VIRUSTOTAL.com/gui/

A seguir, é apresentado um relatório de varredura de amostra1.ficheiro PDF.

https: // www.VIRUSTOTAL.com/GUI/FILE/6B22904A7DE5B77BF40598C37E94E01771485E1B900651B58BF50AF7009F8056

Extrato de metadados em PDF

Para extrair metadados do PDF usando a biblioteca de analisador PDF, podemos implementar o código de exemplo, como mostrado abaixo:

// inclua o compositor automaticamente
Inclua 'fornecedor/automóvel.php ';
// Parse pdf
$ parser = new \ smalot \ pdfparser \ parser ();
$ pdf = $ parser-> parsefile ("amostra1.pdf ");
// Obtenha metadados
$ metadados = $ pdf-getDetails ();
// loop cada propriedade
foreach ($ metadados como meta => $ value)
if (is_array ($ value))
$ valor.implode (",", $ valor);

eco $ meta . "=>" . $ valor . "\ n";

?>

O código acima deve buscar informações de metadados sobre o arquivo. Essas informações incluem:

CreationDate: 2016-12-22T11: 43: 55-05: 00
Criador: Adobe Indesign CC 2015 (Macintosh)
Moddate: 2016-12-29T15: 47: 20-05: 00
Produtor: Adobe PDF Library 15.0
Preso: falso
Páginas 1

Extrair texto

Para extrair texto de cada página do PDF enviado, podemos implementar o código como mostrado abaixo:

inclua "fornecedor/automóvel.php ";
$ parser = new \ smalot \ pdfparser \ parser ();
$ pdf = $ parser-> parsefile ("amostra1.pdf ");
$ text = $ pdf-> getText ();
eco $ text;
?>

Depois de executar o código acima, devemos ver o texto extraído da amostra1.ficheiro PDF. Exemplo OUPUT é como mostrado abaixo:

Fechamento

Este guia mostra como você pode analisar arquivos PDF usando PHP e a biblioteca PDFPARSER. Verifique a documentação para saber mais.

Como criar um quadro de dados vazio r

Tutorial sobre as várias abordagens para criar um quadro de dados vazio usando os dados.Frame () Fun...

Tommie Konopelski

Docker

O que é o Docker Bind Mounds?

Uma montagem de ligação do Docker é um tipo de montagem que permite aos usuários mapear um diretório...

Salvatore Watsica

Banco de dados Oracle

O Oracle Fusion considerado melhor que o SAP?

O Oracle Fusion (ERP baseado em nuvem) possui uma interface amigável, enquanto o SAP (nuvem e o loca...

Rickey Greenholt