Precisa de extrair dados de ficheiros PDF para uma folha de cálculo, para que os possa analisar? Descubra como sete ferramentas de conversão de PDF para Excel foram utilizadas em testes com fontes de dados cada vez mais complexas.

Por Sharon Machlis
Num mundo ideal, os dados que precisamos de analisar estariam disponíveis em formato pronto a usar. No mundo em que vivemos, no entanto, muitos dados valiosos estão bloqueados dentro de documentos em formato Portable Document Format (PDF). Como extrair esses dados dos PDFs para uma folha de cálculo Excel? Tem vários conversores de PDF para Excel à sua escolha.
Há software dos principais fornecedores, como Microsoft e Adobe, serviços de cloud específicos de tarefas incluindo PDFTables e Cometdocs, serviços de fornecedores de cloud de uso geral como a Amazon, e até mesmo opções de código aberto gratuitas.
Qual é o “melhor” conversor PDF para Excel? Tal como com o “melhor computador”, a resposta depende das suas circunstâncias específicas.
3 PERGUNTAS A FAZER AO ESCOLHER UM CONVERSOR DE PDF PARA EXCELL
Há várias considerações importantes ao selecionar um conversor de PDF.
1.O meu PDF foi gerado por uma aplicação ou é uma imagem digitalizada?
Existem dois tipos de ficheiros PDF. Um é gerado por uma aplicação, como o Microsoft Word; o outro vem de um ficheiro digitalizado ou de outra imagem. Pode dizer qual deles tem, tentando destacar algum texto no documento. Se um clique e um arrastar funcionar para destacar texto, o seu PDF é gerado em anexo. Se não o fizer, tem uma digitalização. Nem todas as ferramentas de conversão de PDF funcionam em PDFs digitalizados.
2. Quão complexa é a estrutura de dados?
Quase todas as ferramentas funcionarão bem numa simples tabela de uma página. As coisas tornam-se mais complicadas se as tabelas estiverem espalhadas por várias páginas, se as células da tabela forem fundidas, ou se alguns dados dentro de uma célula da tabela se envolverem em várias linhas.
3. Tem um grande volume de ficheiros que necessita de conversão de ficheiros em lote ou de automatização?
A nossa ferramenta de melhor desempenho em PDFs gerados em apêndice pode não ser a melhor escolha para si se quiser automatizar conversões de lotes.
Além disso, como em qualquer escolha de software, é preciso decidir quanto valoriza o desempenho em relação ao custo e à facilidade de utilização.
COMO TESTÁMOS AS FERRAMENTAS DO CONVERSOR
Para o ajudar a encontrar o que é melhor para as suas tarefas, testámos sete ferramentas de conversão PDF para Excel, usando quatro ficheiros PDF diferentes, desde simples a autênticos pesadelos. Verá como todas as ferramentas funcionam em cada cenário – e descobrirá os pontos fortes e fracos de cada um.
CONVERSORES DE PDF PARA EXCELL QUE TESTÁMOS
Aqui estão as ferramentas que testamos, começando com o nosso melhor desempenho global (mas lembrem-se que “melhor” depende em parte do documento de origem específico). Todas estas ferramentas foram muito bem-sucedidas, em pelo menos algumas das nossas tarefas, por isso as classificações variam de “Excelente” a “Bom”.
Assinatura Adobe Acrobat Export PDF
Como criador da norma Portable Document Format, seria de esperar que a Adobe se saísse bem na análise de PDFs – e sai-se bem. Uma assinatura de conversão completa é um pouco cara, mas há também um plano de assinatura anual que inclui um número ilimitado de conversões de PDF para Excel. (Com esta ferramenta também se podem emitir ficheiros Microsoft Word).
As conversões para Excel incluem qualquer texto em páginas que tenham tanto texto como tabelas. Isto pode ser um benefício, se quiser manter esse contexto, ou um inconveniente, se quiser apenas dados para análise adicional.
Classificação: Excelente – o nosso vencedor para PDFs não digitalizados.
Custo: €22/ano
Prós: Resultados notáveis; preserva grande parte da formatação original; lida bem com tabelas que abrangem várias páginas; conversões ilimitadas de ficheiros até 100MB; acessível para utilizadores frequentes.
Contras: Sem fluxo de trabalho de scripting/automação incorporado; dispendioso se apenas converter alguns documentos por ano.
Resumindo: Se não precisar de script ou automatizar muitas conversões e não se importar de pagar €22 por ano, esta é uma ótima escolha.
Textract da Amazon AWS
Para um serviço de cloud AWS, o Textract é surpreendentemente fácil de usar. Embora possa certamente passar pelo habitual processo de configuração e codificação do Textract em várias etapas, a Amazon também oferece uma demonstração web de arrastar e largar que lhe permite descarregar resultados como CSVs zipados. Basta inscrever-se para obter uma conta (gratuita) AWS da Amazon.
Classificação: Excelente – esta foi a nossa melhor opção para um PDF digitalizado complicado.
Custo: 1,5 cêntimos por página (100 páginas por mês grátis durante os seus primeiros três meses no AWS)
Prós: A melhor opção testada para um PDF digitalizado complicado; realizado extremamente bem em todos os PDFs gerados em apêndice; oferece uma escolha de resultados de visualização com disposição das células fundidas ou não fundidas; fácil de usar; acessível.
Contras: Os ficheiros carregados são limitados a 10 páginas de cada vez. Para aqueles que querem automatizar, a utilização desta API é mais complicada do que algumas outras opções.
Resumindo: Uma excelente escolha se não se importar com a configuração AWS e o carregamento manual ou a codificação com um API complexo.
Tabula
Se está à procura de código aberto e gratuito, experimente o Tabula. Ao contrário de algumas opções livres do mundo Python, o Tabula é fácil tanto de instalar como de usar. E tem tanto uma linha de comando como uma interface de browser, tornando-a igualmente útil para conversões em lote e para o uso do “point-and-click”.
O Tabula saiu-se muito bem em PDFs de baixa ou moderada complexidade, embora tenha tido um problema com o complexo (tal como muitas das plataformas pagas). O Tabula requer uma instalação Java separada em Windows e Linux.
Classificação: Muito bom – e não se pode bater o preço.
Custo: Grátis
Prós: Grátis; fácil de instalar; tem tanto uma GUI como opções de scripting; permite alterar manualmente que áreas da página devem ser analisadas para tabelas; pode guardar resultados como CSV, TSV, JSON ou script; oferece dois métodos diferentes de extração de dados.
Cons: Precisava de alguma limpeza manual de dados em formatação complexa; funciona apenas em PDFs gerados em apêndice.
Resumindo: Uma boa escolha se o custo, a facilidade de utilização e as opções de automatização estiverem no topo da sua lista de características desejadas e se os seus PDFs não forem digitalizados.
PDFTables
Uma vantagem chave para este serviço é a automatização. A sua API está bem documentada e suporta desde Windows PowerShell e VBA (Office Visual Basic for Applications) a linguagens de programação como Java, C++, PHP, Python, e R.
As tabelas PDFTables tiveram um bom desempenho na maioria das tabelas PDF geradas em apêndice, mesmo compreendendo que um cabeçalho de duas colunas seria melhor como uma linha de cabeçalho de uma só coluna. Teve alguma dificuldade com dados em colunas que estavam na sua maioria vazias, mas também tinha alguns dados em células distribuídas por duas linhas. E embora se engasgasse com o pesadelo PDF digitalizado, pelo menos não me cobrou por isso.
Classificação: Muito bom em geral; excelente em automatização.
Custo: 50 páginas grátis na inscrição – incluindo o uso de API. Depois disso, são 37€ por até 1.000 páginas, e os seus créditos só são bons durante um ano.
Prós: Muito bom API; melhor desempenho no PDF moderadamente complexo do que vários dos seus rivais pagos.
Contras: Preço, especialmente se utilizar mais de 50 páginas gratuitas, mas menos de 1.000 conversões de páginas num ano. Não funciona com PDFs digitalizados.
Resumindo: Tem bom desempenho e é fácil de usar tanto na web como através de scripting e programação. No entanto, se não precisar de um API elegante, pode preferir uma opção menos dispendiosa.
PDFtoExcel.com
Esta é uma plataforma freemium com opções pagas. Provou ser a única escolha livre que foi capaz de lidar com o nosso pesadelo de PDF digitalizado.
Classificação: Bom.
Custo: Gratuito na nuvem, €5/mês ou €45/ano de cloud premium para conversões em lote e serviço mais rápido, software desktop €32 para uso de 30 dias ou €140 vitalício.
Prós: Muita capacidade para a opção gratuita; funciona em PDFs digitalizados; acessível.
Contras: Sem API ou automatização em cloud (não testámos o software de ambiente de trabalho); opção paga necessária para conversões em lote; divisão de dados multilinha em várias filas.
Resumindo: Bom equilíbrio de custos e características. Isto foi mais convincente para PDFs digitalizados complexos, mas outros fizeram melhor quando os dados de células atravessaram várias linhas.
Cometdocs
Este serviço baseado na web é notável para múltiplas conversões de formato de ficheiros: Para além de gerar Excel, pode descarregar resultados como Word, PowerPoint, AutoCAD, HTML, OpenOffice e outros. Contas grátis podem converter até cinco ficheiros por semana (30MB cada); os utilizadores pagos recebem um número ilimitado de conversões (limite de dados de 2GB/dia).
Cometdocs é um apoiante do jornalismo de serviço público; o serviço oferece contas premium gratuitas aos membros da Investigative Reporters & Editors (eu tenho uma).
Classificação: Bom.
Custo: 5 conversões/semana gratuitas; caso contrário €9/mês, €65/ano ou €120 “vitalício”.
Pro: Trabalha em PDFs digitalizados; múltiplos formatos de entrada e saída; geralmente bons resultados; saiu-se extremamente bem num PDF de 2 páginas com formato de tabela complexa.
Cons: Não tão robusto em PDFs digitalizados complexos como algumas outras opções; dividir os dados de uma linha em várias filas; nenhuma opção clara de script/automação.
Conclusão: Particularmente convincente se estiver interessado em exportações de múltiplos formatos e não apenas no Excel.
Microsoft Excel
Muitas pessoas não sabem que o Excel pode importar diretamente PDFs – mas apenas se tiver uma subscrição Microsoft 365 ou Office 365 no Windows. Foi uma boa escolha para o ficheiro simples, mas tornou-se mais complicado de utilizar à medida que a complexidade dos PDF aumentava. É também provável que seja confuso para pessoas que não estão familiarizadas com a interface Power Query / Get & Transform do Excel.
Como importar um PDF diretamente para o Excel: Na barra de ferramentas Ribbon, vá a Data > Get Data > From File > From PDF e selecione o seu ficheiro. Para uma única tabela, terá provavelmente uma opção para importar. Selecione-o e deverá ver uma pré-visualização da tabela e uma opção para carregá-la ou transformar os dados antes de carregar. Clique em Carregar e a tabela irá aparecer na sua folha de Excel.
Para uma única tabela numa só página, esta é uma escolha rápida e razoavelmente simples. Se tiver várias tabelas num PDF com várias páginas, isto também funciona bem – desde que cada tabela esteja confinada a uma página. As coisas tornam-se um pouco mais complexas se tiver uma tabela em múltiplas páginas PDF, no entanto, necessitará de conhecimentos dos comandos Power Query.
É algo injusto comparar a transformação de dados do Power Query com as outras ferramentas, uma vez que os resultados de qualquer uns destes outros conversores de PDF para Excel também poderiam ser importados para o Excel.
Classificação: Bom.
Custo: Incluído numa assinatura do Microsoft 365/Office 365 Windows.
Pro: Não tem de deixar o Excel para trabalhar o ficheiro; muitos dos dados integrados estão disponíveis para aqueles que conhecem o Power Query.
Cons: Complexo para usar em comparação com a maioria dos outros, exceto o mais simples dos PDFs; não funciona em PDFs digitalizados; requer uma subscrição do Microsoft 365/Office 365 no Windows.
Resumindo: Se já tem o Microsoft 365/Office 365 no Windows e tem uma simples tarefa de conversão, vale a pena experimentar o Excel. Se já conhece o Power Query, considere isto definitivamente para mais conversões de PDF! (Se não conhece, o Power Query é uma grande habilidade a aprender para os utilizadores de Excel em geral). Se o seu PDF é mais desafiante e não usa já o Power Query / Get & Transform, no entanto, provavelmente fica melhor com outra opção.
RESULTADOS DOS TESTES EM PDF PARA EXCELL
Eis como as sete ferramentas se saíram nos nossos quatro testes de conversão:
1. Desafio simples de PDF para Excel
A nossa tarefa “simples” foi um PDF de uma página gerado em apêndice retirado da página 5 de um relatório de habitação de Boston. Continha uma tabela e algum texto, mas os cabeçalhos das colunas e duas células de dados incluíam texto em duas linhas.
Todas as plataformas que testámos trataram bem desta situação. No entanto, várias dividiram o texto de várias linhas em várias filas. A questão era fácil de detetar e corrigir neste exemplo, mas esta questão poderia ser difícil em ficheiros maiores. Para este exemplo fácil de uma página, porém, os conversores PDF para Excel que não estavam em primeiro ou segundo lugar ainda tinham resultados muito bons. Todos valeram a pena utilizar para este tipo de conversão.
Primeiro lugar: Empate – Adobe e AWS Textract. Com Adobe, não foi necessária nenhuma limpeza de dados. Os cabeçalhos das colunas tinham mesmo a formatação da cor do original. A conversão da Adobe incluía texto (com uma bela formatação), o que é útil se se quiser manter explicações escritas juntamente com os dados em Excel. Seria necessário apagar o texto manualmente se quisesse apenas dados, mas isso é suficientemente simples.
O AWS Textract converteu apenas os dados. Não foi necessária nenhuma limpeza de dados.
Segundo lugar: Excel. Apenas dados. O Excel não partiu o texto embrulhado em duas linhas, mas parecia correr o texto em conjunto sem um espaço com várias linhas. Os dados estavam corretos, no entanto, quando se olhava para eles na barra de fórmula, apenas pareciam errados na folha de cálculo geral. Isto foi facilmente corrigido através da formatação de células com “embrulhar texto”. No entanto, nem toda a gente pode saber fazer isso ao olhar para a folha de cálculo.
Outros:
PDFTables: dados e texto devolvidos. Os mesmos problemas que o Excel, com o aparecimento de texto embrulhado numa única linha sem um espaço entre palavras. Isto também era facilmente corrigido através do embrulho de texto, se soubesse que o faria. Este resultado também necessitaria de uma limpeza de algumas palavras e de um logótipo que aparecesse por baixo dos dados. O texto explicativo fora do logótipo não teve, no entanto, problemas.
Tabula: apenas dados. Dividir células de várias linhas em várias filas.
Cometdocs: dados e texto. Dividir células de várias linhas em várias filas. O texto envolvente era exato, incluindo o texto do logótipo.
PDFtoExcel.com: desempenho semelhante ao dos Cometdocs.
2. DESAFIO MODERADO DE PDF PARA EXCELL
O nosso desafio PDF moderado foi uma única tabela gerada em apêndice que abrangia várias páginas PDF, através da Autoridade Metropolitana de Recursos Hídricos da área de Boston, que monitorizava os dados de águas residuais para vestígios de Covid-19.
Primeiro lugar: Adobe. Um dos poucos a reconhecer que todas as páginas eram a mesma tabela, pelo que não havia linhas em branco entre as páginas. Os cabeçalhos estavam numa única linha e os espaços entre as palavras nos nomes das colunas foram mantidos. A estrutura dos dados era excelente, incluindo a manutenção do envoltório de várias linhas como está. Até reproduzia as cores do fundo e do texto. O comprimento de 11 páginas não foi um problema.
Segundo: AWS Textract. A linha do cabeçalho estava correta. Cada página voltou como uma tabela separada, embora fosse suficientemente fácil combiná-las. A única questão estranha: foram acrescentados apóstrofos no início das células – possivelmente devido à forma como dividi o PDF, já que precisava de criar um ficheiro com apenas 10 páginas. No entanto, esses apóstrofos eram fáceis de ver e remover com uma única pesquisa e substituição, uma vez que os dados não incluíam quaisquer palavras com apóstrofos. Foi mais fácil obter os dados exatos de que precisava do que com o Tabula, mas mais complicado de obter o conjunto de dados completo.
Terceiro: Tabula. Nenhuma linha em branco entre páginas, dados nas colunas corretas, células embrulhadas ficaram numa única linha. Infelizmente, enquanto os dados embrulhados apareciam corretamente quando se olhava para o conteúdo das células na barra de fórmula, mais uma vez os dados pareciam fundir-se na folha de cálculo completa – e isto não foi tão facilmente corrigido através da formatação com embrulho de texto como com o Excel e PDFTables no PDF simples.
Por exemplo, este era o conteúdo de uma célula tal como aparecia na barra de fórmula:
B.1.1.7
76%
Mas na folha de cálculo global, essa mesma célula parecia
B.1.1.776%
Consegui que isso se mostrasse corretamente por vezes aumentando manualmente a altura da fila, mas este foi um passo adicional que a maioria das pessoas não saberia fazer, e não parecia funcionar a toda a hora.
Outros:
PDFtoExcel.com: múltiplos problemas. As primeiras páginas estavam bem, exceto os cabeçalhos de várias linhas, mas os dados em duas linhas em células únicas quebraram-se em duas filas nos dados, gerando filas em branco noutros locais que precisariam de ser corrigidas. Além disso, as colunas foram deslocadas para a direita numa só secção. Isto precisaria de ser limpo.
PDFTables: múltiplos problemas. Todos os dados foram bem-sucedidos na maioria das páginas, mas, no final, algumas poucas células que deveriam estar na coluna J foram fundidas com a coluna I, de forma que seriam mais difíceis de corrigir do que as do PDFtoExcel. Por exemplo, esta única célula:
Omicron
559 23%
Deveria ser 559 numa célula e Omicron 23% na célula seguinte.
Cometdocs: falhou. A conversão falhou no PDF completo e mesmo na versão de 10 páginas que carreguei para AWS. Foi capaz de converter uma versão com apenas as primeiras 5 páginas, mas o ficheiro completo deveria ter ficado bem abaixo dos limites da conta da Cometdoc.
Excel: foi possível obter os dados num formato que eu queria, mas foi necessária a manipulação de dados em Power Query, bem como o embrulho de texto. Isso não é uma comparação justa com outras plataformas que eram um único carregamento ou comando. Ainda assim, os resultados acabaram por ser excelentes. Se for um utilizador do Excel/Power Query power, esta é uma boa escolha.
3. DESAFIO COMPLEXO: PDF PARA EXCELL
Os resultados das eleições locais são alguns dos meus exemplos favoritos de análise – dados públicos hostis. O PDF gerado em apêndice tinha apenas 3 páginas, mas com formatação de tabela que não foi concebida para facilitar a importação de dados. Existe alguma ferramenta de conversão de PDF que possa tratá-lo?
Primeiro lugar: Empate – Adobe e PDF para Excel. A Adobe devolveu um ficheiro Excel em formato perfeito, completo com as cores originais das células.
Embora a folha de cálculo do PDFtoExcel.com não tivesse a bonita formatação da Adobe, todos os dados vieram com precisão e era utilizável como está.
Outros:
AWS Textract: justo. Os resultados chegaram em 5 tabelas. Num caso, seria necessário copiá-las e colá-las manualmente e olhar para o original para ter a certeza de que o estava a fazer corretamente.
PDFTables: pobres. Voltaram os dados, mas alguns nas colunas erradas, quer tenha tentado descarregar como múltiplas folhas ou uma folha. Isto necessitaria de verificação manual e limpeza.
Tabula: pobre. Problema semelhante ao das tabelas PDFTables com alguns dados nas colunas erradas, mas pelo menos não tive de pagar por isso. Tentei ambos os métodos de extração Stream e Lattice, e ambos tinham alguns problemas de colunas erradas (embora os problemas fossem diferentes).
Cometdocs: a conversão falhou.
4. PESADELO: PDF PARA EXCELL
O nosso pesadelo vem por cortesia de uma apresentação na conferência do Instituto Nacional de Relatórios Assistidos por Computador deste ano, como um exemplo de dados que seriam úteis para a formação de estudantes – se estivesse num formato que pudesse ser facilmente analisado. É um PDF digitalizado em várias páginas com quatro meses de dados do Centro Federal de Processamento de Refugiados, sobre a chegada de refugiados por país de origem e estado de destino dos EUA.
Os desafios deste PDF vão desde tabelas com várias páginas até muitas colunas fundidas. Além disso, a tabela da página 1 provou ser um pouco diferente das tabelas das outras páginas, pelo menos em termos de como várias ferramentas foram capazes de lidar com elas, embora tenham o mesmo aspeto.
Apenas testei as primeiras 10 páginas devido ao limite de 10 páginas do AWS, para ser justo com todas as ferramentas.
Em primeiro lugar: AWS Textract. De longe o melhor do grupo. É aqui que a aprendizagem de máquinas sofisticadas é uma vantagem. Os resultados são descarregados como um ficheiro zipado de múltiplos CSVs, um para cada página. No entanto, em vez de importar manualmente esses ficheiros um a um para o Excel, pode ir a Data > Get Data > From File > From Folder e selecionar a pasta com os CSVs recentemente descomprimidos (sem alguns ficheiros extra, tais como um com metadados e outro com todo o texto em formato de texto).
Também tive de renomear o ficheiro tabela-10 para tabela-910, porque a importação estava a colocar tabela-10 logo após a tabela-1 e antes da tabela-2 (ordenando os nomes dos ficheiros por ordem alfabética e não -9 após -10). Embora não tenha verificado todos os dados, as filas que verifiquei eram todas exatas. Esta foi a forma mais fácil de recolher todas as páginas numa única folha de cálculo utilizável.
Segundo: Empate – Cometdocs e PDFtoExcel.com. O Cometdocs tinha linhas “Grand” inexplicáveis em cada uma das páginas – uma única linha apenas com “Grand” na primeira coluna – mas de resto os dados pareciam muito bons. E veio num único ficheiro.
A inclusão de texto em cada página poderia ser um benefício ou um inconveniente, dependendo das suas necessidades. O contexto é útil, mas a combinação dos dados numa única tabela levaria definitivamente mais trabalho.
O desempenho de PDFtoExcel.com foi semelhante ao de Cometdocs – incluindo as linhas extra “Grandes”.
Outras: Adobe: justo. Embora muitos dos dados fossem bons, os resultados fundiram alguns dados na primeira página e precisariam de verificação manual e limpeza.
PDFTables: não funciona em PDFs digitalizados sem usar primeiro o software OCR – embora pelo menos não cobra créditos quando as tabelas não são detetadas.
Tabula: não funciona em PDFs digitalizados sem usar primeiro o software de OCR.
FERRAMENTAS DE CONVERSÃO DE PDF QUE NÃO TESTÁMOS
Existem várias outras ferramentas úteis que requerem um pouco mais de trabalho de configuração ou alguma codificação significativa a fim de transformar o seu PDF em dados que pode analisar. Se nenhuma das que testámos funciona para si, no entanto, aqui estão algumas outras:
Excalibur: Recebi uma dica sobre esta, uma interface web construída para a biblioteca Camelot Python. No entanto, envolve a instalação de várias dependências, e essa instalação pode ser uma desistência para pessoas que ainda não têm experiência Python (mesmo que não necessitem de executar a Python para o utilizarem).
Google Cloud Document AI: A instalação do Google Cloud Document AI está significativamente mais implicada do que a utilização do AWS Textract. Além disso, embora se possa carregar um documento de teste até 5 páginas para ver o que é extraído, não vi uma forma óbvia de descarregar os resultados através da interface web como um ficheiro CSV ou Excel – a única opção era JSON. Provavelmente precisaria de uma linguagem de programação como Python ou R para usar isto eficazmente.
Reconhecedor de formulários Microsoft Azure: Isto também é mais complexo de configurar do que o AWS Textract, mas se já é um utilizador Azure, provavelmente vale a pena dar uma vista de olhos. 500 páginas grátis por mês.