read pdftools parse open info from python r pdf screen-scraping

python - pdftools - pdftotext windows



Raspado de PDF usando R (4)

He estado utilizando el paquete XML con éxito para extraer tablas HTML, pero quiero extenderlo a PDF. A partir de preguntas anteriores, no parece que haya una solución R simple, pero se preguntó si hubo avances recientes.

En su defecto, hay alguna forma en Python (en la que soy un novato completo) para obtener y manipular pdfs para poder terminar el trabajo con el paquete R XML


AFAIK no es una forma fácil de convertir las tablas PDF en algo útil para el análisis de datos. Puede usar la utilidad de archivo de texto de Data Science Toolkit (interfaz R a través del paquete RDSTK ), luego analizar el texto resultante. Tenga cuidado: el análisis a menudo no es trivial.

EDITAR: hay una discusión útil sobre la conversión de archivos PDF a XML en discerning.com . La respuesta breve es que probablemente necesite comprar una herramienta comercial.


Extraer texto de archivos PDF es difícil, y casi siempre requiere mucho cuidado.

Comenzaría con las herramientas de línea de comandos, como pdftotext, y vería lo que escupieron. El problema es que los PDF pueden almacenar el texto en cualquier orden, pueden usar codificaciones de fuentes incómodas, y pueden hacer cosas como usar caracteres de ligadura (los''ff ''e'' ij ''unidos que ves en la composición tipográfica adecuada) para arrojarte.

pdftotext es instalable en cualquier sistema Linux ...


Es posible que desee verificar el paquete de minería de textos tm . Recuerdo que implementaron los llamados lectores, y también había uno para archivos PDF.