python - pdftools - pdftotext windows
Raspado de PDF usando R (4)
He estado utilizando el paquete XML con éxito para extraer tablas HTML, pero quiero extenderlo a PDF. A partir de preguntas anteriores, no parece que haya una solución R simple, pero se preguntó si hubo avances recientes.
En su defecto, hay alguna forma en Python (en la que soy un novato completo) para obtener y manipular pdfs para poder terminar el trabajo con el paquete R XML
AFAIK no es una forma fácil de convertir las tablas PDF en algo útil para el análisis de datos. Puede usar la utilidad de archivo de texto de Data Science Toolkit (interfaz R a través del paquete RDSTK ), luego analizar el texto resultante. Tenga cuidado: el análisis a menudo no es trivial.
EDITAR: hay una discusión útil sobre la conversión de archivos PDF a XML en discerning.com . La respuesta breve es que probablemente necesite comprar una herramienta comercial.
Extraer texto de archivos PDF es difícil, y casi siempre requiere mucho cuidado.
Comenzaría con las herramientas de línea de comandos, como pdftotext, y vería lo que escupieron. El problema es que los PDF pueden almacenar el texto en cualquier orden, pueden usar codificaciones de fuentes incómodas, y pueden hacer cosas como usar caracteres de ligadura (los''ff ''e'' ij ''unidos que ves en la composición tipográfica adecuada) para arrojarte.
pdftotext es instalable en cualquier sistema Linux ...
Es posible que desee verificar el paquete de minería de textos tm
. Recuerdo que implementaron los llamados lectores, y también había uno para archivos PDF.
El corazón de la aplicación tabula que puede extraer tablas de documentos PDF está disponible como una simple aplicación de línea de comandos, tabula-extractor .
Esta aplicación de Java ha sido incluida en R por el paquete de tabulizador . Pase la ruta a un archivo PDF e intentará extraer tablas de datos para usted y devolverlas como datos.
Para ver un ejemplo, consulte Cuando los documentos se convierten en bases de datos: Tabulizer R Wrapper para Tabula PDF Table Extractor .