txt scraping miner python html apache pdf

scraping - python pdf to txt



Convertir PDF a HTML con Python (1)

El paquete poppler proporciona una utilidad pdf2html que usted podría ser capaz de usar. También hay un enlace de Python a libpoppler.

Esta pregunta ya tiene una respuesta aquí:

¿Cómo puedo convertir archivos PDF a HTML con Python?

Estaba pensando solo en las líneas de lo que Google hace (o parece hacer) para indexar archivos PDF.

Mi objetivo final es configurar Apache para mostrar el HTML de los archivos PDF, por lo que cualquier cosa que me lleve en esa dirección también será apreciada.