scraping - python pdf to txt
Convertir PDF a HTML con Python (1)
El paquete poppler proporciona una utilidad pdf2html que usted podría ser capaz de usar. También hay un enlace de Python a libpoppler.
Esta pregunta ya tiene una respuesta aquí:
- Módulo Python para convertir PDF a texto [cerrado] 13 respuestas
¿Cómo puedo convertir archivos PDF a HTML con Python?
Estaba pensando solo en las líneas de lo que Google hace (o parece hacer) para indexar archivos PDF.
Mi objetivo final es configurar Apache para mostrar el HTML de los archivos PDF, por lo que cualquier cosa que me lleve en esa dirección también será apreciada.