linea imprimir descargar convertir codigo chrome html pdf pdf-scraping

imprimir - ¿Cómo puedo convertir PDF a HTML?



imprimir html en pdf (8)

¿Qué buenas bibliotecas hay, en cualquier idioma común, para convertir PDF a HTML?


Dada la vaguedad de la pregunta original, voy a seguir adelante y ofrecer una solución que funcione con cualquier lenguaje que pueda ejecutar aplicaciones de línea de comandos. Aunque puede ser un poco complicado configurarlo, OpenOffice puede ejecutarse en modo headless en un servidor y, con la ayuda de jodconverter , puede convertir cualquier formato de archivo a cualquier otro formato de archivo (bueno, cualquier conversión de formato que openoffice pueda manejar) , es decir).

Aquí hay un par de enlaces que ayudan con la configuración:


El programa pdftohtml convierte pdf a html y xml y conserva la información de posición del texto que es útil para tablas raspadas.

Parece estar basado en la biblioteca xpdf y también tiene un binario de Windows.


En Linux, instale pdftohtml : para la conversión por lotes de todos los archivos en una carpeta, use:

ls *.pdf | xargs -I{} pdftohtml {}

Esto creará el sitio html con todas las referencias e imágenes de los documentos originales. Cada página en un archivo html separado. Muy útil para convertir la documentación del proyecto para buscar archivos por frase, usando la búsqueda de archivos del sistema común.




Si está buscando una forma de convertir PDF a HTML una o dos veces, entonces recomiendo Adobe Online Conversion

Si se trata de una API que está buscando, http://www.pdfonline.com/ tiene un SDK que se adapta a sus necesidades.

Si lo que busca es una biblioteca, infórmenos qué idioma del lado del servidor prefiere.


Si está trabajando en una caja de Windows, creo que Amyuni tiene una biblioteca para esto también. Se puede acceder a su PDF Document Convertor como un archivo DLL, se puede usar ampliamente entre los idiomas admitidos por Visual Studio y se puede convertir a RTF, TML, EXCEL, JPEG y TIFF.