w3schools w33 school page basics html pdf file-conversion

page - w33 school html



¿Cómo convertir PDF a HTML? (6)

¿Existe una biblioteca adecuada que pueda usar para convertir PDF a HTML o algún otro formato que pueda convertirse a HTML fácilmente?

Busqué preguntas similares, pero no tuve suerte.

Quiero poder extraer texto de PDF, posiblemente imágenes. No estoy buscando insertar el PDF dentro del HTML.


Como mencioné en el comentario anterior, definitivamente es posible convertir PDF a html usando la herramienta Able2Extract7 que se puede descargar desde aquí

He estado usando esta herramienta durante casi 2 años y estoy muy contento con ella. Esta herramienta te permite convertir PDF a Word, Excel, PowerPoint, Publisher, HTML , OO, etc. Ver captura de pantalla

Nota imp : esta herramienta no es un programa gratuito.

HTH


Es técnicamente imposible simplemente "convertir" un archivo PDF a HTML. El formato PDF es más como un "lienzo", donde "coloca" sus bloques de texto e imágenes, mientras que HTML necesita CSS o muchas tablas para "colocar" los bloques. Además, los archivos PDF incrustan las imágenes, mientras que HTML simplemente llama a otros archivos.
Hay muchos otros ejemplos de diferencias, pero esencialmente, es como pedir que se convierta una imagen o un video con texto.

Sin embargo, puede leer desde un archivo PDF y luego extraer el texto y las imágenes de él, utilizando bibliotecas u otras técnicas avanzadas. .Net tiene algunas bibliotecas, por ejemplo: http://forums.asp.net/post/2167442.aspx

Si solo necesita convertir un archivo una vez, puede abrir el archivo pdf en Illustrator, por ejemplo, y luego exportarlo en html. O puede seleccionar todo el documento (ctrl + a), copiarlo y pegarlo en Word, y luego guardar el resultado en html. No será perfecto, pero será un comienzo.


Sí, definitivamente es posible. Si estás en Ubuntu Linux

apt-get install htmltopdf

entonces

htmltopdf myFile.pdf myFile.htm -c -noframes

Si quiere ver lo que significan todas las banderas, simplemente escriba

htmltopdf

Si no está en Linux, hay una gran cantidad de herramientas que puede utilizar para que esto suceda.


Descargar

  • pdfbox-2.0.3.jar
  • fontbox-2.0.3.jar
  • Preflight-2.0.3.jar
  • xmpbox-2.0.3.jar
  • pdfbox-tools-2.0.3.jar
  • pdfbox-depurador-2.0.3.jar

de http://pdfbox.apache.org/

import java.io.InputStream; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.tools.PDFText2HTML; // ..... try { InputStream is = // ..... Read PDF file PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document. PDFText2HTML converter = new PDFText2HTML(); // the converter String html = converter.getText(pdd); // That''s it! pdd.close(); is.close(); } catch (IOException ioe) { // ...... }

Tenga en cuenta que las imágenes no se envían al resultado HTML.


Si está en Linux, intente con pdftohtml:

sudo apt-get install poppler-utils pdftohtml -enc UTF-8 -noframes file.html

El convertidor de libros electrónicos de fuente abierta Caliber también puede convertir archivos PDF a HTML y está disponible en MacOS, Windows y Linux.


No es tan difícil convertir PDF a HTML. Hay muchas opciones en línea, que pueden, sin embargo, exponer sus datos a terceros. Siga estos pasos y la salida es excelente.

  1. Abra la página PDF2HTMLEX . (Puede seguir los próximos pasos que he mencionado o seguir las instrucciones de la página).

  2. El paquete está disponible para descargar para Windows desde aquí .

    De las muchas opciones disponibles, recomiendo descargar "pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip (pdf2htmlEx.exe está lleno de UPX)"

  3. Después de descargar y descomprimir la conversión está a solo un comando de cmd de distancia.

    C:/Users/kjk/Downloads/pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:/1/abc.pdf

    Comando final:

    pdf2htmlEX.exe c:/1/abc.pdf

    (Por supuesto, puede acortar el nombre de la carpeta, sin embargo, lo mantuve igual que vería después de desactivar la descarga. Estoy asumiendo que puede cambiar el directorio en cmd a la carpeta deseada o bien, cómo Google).

abc.pdf se convertirá a HTML y se guardará como abc.html en la misma carpeta que la de su ejecutable.