sharelatex online convertir convert pdf latex file-conversion

online - pdflatex



Recuperar PDF a LaTeX (9)

Es posible convertir su PDF a HTML y su HTML a TEX usando pdftohtml y gnuhtml2latex.

En efecto, estás haciendo la conversión de PDF a LaTeX en 2 pasos. El resultado todavía es como "hacer una vaca con una hamburguesa", pero en combinación con algunos guiones de limpieza, el resultado puede ser bastante decente.

La publicación del blog " Conversión rudimentaria de PDF a LaTeX en Linux " en GlobalBlindSpot tiene un ejemplo de script Bash que convierte un archivo .pdf en un archivo .tex y ese en un archivo .pdf nuevamente.

Sé cómo hacer un PDF desde LaTeX. ¿Hay alguna forma de extraer el código LaTeX de un PDF que creé anteriormente? ¿Qué tal si alguien me envía un PDF y me gusta el formato? ¿Puedo extraer el LaTeX de él?


Hay una herramienta que lee archivos PDF como un OCR y trata de recrear el código Latex. Es casi perfecto y se llama "Infty Reader" ! Debido a que Latex es bastante extensible, no creo que sea correcto en todos los formatos.


Inkscape puede importar archivos PDF y luego guardarlos como "LaTeX con macros PSTricks", que esencialmente funciona incorporando PostScript en la fuente de LaTeX. Es más problemático de lo que vale, y la fuente de látex resultante debe procesarse previamente antes de que pueda imprimirse como PDF nuevamente.

De todos modos, incluso con un hipotético compilador de PDF a LaTeX, en el mejor de los casos obtendría algo en el que la posición y el tamaño de cada carácter o palabra se especifican por separado: lo opuesto a lo que quiere, que supongo que es para un denominador ser la mitad de una fracción, en lugar de un número debajo de una línea horizontal.


La mejor manera de extraer datos de archivos PDF (debido a su formato complicado) es abrirlos con Adobe Illustrator. Luego, convierta el archivo pdf en un archivo svg y use una biblioteca de analizadores svg y escriba un código complicado en usted.

Un eficiente svg parser lib es batik

(Para Linux es bastante complejo para convertir pdf a svg: calcmaster.net/personal_projects/pdf2svg/)

PD. He estado intentando mucho encontrar una solución para su segunda parte de su pregunta, pero he descubierto en libros como "Visualizing Data, Ben Fry, O''Reilly" que el PDF, especialmente el PDF de Adobe, es muy complejo de analizar. , así que en su lugar usa un svg parser lib.


LaTeX no tiene una conversión de uno a uno a PDF. Con respecto a su primera pregunta, creo que tal conversión puede ser técnicamente posible, pero no creo que exista una aplicación para hacerlo. De manera similar a la manera en que se puede descomponer el ensamblador en un lenguaje de alto nivel, probablemente haya una forma de hacerlo. Sin embargo, se permite que un pdf contenga toda clase de datos: dibujos de AutoCAD, gráficos JPEG, archivos de fuentes, formularios, firmas digitales, etc. Entonces, en respuesta a la segunda pregunta, no, no hay una manera de extraer LaTeX equivalente de cualquier documento PDF.


Puede funcionar con texmacs , que incluye una importación de archivos pdf.


Solo es posible si incrusta la fuente del documento en el archivo PDF. Ver el paquete de attachfile para hacer esto.


Vea mi respuesta en la pregunta relacionada ( ¿cómo convertir un DVI a tex? )

Para amplificar, no es necesario que los caracteres estén en orden de lectura (he encontrado archivos PDF en los que parte del sdrawkcab sdaer txet (y se basa en las coordenadas). Eso es muy difícil de reconstruir, ya que puede depender de las métricas de la fuente. utilizar el protocolo ASCII86 atroz.


Versión corta: No.

Versión larga: se parece mucho a la descompilación: técnicamente podría, pero implicaría muchas suposiciones y heurísticas.

No estoy familiarizado con los aspectos internos del PDF, pero es probable que establezca las fuentes / tamaños / posición directamente, en lugar de definir un formato y aplicarlo a los encabezados y similares, como en LaTeX.