simbolo - ¿Cómo convierto LaTeX a texto plano(ASCII)?
simbolo de grados en latex (14)
Mi estrategia habitual es utilizar hyperlatex para convertirlo en una página web, y luego hacer frente y pegar desde un navegador web. Encuentro que esto da el mejor formato.
Por lo general, tengo que revisar y corregir manualmente algunos ajustes de línea ...
Guión:
Tengo un documento que creé usando LaTeX (mi currículum en este caso), está compilando en pdflatex
correctamente y sacando exactamente lo que me gustaría. Ahora necesito el mismo documento para convertirlo en ASCII simple.
Ejemplo:
He visto esto hecho (al menos una vez) aquí , donde el autor tiene una versión en PDF y una versión ASCII que coincide con la versión en PDF en casi todos los sentidos, incluidos los márgenes, espaciado y viñetas.
Me doy cuenta de que este tipo de conversión no puede ser exacto debido a las limitaciones en el formato ASCII, pero una aproximación muy cercana parece posible en base a lo que he encontrado hasta ahora. ¿Cuál es el proceso para hacer esto?
Otra opción es usar htlatex para crear una página web desde las fuentes de LaTeX, luego usar enlaces para convertir a texto sin formato. Usé la línea de comando
links -dump -no-numbering -no-references input.html > output.txt
en el pasado que dio un resultado bastante bueno. Por supuesto, esto coincidirá con la vista del HTML procesado que el PDF original, por lo que tal vez no sea exactamente lo que usted desea.
CatDVI puede convertir DVI a texto e intenta preservar el formato.
puedes importar a lyx y usar la función exportar a texto de lyx.
un poco tonto si no usas lyx pero si ya lo tienes, una solución muy rápida y fácil. Buen resultado para mí, aunque para ser justos, mis archivos son bastante simples. No estoy seguro de cómo se convierten los archivos más elaborados.
Pruebe los pasos aquí: http://zanedp.livejournal.com/201222.html
Aquí hay una secuencia que convierte mi archivo LaTeX a texto sin formato:
$ latex file.tex
$ catdvi -e 1 -U file.dvi | sed -re "s//[U/+2022/]/*/g" | sed -re "s/([^^[:space:]])/s+//1 /g" > file.txt
La opción -e 1 para catdvi le dice que emita ASCII. Si usa 0 en lugar de 1, generará Unicode. Unicode incluirá todos los caracteres especiales como viñetas, emdashes y letras griegas. También incluye ligaduras para algunas combinaciones de letras como "fi" y "fl". Puede que no te guste eso. Por lo tanto, use -e 1 en su lugar. Use la opción -U para indicarle que imprima el valor Unicode para caracteres desconocidos para que pueda encontrarlos y reemplazarlos fácilmente.
La segunda parte del comando encuentra la cadena [U + 2022] que se utiliza para designar los caracteres de viñeta (•) y los reemplaza con un asterisco (*).
La tercera parte devora todos los espacios en blanco adicionales que tiró catdvi para hacer que el texto esté plenamente justificado, al tiempo que conserva espacios al comienzo de las líneas (sangría).
Después de ejecutar estos comandos, sería conveniente buscar en el archivo .txt la cadena [U + para asegurarse de que no se dejen atrás los caracteres Unicode que no se pueden asignar a ASCII y solucionarlos.
He probado LyX y funciona bastante bien. El único matiz es que si tiene un archivo TeX que incluye otros archivos TeX, deberá exportarlos por separado, a menos que me falta algo.
Cuando necesité obtener el texto sin formato de mi archivo TEX para indexarlo y buscarlo, encontré que LaTeX2RTF era una buena solución: tenía un instalador y una GUI para Windows , y produjo un archivo RTF de mi tesis de 50 páginas que pude abrir en palabra.
La solución que mejor funciona para mí es la siguiente. Suponiendo que tiene el nombre del documento de látex (sin extensión) almacenado en ${BASENAME}
, aplique estos 3 pasos:
htlatex ${BASENAME}.tex
iconv -f iso-8859-1 -t utf-8 ${BASENAME}.html > ${BASENAME}-utf8.html
html2markdown ${BASENAME}-utf8.html > ${BASENAME}.txt
Aparentemente, necesitas tener tex4ht
y python-html2text
instalados.
Emacs tiene los comandos iso-iso2tex
e iso-tex2iso
que funcionan muy bien, excepto que no convierte comandos simples como /OE
a Œ
.
Si está utilizando pdflatex
, probablemente no quiera perder el tiempo con las opciones de su paquete para cambiar a latex
y generar un DVI.
En su lugar, tome su archivo pdf y conviértalo en su lugar. Esto funcionó para mi CV / currículum hecho con el paquete Curve:
pdftotext -layout MyResume.pdf
Tenga en cuenta el indicador -layout
.
Opendetex está disponible tanto para Windows como para Linux (compila bien en una Mac también). Se puede descargar de http://code.google.com/p/opendetex/downloads/list
Uso: http://code.google.com/p/opendetex/wiki/Usage
Extraerlo a cualquier directorio de su elección. Digamos que lo extrajo en su directorio de descargas.
Cree otro directorio con cualquier nombre (esto es opcional pero recomendado). Digamos que el nombre del directorio es "my_paper". Coloque su papel en el directorio "my_paper". Suponga que su nombre en papel es project.tex.
Navega hacia la ruta
cd ~/Downloads/opendetex
Ejecuta el comando
detex my_paper/project.tex > out.txt
forma genérica
detex -n full_path_to_tex_file.tex > output_text_file.txt
Puede probar algunos de los programas propuestos aquí:
También puede probar Pandoc , puede transformar el látex a muchos otros formatos. Sugiero leer su documentación, ya que puede haber algunos casos complicados que necesita pasar algunos argumentos para manejar.
Pandoc le permite convertir archivos de un formato a otro Utilice el siguiente comando de pandoc:
pandoc -s /path/to/foobar.tex -o foobar.txt
Si desea que sus líneas se rompan en cierta columna, use --column
flag. Use --columns 10000
para líneas sin interrupción.
Puede convertir -o foobar.txt
a varios otros formatos, como markdown (.md), etc. Si no especifica -o foobar.txt
, pandoc imprimirá el html que puede representar en cualquier herramienta en línea.
Para instalar Pandoc, siga esta documentación oficial