java - Convertir palabra(.docx) en docbook
python linux (3)
Se me ha encomendado buscar una forma de convertir una gran cantidad de archivos .docx al docbook 5. Actualmente, abrimos el archivo en openoffice y lo guardamos en el docbook. Esta es una tarea que consume tiempo, pero estoy seguro de que hay una mejor manera. Estos archivos se procesarán luego en nuestro esquema personalizado de relajación NG. Por lo tanto, esta conversión no necesita ser perfecta. He mirado alrededor, y seguiré investigando algunas pistas, pero no he encontrado nada útil.
mirando Convert doc / docx a HTML semántico , sugirieron upCast , pero esto no parece adecuado a mis necesidades.
Estoy buscando algo libremente disponible que pueda usar desde la línea de comando. En última instancia, me gustaría procesar por lotes nuestros archivos. He incluido las etiquetas de Linux, Python y Java porque estos son los entornos en los que me siento más cómodo, pero estaría dispuesto a inclinarme por la solución adecuada. Intento investigar un poco antes de salir y reinventar la rueda.
Hay varias formas de script esto, ambos utilizando scripts y scripts externos dentro de OpenOffice. Vea los siguientes enlaces para algunos ejemplos:
- http://juretta.com/log/2006/08/10/convert_microsoft_word_to_docbook_xml_using_ruby_and_openoffice/
- http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html
- http://www.xml.com/pub/a/2006/01/11/from-microsoft-to-openoffice.html
- http://mail.python.org/pipermail/python-announce-list/2006-May/004951.html
- http://dag.wieers.com/home-made/unoconv/
Algunos de los enlaces anteriores no usan Java o Python, pero los principios aún se aplican y los scripts son lo suficientemente cortos como para que puedan ser portados (el primer ejemplo está en Ruby, pero es mi favorito personal debido a la simplicidad).
Puede ejecutar OpenOffice en modo servidor y alimentar los documentos sin tener que abrir manualmente cada uno.
Una forma: http://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer
A riesgo de obtener una insignia de arqueólogo de SX, las respuestas deben incluir una referencia a Pandoc . Esto no depende de la oficina abierta.
pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx