La forma más fácil o las mejores herramientas para convertir texto de texto en limpio(X) HTML

xhtml ms-word (14)

Convierta a RTF y use un XSLT para convertir el texto enriquecido a HTML. Recomiendo tratar de obtener todo como RTF en lugar de .docx o cualquier formato de Word.

Esto podría haberse preguntado de otra manera. No lo hago sobre la marcha, sin embargo. De vez en cuando, obtenemos fragmentos de contenido en archivos de palabras que tienen guiones, negrita, cursiva y comillas. ¿Hay una buena herramienta para convertir esto en un código html limpio?

De lo contrario, qué otros enfoques se toman las personas.

Es posible que desee probar esta herramienta: OpenXML Document Viewer .

Ofrece una herramienta de línea de comandos para convertir documentos OpenXML (DOCX) en HTML.

Hace mucho tiempo tuve la tarea de tomar un documento de Word de varios megabytes razonablemente bien estructurado y convertirlo en una serie de páginas HTML (¡aproximadamente 20,000 de ellas!). Esto se logró guardando la palabra doc como RTF (Word''s Save As HTML output era demasiado "sucio") y convertir el RTF a HTML a través de un script de Perl. La conversión fue un proceso de dos pasos ... Primero borre los errores comunes de formateo, luego convierta el RTF limpio a HTML.

Dado que los editores de documentos continuaron manteniendo el documento de Word, pagaron codificar errores de formato comunes en la primera pasada porque los errores a menudo volvían a ocurrir incluso después de haberse solucionado.

Dicho sea de paso, este proceso mostró una gestión muy escéptica de cómo en tan solo 40 horas (más o menos) un buen codificador podría producir ~ 20,000 páginas web y mantenerlas actualizadas indefinidamente, mientras que los autores originales (cuyo tiempo era aún más valioso) habrían gastado varios cientos de horas haciendo la conversión y se habría visto obligado a mantener el HTML resultante a mano a partir de entonces.

La manera más fácil y más rápida para mí es copiar todo el texto de Word y pegarlo en el editor wysiwyg de Dreamweaver (cualquier versión de MX a CS3) usando el comando especial pegar y elegir mantener solo la estructura del documento. Funciona muy bien si su documento de Word no es demasiado complejo, y si es realmente complejo solo necesita una edición adicional en la vista de código. El html resultante es realmente limpio.

El único problema con este método es que necesita Dreamweaver, que no es gratis. De todos modos, puedes probar el método con la versión de prueba de DW.

Me sorprende que nadie lo haya mencionado, pero HTML Tidy normalmente hace un buen trabajo al respecto. No lo he usado recientemente, pero entiendo que es adecuado para limpiar contenido HTML expuesto de Word en particular.

Si puede instalar Word 2003 o 2007, puede usar el nuevo formato OOXML para generar archivos XML. El formato es bonito ... complejo, pero al menos puedes analizarlo con herramientas estándar. Eso debería permitirle extraer la información que necesita del archivo.

El archivo OfficeXMLMarkupExplained_en.docx contiene una introducción y muchos detalles sobre cómo funciona OOXML.

Word es muy "sucio" con su propia codificación. Puede tener etiquetas en negrita anidadas, etiquetas en negrita vacías y todo tipo de maldad dependiendo de si el usuario usó los estilos incorporados (encabezado 1, encabezado 2, etc.) frente a los tamaños de fuente cambiantes. Cualquier cosa que tome el documento de Word e intente "convertirlo" a HTML heredará los mismos problemas de marcado también.

Lo mejor que puede hacer es grabar una macro en Word para realizar múltiples acciones de búsqueda y reemplazo en cosas obvias, como M-guiones, pestañas, puntos suspensivos, etc.

Luego reemplace el salto de párrafo ^ p ^ p con un marcador de posición (como ~ ), luego reemplace todos los saltos individuales ( ^ p ) con un espacio, luego reemplace ~ con </p>^p</p> para generar párrafos HTML.

Luego copie todo el documento, péguelo en el Bloc de notas para eliminar cualquier marca que no sea ASCII, luego cópielo y péguelo en su editor de HTML y marque manualmente el 10% restante, como negrita y cursiva, etiquetas de párrafo no coincidentes, etc.

Nada será tan bueno como la codificación manual, por lo que con esta técnica la mayor parte del trabajo se hace, y tienes texto limpio para empezar.

Hace años, escribí una herramienta llamada CleanXHTML 1.2 para Microsoft Office Word 2003 (.NET 2.0) . Está diseñado para funcionar dentro de Word y le permite exportar XHTML en función de lo resaltado (o seleccionado) en el documento. He estado sentado en una versión de Word 2007 durante años.

Pruebe también http://www.manglebracket.com/ , es una aplicación web donde carga un Word DOC y lo convierte en HTML con varias (demasiadas) opciones. Perfecto para la conversión ad-hoc, cuando su redactor le envía un comunicado de prensa en Word y desea ponerlo en el sitio, por ejemplo.

Escribí una utilidad de línea de comandos para hacer esto: para más detalles, consulte este convertidor de Doc to HTML .

Yo uso TinyMCE para pelar y convertir documentos de una sola palabra. Es gratis, siempre que puedas subirlo a tu proveedor de alojamiento web (suponiendo que tengas uno). Protejo mi instalación para evitar el spam, pero puede usar su demostración en http://tinymce.moxiecode.com/tryit/full.php .

De hecho, hace el trabajo mejor que la mayoría de los programas de conversión independientes que he probado, al menos por cómo lo uso.

Puedes probar este convertidor de Doc to HTML . No es gratis, pero resuelve el problema.

WordDown es un bookmarklet para convertir documentos de Microsoft Word a HTML5. Cambia no solo la sintaxis del documento, sino también la semántica y la apariencia visual. En mi caso de prueba, el resultado visual fue muy agradable en comparación con el documento original. Si desea imprimir el documento convertido, debe saber que el pequeño letrero rojo en el lado izquierdo no está incluido en la hoja de estilo de impresión.

Nigromancia:

Abra el documento de Word en Word 2013.
Guardar como odt (Documento de OpenOffice).
Abrir con OpenOffice
Y cualquiera usa
"Save As" ==> HTML-Document
o usar

"File" ==> Export ==> XHTML

Exportación requerirá que JRE esté instalado, Guardar como no será.

Para Word, puede usar COM-interop, o puede usar Aspose Words.

También puede usar directamente aspose.words, y simplemente eliminar el texto "copyright" con la consulta xpath;)