c# - software - Biblioteca para convertir texto de documento de Word a HTML
programas para pasar imagen a texto (2)
¿Quiere convertir un archivo * .doc a HTML? ¿Guardarlo como un archivo HTML es una opción?
Existe el método estándar .SaveAs
que tiene la opción de guardar como HTML:
wdFormatHTML Guarda todo el texto y el formato con etiquetas HTML para que el documento resultante se pueda ver en un navegador web.
Un tutorial de ejemplo sobre cómo usar el método para convertir .doc a un formato diferente que puede encontrar aquí: Cómo convertir DOC a otros formatos usando C # .
Si tiene archivos * .docx en lugar de archivos * .doc es aún más fácil porque puede usar la API OpenXML como se explica en MSDN aquí: Manipulación de archivos de Word 2007 con la API de formato XML abierto (Parte 1 de 3) . Y si obtiene el XML del archivo de Word, puede, por supuesto, enviarlo a cualquier formato (HTML) que desee.
¿Existe una biblioteca .Net de código abierto para convertir la palabra dococument en HTML para visualizar dentro de la página web?
Conozco varias herramientas para convertir documentos de Word a archivos html, pero mis requisitos son convertir el documento (ya sea desde el archivo o simplemente extraer el texto) a HTML sobre la marcha en la aplicación ASP.Net.
Encontré que la biblioteca PHP convertir-una-palabra-en-utilizable-html-en-php hace lo mismo, ¿hay alguna herramienta similar en .net?
Convierta sus archivos de documentos a PDF con la ayuda de JOdConverter y OpenOffice
Vea Cómo convertir ppt a imágenes en Ruby? para referencia
y luego use pdftohtml ( http://pdftohtml.sourceforge.net ) una utilidad que convierte archivos PDF a HTML.
Obtendrás resultados sorprendentes.