texto que procesamiento open office insertar editar documento desplazarse descargar dentro como archivo c# .net ms-word docx doc

c# - que - insertar texto en word 2013



¿Cómo cargar el texto del documento de MS Word en C#(.NET)? (7)

¿Cómo puedo cargar el documento de MS Word (.doc y .docx) en la memoria (variable) sin hacer esto ?:

wordApp.Documents.Open

No quiero abrir MS Word, solo quiero ese texto adentro.

Me diste una respuesta para DOCX, pero ¿qué tal DOC? Quiero una solución gratuita y de alto rendimiento, no para abrir 12.000 instancias de Word para procesarlas todas. :( Aspose es producto comercial, y 900 $ es demasiado para lo que hago.


Para los documentos de Word con formato docx, encontré este interesante artículo sobre The CodeProject

Usar DocxToText para extraer texto de archivos DOCX

En el artículo, el autor discute la eliminación de las palabras mismas.

Para los documentos de Word de su doc ​​(no docx) que no sean las API de Office y (en segundo plano) generando una instancia de Word, puede probar el descascaramiento en uno de los muchos convertidores Doc2Docx del mercado y luego aplicar el proceso anterior para ambos.


No quiero ser un antagonista, pero ¿por qué?

Extraje datos de documentos de Word en servidores Linux utilizando Word2X o AbiWord y, según el número y la variedad de documentos, siempre habrá errores con la extracción. Es peor cuanto más viñetas, saltos de página, secciones de documentos y otras características "especiales" hay.

Entiendo que ahora hay opciones para automatizar OpenOffice para procesar documentos, pero mi consejo es que, si puede, simplemente use Word para procesar documentos de Word.


Aspose tiene un componente para leer, modificar y escribir documentos de Word. Aquí está el enlace del producto: Aspose.Words para .NET y Java

Aspose.Words permite que las aplicaciones .NET y Java lean, modifiquen y escriban documentos de Word® sin utilizar Microsoft Word®. Aspose.Words admite una amplia gama de funciones, incluida la creación de documentos, manipulación de contenido y formatos, potentes funciones de combinación de correspondencia, soporte integral de formatos DOC, OOXML, RTF, WordprocessingML, HTML, OpenDocument y PDF. Aspose.Words es verdaderamente el componente de Word más asequible, rápido y rico en funciones del mercado.



Recientemente realicé algunas investigaciones sobre este tema. Resulta que para poder manipular archivos de palabras de forma programática sin abrir la palabra en sí, se necesitan algunas herramientas muy costosas.

Hay un artículo sobre el proyecto de código sobre la manipulación de Word , puede que le resulte útil. El autor crea un contenedor COM de C # para tratar las llamadas a Word. Parece que realmente abre la aplicación de palabras.

Esta publicación en los foros de neowin también parece prometedora. Incluye bastantes llamadas PInvoked para extraer texto.

Tal vez si pudieras encontrar una manera de mantener la ventana escondida, sería aceptable.


Puede usar wordconv.exe, que es parte del Paquete de compatibilidad de Office para convertir de doc a docx.

http://www.microsoft.com/downloads/details.aspx?familyid=941b3470-3ae9-4aee-8f43-c6bb74cd1466&displaylang=en

Simplemente llame al comando de esta forma: "C: / Archivos de programa / Microsoft Office / Office12 / wordconv.exe" -oice -nme Archivo de entrada Archivo de salida

No estoy seguro de si necesita Word instalado para que se ejecute, pero funciona. Lo uso localmente como un comando de shell de Windows para convertir archivos antiguos de Office a formato 2007 cuando lo desee.


Con docxtemplater , puede obtener fácilmente el texto completo de una palabra (solo funciona con docx).

Aquí está el código (Node.JS)

DocxTemplater=require(''docxtemplater''); doc=new DocxTemplater().loadFromFile("input.docx"); result=doc.getFullText();

Esto es solo tres líneas de código y no depende de ninguna instancia de palabra (todas las JS simples)