read font example change add_picture python ms-word read-write

font - read docx python



Lectura/escritura de archivos de MS Word en Python (4)

¿Es posible leer y escribir archivos de Word (2003 y 2007) en Python sin usar un objeto COM?
Sé que puedo:

f = open(''c:/file.doc'', "w") f.write(text) f.close()

pero Word lo leerá como un archivo HTML, no como un archivo .doc nativo.


doc (Word 2003 en este caso) y docx (Word 2007) son formatos diferentes, donde este último suele ser solo un archivo de archivos xml e imagen. Me imagino que es muy posible escribir en archivos docx manipulando el contenido de esos archivos xml. Sin embargo, no veo cómo podría leer y escribir en un archivo de doc sin algún tipo de interfaz de componente COM.


Ver python-docx , su documentación oficial está disponible aquí .

Esto me ha funcionado muy bien.


Si solo tiene qué leer, es más sencillo usar el comando linux soffice para convertirlo a texto, y luego cargar el texto en python:


Buscaría en IronPython que tiene acceso intrínseco a las API de Windows / Office porque se ejecuta en tiempo de ejecución .NET.