font - read docx python
Lectura/escritura de archivos de MS Word en Python (4)
¿Es posible leer y escribir archivos de Word (2003 y 2007) en Python sin usar un objeto COM?
Sé que puedo:
f = open(''c:/file.doc'', "w")
f.write(text)
f.close()
pero Word lo leerá como un archivo HTML, no como un archivo .doc nativo.
doc (Word 2003 en este caso) y docx (Word 2007) son formatos diferentes, donde este último suele ser solo un archivo de archivos xml e imagen. Me imagino que es muy posible escribir en archivos docx manipulando el contenido de esos archivos xml. Sin embargo, no veo cómo podría leer y escribir en un archivo de doc sin algún tipo de interfaz de componente COM.
Ver python-docx , su documentación oficial está disponible aquí .
Esto me ha funcionado muy bien.
Si solo tiene qué leer, es más sencillo usar el comando linux soffice para convertirlo a texto, y luego cargar el texto en python:
Buscaría en IronPython que tiene acceso intrínseco a las API de Windows / Office porque se ejecuta en tiempo de ejecución .NET.