ms office - ¿Cómo se pueden convertir los archivos doc/docx a markdown o texto estructurado?
md to word (9)
Dado que hiciste esta pregunta en stackoverflow, probablemente estés deseando una solución programática o de línea de comando para la que he incluido otra respuesta.
Sin embargo, una solución alternativa podría ser utilizar el complemento Writage Markdown para Microsoft Word.
Writage convierte Word en su editor WYSIWYG de Markdown, por lo que podrá abrir un archivo Markdown y editarlo como si normalmente editara cualquier documento en Microsoft Word. También será posible guardar su documento Word como un archivo Markdown sin ningún otro convertidor.
Bajo las cubiertas, Writage usa Pandoc que también necesitarás instalar para que funcione este complemento.
Actualmente es compatible con los siguientes elementos de Markdown:
- Encabezados
- Listas (numeradas y con viñetas)
- Campo de golf
- Estilos de fuente como negrita, cursiva
- Mesas
- Notas a pie de página
Esta podría ser la solución ideal para muchos usuarios finales, ya que no necesitarán instalar o ejecutar ninguna herramienta de línea de comandos, sino que simplemente se quedarán con lo que les resulta más familiar.
¿Hay un programa o flujo de trabajo para convertir archivos .doc
o .docx
a Markdown o texto similar?
PD: Idealmente, agradecería la opción de que una fuente específica (por ejemplo, consolas
) en el documento de MS Word se represente en text-code: ```....```
.
Desde here :
unoconv -f html test.docx
pandoc -f html -t markdown -o test.md test.html
Pandoc admite la conversión de docx a markdown directamente:
pandoc -f docx -t markdown foo.docx -o foo.markdown
Para las listas con viñetas, puede pegar una lista en Sublime Text y usar multiselect (probado) o buscar y reemplazar (no probado) para reemplazar, por ejemplo, los caracteres patentados de MS Word con -
, --
etc
Esto no funciona con los encabezados, pero puede ser posible utilizar una técnica similar con otros elementos.
Puede convertir documentos de Word desde MS Word a Markdown utilizando este script de Visual Basic:
https://gist.github.com/hawkrives/2305254
Siga las instrucciones de "Para usar el código" para crear una nueva macro en Word.
Nota: Esto convierte el documento de Word actualmente abierto en A Markdown, que elimina todo el formato de Word (encabezados, listas, etc.). Primero guarde el documento de Word que planea convertir, y luego guarde el documento nuevamente como un documento nuevo antes de ejecutar la macro. De esta manera, siempre puede regresar al documento original de Word para realizar cambios.
Aquí hay más ejemplos de scripts de VB de Word a markdown:
Puede usar Word to Markdown (Ruby Gem) para convertirlo en un solo paso. La conversión puede ser tan simple como:
$ gem install word-to-markdown
$ w2m path/to/document.docx
Enruta el documento a través de LibreOffice, pero también lo hace mejor para semantizar los títulos en función de su tamaño de fuente relativa.
También hay una versión alojada que sería tan simple como arrastrar y soltar para convertir.
Si está utilizando Linux, intente con Pandoc (primer convertido .doc / .docx en html con LibreOffice o algo así y luego ejecútelo).
En Windows (o si Pandoc no funciona), puede probar este sitio web (demostración en línea, puede descargarlo): Markdownify
Word to Markdown podría valer la pena, o el procedimiento descrito here usando Calibre y Pandoc a través de HTMLZ, aquí hay un script bash que usan:
#!/bin/bash
mkdir temp
cp $1 temp
cd temp
ebook-convert $1 output.htmlz
unzip output.htmlz
cd ..
pandoc -f html -t markdown -o output.md temp/index.html
rm -R temp
Mammoth es mejor conocido como un convertidor de Word a HTML, pero ahora es compatible con un módulo de escritura Markdown . La última vez que lo verifiqué, el soporte de Mammoth Markdown todavía estaba en sus primeras etapas, por lo que es posible que encuentre algunas características que no son compatibles. Como de costumbre ... consulte el sitio web para obtener los últimos detalles.
Instalar
Para usar la versión de Javascript ... instale NodeJS y luego instale Mammoth:
npm install -g mammoth
Línea de comando
Línea de comando para convertir un documento de Word a Markdown ...
mammoth document.docx --output-format=markdown
API
NodeJS API para convertir a Markdown ...
var mammoth = require("mammoth");
mammoth.convertToMarkdown({path: "path/to/document.docx"});
caracteristicas:
Mammoth Markdown writer actualmente admite:
- Listas (numeradas y con viñetas)
- Campo de golf
- Estilos de fuente como negrita, cursiva
- Imágenes
Las herramientas de línea de comandos de Mammoth y la API se han portado a varios idiomas :
Sin rebaja (mayo de 2016):
Con Markdown: