visual studio open office gratis documentformat descargar create java xml-parsing openxml openxml-sdk

java - studio - openxml sdk create excel document



Encontrar salto de página implícito en documento de Word utilizando el análisis xml (1)

Necesito extraer el contenido de la primera página de un documento de Word. Si miro el archivo openxml para un documento de wordML podría ver cosas como: <w:lastRenderedPageBreak /> o parecería <w:br w:type="page" /> <w:br w:type="page" /> produce cuando el usuario ingresa un salto de página. No entiendo en qué se <w:lastRenderedPageBreak /> todos los casos <w:lastRenderedPageBreak /> . Ocurre en algunos de los casos de salto de página implícitos, pero no en todos. Por ejemplo: escribí un texto y luego presioné enter varias veces y el cursor pasó a la siguiente página y si aún presiono ingresar varias veces en la página nueva esto es lo que obtengo

**DOCUMENT.XML** - <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A"> - <w:r> <w:t xml:space="preserve">All my fun TEXT.</w:t> </w:r> </w:p> <w:p w:rsidR="0061403F" w:rsidRDefault="0061403F" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <-{page break} <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A" /> - <w:p w:rsidR="00266B4A" w:rsidRDefault="00266B4A" w:rsidP="00266B4A"> - <w:r> <w:t xml:space="preserve">All my fun TEXT.</w:t> </w:r> </w:p>

Como puede ver, aunque el cursor vaya a la página siguiente cuando escribo enter, no hay ninguna pista con respecto a esta actividad en el archivo document.xml en la carpeta del documento de Word extraído. ¿Alguien puede ayudarme a encontrar el salto de página implícito en el documento de Word para que pueda extraer el contenido de la primera página del documento? Si no hay forma de detectar un contenido de página particular en openxml, ¿cómo funcionan las herramientas de conversión de PDF donde cada página de documento de Word se convierte como una página en pdf?

No sugiera el uso de API como POI, que no tienen ninguna disposición para extraer contenido de la página en particular. Editar: El motivo para encontrar el salto de página implícito es porque mi tarea consiste en extraer la imagen de portada en un documento de Word. La heurística que sigo es "si la primera página del documento contiene solo una imagen, entonces es una imagen de portada, de lo contrario hay no es una imagen de portada ".Por lo tanto, necesito obtener solo el contenido de la primera página y verificar si solo tiene una imagen. ¿Cómo puedo hacerlo?


La respuesta corta es que no es posible hacer lo que se desea al examinar el XML. El motor de representación de páginas de Word (o un convertidor de PDF) es lo que determina dónde se rompe la página. El XML simplemente describe el contenido a ser "fluído" por el motor de renderizado.