saber - quitar propiedades de un archivo pdf online
Estructura de un archivo PDF? (10)
Para un proyecto pequeño, tengo que analizar archivos PDF y tomar una parte específica de ellos (una simple cadena de caracteres). Me gustaría utilizar Python para hacer esto y he encontrado varias bibliotecas que son capaces de hacer lo que quiero de alguna manera.
Pero ahora, después de algunas investigaciones, me pregunto cuál es la estructura real de un archivo pdf, ¿alguien sabe si hay alguna especificación o alguna explicación en línea? Encontré un enlace en adobe pero parece que es un enlace muerto :(
Aquí está la referencia en bruto de PDF 1.7 , y aquí hay un artículo que link1 archivo link1 . Si usa Vim, el plugin pdftk es una buena manera de explorar el documento en una forma algo menos cruda, y la pdftk utilidad pdftk (y su fuente GPL) es una gran manera de separar los documentos.
Aquí hay un enlace al material de referencia de Adobe
http://www.adobe.com/devnet/pdf/pdf_reference.html
Sin embargo, debe saber que el PDF solo se trata de presentación, no de estructura. El análisis no será fácil.
Cuando comencé a trabajar con PDF, encontré que la http://www.adobe.com/devnet/pdf/pdf_reference.html muy difícil de navegar. Podría ayudarlo saber que la descripción general de la estructura del archivo se encuentra en la sintaxis, y lo que Adobe llama la estructura del documento es la estructura del objeto y no la estructura del archivo. Eso también se encuentra en la sintaxis. La descripción de los operadores está oculta en el Apéndice A, muy útil para comprender lo que está sucediendo en las secuencias de contenido. Si alguna vez tiene el dolor de trabajar con espacios de color, ¡lo encontrará oculto en Graphics! Espero que estos indicadores te ayuden a encontrar las cosas más rápido que yo.
Si está usando Windows, pdftron CosEdit le permite navegar por la estructura del objeto para comprenderlo. Hay una demostración gratuita disponible que le permite examinar el archivo pero no guardarlo.
Didier tiene una herramienta para analizar el PDF:
http://didierstevens.com/files/software/pdf-parser_V0_4_3.zip
o aquí:
http://blog.didierstevens.com/programs/pdf-tools/ que catalogó varias herramientas de análisis de PDF relacionadas.
Otra herramienta está aquí:
Esto puede ayudar a arrojar algo de luz: (de la página 11 de PDF32000.book)
La sintaxis PDF se entiende mejor al considerarla como cuatro partes, como se muestra en la Figura 1:
• Objetos. Un documento PDF es una estructura de datos compuesta de un pequeño conjunto de tipos básicos de objetos de datos. La Subcláusula 7.2, "Convenciones léxicas", describe el juego de caracteres utilizado para escribir objetos y otros elementos sintácticos. La Subcláusula 7.3, "Objetos", describe la sintaxis y las propiedades esenciales de los objetos. La Subcláusula 7.3.8, "Objetos de secuencia", proporciona detalles completos del tipo de datos más complejo, el objeto de secuencia.
• Estructura de archivos. La estructura del archivo PDF determina cómo se almacenan los objetos en un archivo PDF, cómo se accede a ellos y cómo se actualizan. Esta estructura es independiente de la semántica de los objetos. La Subcláusula 7.5, "Estructura del archivo" describe la estructura del archivo. La subcláusula 7.6, "Cifrado", describe un mecanismo de nivel de archivo para proteger el contenido de un documento del acceso no autorizado.
• Estructura del documento. La estructura del documento PDF especifica cómo se usan los tipos básicos de objetos para representar los componentes de un documento PDF: páginas, fuentes, anotaciones, etc. La Subcláusula 7.7, "Estructura del documento", describe la estructura general del documento; las cláusulas posteriores abordan la semántica detallada de los componentes.
• Flujos de contenido. Un flujo de contenido PDF contiene una secuencia de instrucciones que describen la apariencia de una página u otra entidad gráfica. Estas instrucciones, aunque también se representan como objetos, son conceptualmente distintas de los objetos que representan la estructura del documento y se describen por separado. La Subcláusula 7.8, "Flujos de contenido y recursos", analiza las secuencias de contenido PDF y sus recursos asociados.
Parece que navegar un archivo PDF requerirá un poco más que un esfuerzo pasajero.
Estoy tratando de hacer más o menos lo mismo. La referencia en PDF es un documento muy difícil de leer. Este tutorial es un mejor comienzo, creo.
Extraer texto de PDF es un problema difícil porque PDF tiene una estructura orientada al diseño. Puede ver los documentos y el código fuente de mi intento apenas exitoso de CPAN (mi implementación está en Perl). La estructura de datos PDF es muy buena y está bien diseñada, pero es más fácil escribir que leer.
La GNU Introduction to PDF me resultó útil para comprender la estructura. Incluye un archivo PDF de ejemplo fácilmente legible que describen con todo detalle.
Otros enlaces útiles:
- PDF Sucintamente el libro es más largo y tiene imágenes útiles.
- Introducción al interior de PDF es una presentación que no es tan detallada, pero ofrece una visión general rápida y muchas imágenes.
Si desea analizar PDF usando Python, eche un vistazo a PDFMINER . Esta es la mejor biblioteca para analizar archivos PDF hasta la fecha.
Una forma de obtener algunas pistas es crear un archivo PDF que consta de una página en blanco. Tengo CutePDF Writer en mi computadora e hice un documento en blanco de Wordpad de una página. Impreso en un archivo .pdf, y luego abierto el archivo .pdf con el Bloc de notas.
Luego, use una copia de este archivo y elimine las líneas o bloques de texto que puedan ser de su interés, luego vuelva a cargar en Acrobat Reader. Te sorprendería la poca información que se necesita para crear un documento PDF de una página en funcionamiento.
Intento crear una hoja de cálculo para crear un formulario PDF a partir del código.