titulo saber online nombre metadatos love editar descargar convertir como cambiar autor pdf metadata extraction

saber - Extracción de información de archivos PDF de documentos de investigación



i love pdf (13)

Acabo de encontrar pdftk ... es increíble, viene en una distribución binaria para Win / Lin / Mac, así como fuente.

De hecho, resolví mi otro problema (mira mi perfil, pregunté y luego respondí otra pregunta en pdf ... no puedo vincular debido a 1 límite de enlace).

Puede hacer extracción de metadatos en pdf, por ejemplo, esto devolverá la línea que contiene el título:

pdftk test.pdf dump_data output test.txt | grep -A 1 "InfoKey: Title" | grep "InfoValue"

Puede volcar título, autor, fecha de modificación e incluso marcadores y números de página (el pdf de prueba tenía marcadores) ... obviamente se necesitará un poco de trabajo para agilizar apropiadamente el resultado, pero creo que esto debería ajustarse a sus necesidades.

Si sus pdfs no tienen metadatos (es decir, no hay metadatos "Abstractos"), puede cat el texto usando una herramienta diferente como pdf2text, y usar algunos trucos de grep como los de arriba. Si sus pdfs no tienen OCR, tendrá un problema mucho mayor, y la consulta ad-hoc de los pdf será extremadamente lenta (mejor para OCR).

De todos modos, recomendaría que construyes un índice de tus documentos en lugar de que cada consulta escanee los metadatos / textos del archivo.

Necesito un mecanismo para extraer metadatos bibliográficos de documentos PDF, para salvar a las personas que lo ingresan a mano o cortarlo y pegarlo.

Por lo menos, el título y el resumen. La lista de autores y sus afiliaciones sería buena. Extraer las referencias sería increíble.

Idealmente, esta sería una solución de código abierto.

El problema es que no todos los PDF codifican el texto, y muchos no conservan el orden lógico del texto, así que al hacer pdf2text se obtiene la línea 1 de la columna 1, la línea 1 de la columna 2, la línea 2 de la columna 1, etc.

Sé que hay muchas bibliotecas. Es identificar el resumen, los autores del título, etc. en el documento que necesito resolver. Esto nunca va a ser posible en todo momento, pero el 80% ahorraría mucho esfuerzo humano.


Eche un vistazo a iText . Es una biblioteca de Java que te permitirá leer archivos PDF. Todavía se enfrentará al problema de encontrar los datos correctos, pero la biblioteca proporcionará información de formato y diseño que podría ser útil para inferir el propósito.



En este caso, recomendaría TET de PDFLIB

Si necesita tener una idea rápida de lo que puede hacer, eche un vistazo al Recetario TET

Esta no es una solución de código abierto, pero actualmente es la mejor opción en mi opinión. No depende de la plataforma y tiene un amplio conjunto de enlaces de idiomas y un respaldo comercial.

Me alegraría si alguien me indicara una alternativa de código abierto equivalente o mejor.

Para extraer texto, debe usar las funciones TET_xxx() y para consultar los metadatos, puede usar las funciones pcos_xxx() .

También puede usar la herramienta commanline para generar un archivo XML que contenga toda la información que necesita.

tet --tetml word file.pdf

Hay ejemplos sobre cómo procesar TETML con XSLT en el Recetario TET

¿Qué está incluido en TETML?

La salida TETML está codificada en UTF-8 (en zSeries con USS o MVS: EBCDIC-UTF-8, consulte www.unicode.org/reports/tr16), e incluye la siguiente información: información general de documentos y contenido de texto de metadatos de cada página (palabras o párrafos) información de estructura de glifo (nombre de fuente, tamaño, coordenadas), por ejemplo, información de tablas sobre imágenes colocadas en la información de recursos de página, es decir, fuentes, espacios de color e imágenes de mensajes de error si se produjo una excepción durante el procesamiento de PDF


Esto es lo que hago usando linux y cb2bib .

  1. Abra cb2bib y asegúrese de que la conexión del portapapeles esté activada y de que su base de datos de referencia esté cargada
  2. Encuentra tu trabajo en google scholar
  3. Haga clic en ''Importar a bibtex'' debajo del papel
  4. Seleccione (resalte) todo en la página siguiente (es decir, el código bibtex)
  5. Ahora debería aparecer formateado en cb2bib
  6. Opcionalmente, ahora presione la búsqueda en la red (el ícono del globo) para agregar información adicional.
  7. Presione guardar en cb2bib para agregar el papel a su base de datos de ref.

Repita esto para todos los documentos. Creo que a falta de un método que extraiga de manera confiable metadatos de archivos PDF, esta es la solución más fácil que encontré.


Organizamos un concurso para resolver este problema en Dev8D en Londres, febrero de 2010 y obtuvimos como resultado una pequeña y agradable herramienta GPL. Todavía no lo hemos integrado a nuestros sistemas, pero está ahí en el mundo.

https://code.google.com/p/pdfssa4met/


Otra biblioteca de Java para probar sería PDFBox . Los PDF están realmente diseñados para verse e imprimirse, por lo que definitivamente desea que una biblioteca haga algo pesado por usted. Aun así, es posible que tenga que pegar un poco las piezas de texto para obtener los datos que desea extraer. ¡Buena suerte!


Prueba citeyoulike . Es un sitio web que le permite armar una biblioteca de documentos, asignarles etiquetas, buscarlos y adjuntar comentarios. También le permite agregar un botón a su navegador web, que intentará extraer automáticamente la información que desee, incluido el resumen. Sin embargo, no obtiene mucho de un pdf. Sin embargo, si lo señala como una cita para un artículo sobre IEEE explorer, citeseer o muchos sitios de revistas, por lo general puede obtener toda la información bibtex.

El hecho es que los archivos PDF a menudo no tienen toda la información de citas, para empezar. Normalmente tendrías el título y los autores, pero no necesariamente el nombre de la conferencia o el año de publicación. Tiene sentido encontrar primero una cita para el artículo sobre sitios web, PubMed u otro lugar, y extraer la información de allí.

En general, he encontrado que citeyoulike es extremadamente útil para organizar documentos. También es útil para colaborar con otras personas. Puede crear grupos, compartir documentos, configurar foros, etc.


Puede ser un poco simplista, pero el término "bibtex + paper title" en Google generalmente le proporciona una entrada de bibtex formateada de ACM, Citeseer u otros sitios de referencia de seguimiento. Por supuesto, esto es asumiendo que el papel no es de una revista no computacional: D

- EDITAR -

Tengo la sensación de que no encontrará una solución personalizada para esto, es posible que desee escribir en los rastreadores de citas como citeseer, ACM y google scholar para obtener ideas sobre lo que han hecho. Hay muchísimos más y es posible que descubras que sus implementaciones no son de código cerrado, pero no de forma publicada. Hay toneladas de material de investigación sobre el tema.

El equipo de investigación del que soy parte ha examinado estos problemas y hemos llegado a la conclusión de que los algoritmos de extracción escritos a mano o el aprendizaje automático son la manera de hacerlo. Los algoritmos escritos a mano son probablemente la mejor opción.

Este es un problema bastante difícil debido a la cantidad de variación posible. Sugiero que se normalicen los PDF a texto (que se obtiene de cualquiera de las docenas de bibliotecas PDF programáticas). Luego debe implementar algoritmos de eliminación de texto personalizados.

Comenzaría hacia atrás desde el final del PDF y veré qué tipo de claves de citas existen, por ejemplo, [1], [año-autor], (año-autor) y luego intentaré analizar la siguiente oración. Probablemente tendrá que escribir el código para normalizar el texto que obtiene de una biblioteca (eliminando el espacio en blanco adicional y demás). Solo buscaría claves de citas como la primera palabra de una línea, y solo para 10 páginas por documento; la primera palabra debe tener delimitadores de teclas, por ejemplo, ''['' o ''(''. Si no se pueden encontrar claves en 10 páginas, luego ignore el PDF y márquelo para intervención humana.

Es posible que desee una biblioteca que pueda consultar mediante programación adicional para formatear metadatos dentro de citas, por ejemplo, itallics tiene un significado especial.

Creo que puede pasar bastante tiempo para obtener una solución funcional y luego un proceso continuo de ajuste y adición a los algoritmos / motores de descarte.


Recomiendo gscholar en combinación con pdftotext .

Aunque PDF proporciona metadatos, rara vez se rellena con el contenido correcto. A menudo, por ejemplo, "None" o "Adobe-Photoshop" u otras cuerdas mudas están en el lugar del campo de título. Es por eso que ninguna de las herramientas anteriores puede derivar información correcta de los archivos PDF ya que el título puede estar en cualquier parte del documento. Otro ejemplo: muchos documentos de actas de congresos también pueden tener el título de la conferencia o el nombre de los editores que confunde las herramientas de extracción automática. Los resultados están completamente equivocados cuando te interesan los verdaderos autores del artículo.

Así que sugiero un enfoque semiautomático que involucre a Google Scholar.

  1. Renderice el PDF a texto, por lo que puede extraer: autor y título.
  2. La segunda copia pega algo de esta información y consulta a Google Scholar. Para automatizar esto, utilizo el script cool python gscholar.py.

Entonces en la vida real esto es lo que hago:

me@box> pdftotext 10.1.1.90.711.pdf - | head Computational Geometry 23 (2002) 183–194 www.elsevier.com/locate/comgeo Voronoi diagrams on the sphere ✩ Hyeon-Suk Na a , Chung-Nim Lee a , Otfried Cheong b,∗ a Department of Mathematics, Pohang University of Science and Technology, South Korea b Institute of Information and Computing Sciences, Utrecht University, P.O. Box 80.089, 3508 TB Utrecht, The Netherlands Received 28 June 2001; received in revised form 6 September 2001; accepted 12 February 2002 Communicated by J.-R. Sack me@box> gscholar.py "Voronoi diagrams on the sphere Hyeon-Suk" @article{na2002voronoi, title={Voronoi diagrams on the sphere}, author={Na, Hyeon-Suk and Lee, Chung-Nim and Cheong, Otfried}, journal={Computational Geometry}, volume={23}, number={2}, pages={183--194}, year={2002}, publisher={Elsevier} }

EDITAR: tenga cuidado, puede encontrar captchas. Otro gran script es bibfetch .


Solo tengo permitido un enlace por publicación, así que esto es: página de manual de pdfinfo Linux

Esto podría obtener el título y los autores. Mire la parte inferior de la página del manual, y hay un enlace a www.foolabs.com/xpdf donde se puede encontrar la fuente abierta para el programa, así como los binarios para varias plataformas.

Para sacar referencias bibliográficas, mira cb2bib :

cb2Bib es una aplicación gratuita, de código abierto y multiplataforma para extraer rápidamente referencias bibliográficas no formateadas o no estandarizadas de alertas de correo electrónico, páginas web de revistas y archivos PDF.

También puede consultar los foros de discusión en www.zotero.org donde se ha discutido este tema.



PyPDF podría ser de ayuda. Proporciona una extensa API para leer y escribir el contenido de un archivo PDF (no cifrado), y está escrito en un lenguaje fácil Python.