programacion - Extraiga todo de PDF

pdf metadata online (5)

Buscando una solución para extraer contenido de un archivo PDF (usando una herramienta de consola o una biblioteca).

Se usará en el servidor para producir libros electrónicos en línea a partir de archivos PDF cargados.

Necesita extraer lo siguiente:

texto con fuentes y estilos;
imágenes;
audio y video;
enlaces y puntos de acceso.
instantáneas de página y miniaturas;
información general de PDF, por ejemplo, diseños de libros, cantidad de páginas, etc.

En cuanto a Adobe PDF Library ($ 5000), BCL SDK (?), PDFLib (€ 795), QuickPDF ($ 250)

Ahora estamos usando código abierto pdf2xml (extractos de texto, imágenes y enlaces) y GhostScript (instantáneas y miniaturas). Las otras cosas que quedan son:

fuentes;
multimedia;
Puntos calientes;
información de la página.

Estamos dudando entre pagar una gran cantidad de dinero (y posiblemente cometer un error al elegir una solución incorrecta) o utilizar soluciones de código abierto / gratuito.

¿Qué solución MEJOR para extraer casi todo de PDF recomendaría?

Cualquier comentario será muy apreciado.

A: Fuente: No creo que se puedan extraer las fuentes.

B: No estoy seguro de multimedia

C: ¿Qué son puntos de acceso?

D: Eche un vistazo a iTextSharp (código abierto), es posible que pueda extraer más información de la página.

Parece que con unos pocos días o semanas de esfuerzo, puede adaptar las herramientas de código abierto a sus necesidades. Las fuentes y todo se pueden extraer, esto es algo que cada lector de PDF debe hacer de todos modos para mostrarlos.

Probablemente debería tomar una estimación de los costos del programador ($ / hora) y multiplicarla por el tiempo estimado que llevaría agregar la funcionalidad de fuente abierta necesaria (¿60-80 horas?). Si esto es mayor o cerca de $ 5000 de todos modos, puede considerar comprar el software comercial.

De lo contrario, con la ayuda de la (bastante buena) referencia en PDF , debería estar bien encaminado.

Una cosa más, es posible que Poppler sea de ayuda. Es para renderizar PDF, pero eso está muy relacionado con lo que estás tratando de hacer.

Sí, puede extraer los textos, la información de estilo de texto, las imágenes, las anotaciones de enlace, los marcadores e incluso puede obtener la información de identificación de párrafo, excepto las tablas. Mira este enlace

http://www.pdftron.com/pdfnet/index.html

Realmente funciona bien

tika http://tika.apache.org/ Su ventaja es extraer texto de varios tipos. pero puede resolver tu problema también.

Para la implementación: El objetivo de Tika es reutilizar las bibliotecas analizadoras existentes como PDFBox o Apache POI tanto como sea posible, por lo que la mayoría de las clases de analizadores en Tika son adaptadores para dichas bibliotecas externas.

Creo que tika puede funcionar como describes. Extraiga cosas con categeries. (Se agregará más código más tarde).

Aún no es una respuesta exacta.

También hay PDF Suite que contiene 3 SDK especialmente diseñados para extraer contenido de PDF, procesar PDF como imagen y convertirlo a html. Aunque no hay extracción de archivos de fuentes, pero admite salida XML y extracción de texto preservando el diseño original.

Existe una utilidad gratuita "Multitool PDF" basada en este motor, por lo que puede jugar con ella para ver cómo funciona para los archivos PDF que tiene.

Descargo de responsabilidad: yo trabajo para ByteScout