parsing - texto - crear indice en pdf online

Extraer el contenido de la tabla de una colección de archivos PDF (1)

El formato PDF desde su inicio (hace más de 20 años) nunca tuvo la intención de albergar datos extraíbles y estructurados de manera significativa .
Su propósito era ser una representación visual confiable de texto, imágenes y diagramas en un documento, un tipo de papel digital (que también se transferiría de manera confiable a papel real a través de la impresión). Solo más adelante en su desarrollo se agregaron más funciones, lo que debería ayudar a extraer datos nuevamente (google para Tagged PDF ).
Para ver algunos ejemplos de problemas que se plantean cuando se raspan tablas de datos de archivos PDF, consulte este artículo:
- ¿Por qué la actualización de dólares para documentos fue tan difícil?
Contradiciendo mi punto ''1''. arriba , ahora digo esto: para una increíble familia de herramientas que mejora y mejora de una semana a otra para extraer datos tabulares de archivos PDF (a menos que sean páginas escaneadas), vea estos enlaces:

Entonces, ve a buscar a Tabula. Si alguna herramienta puede hacer lo que usted quiere, en este momento, ¡Tabula probablemente se encuentre entre las mejores para el trabajo!

Actualizar

Recientemente he creado un screencast de ASCiinema que demuestra el uso de la interfaz de línea de comandos de Tabula para extraer una tabla grande de un PDF como CSV:

(Haga clic en la imagen de arriba para verla en ejecución. Si se ejecuta demasiado rápido para leer todo el texto, use el botón "Pausa" ( || -symbol).)

Se encuentra alojado aquí:

Tengo una pila de archivos PDF, potencialmente cientos o miles. No todos tienen el mismo formato, pero cualquiera de ellos PUEDE tener una o más tablas con información interesante que me gustaría recopilar en una base de datos separada.

Por supuesto, sé que tengo que escribir algo para hacer esto. Perl es una opción para mí, o quizás Java. Realmente no me importa qué idioma siempre y cuando sea gratuito (o barato con un período de prueba gratuito para garantizar que se adapte a mis propósitos).

Estoy viendo CAM :: Parse (usando fresa Perl), pero no estoy seguro de cómo usarlo para localizar y extraer tablas de los archivos. Supongo que tengo una preferencia por Perl, pero realmente quiero algo que funcione de manera confiable y sea razonablemente fácil realizar manipulaciones de cuerdas.

¿Cuál es un buen enfoque para algo como esto? Estoy en el punto uno, así que si Java (o Python, etc.) tienen mejores ganchos, ahora es un buen momento para saberlo. Punteros generales buenos; El código de inicio sería fuertemente preferido.