para libreria informes imprimir hacer generar descargar como archivo java pdf coldfusion ocr

libreria - ¿Realizar reconocimiento óptico de caracteres en PDF de ColdFusion utilizando una biblioteca Java o.NET?



java para pdf (4)

En una nota semi relacionada, encontré una publicación muy clara sobre la codificación y lectura de códigos de barras 2D Matrix en ColdFusion.

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

Esto podría resolver algunos de mis problemas al necesitar extraer información codificada, pero aún estoy detrás del cuerpo del texto.

Con respecto a tessnet, también encontré una versión de .net. http://www.pixel-technology.com/freeware/tessnet2/ Si pudiera alimentar de forma nativa en PDF en lugar de TIFF ... :)

Estoy buscando tomar un PDF y extraer cualquier texto de él. Luego deseo ponerlo a disposición utilizando la búsqueda Verity disponible de ColdFusion para buscar los contenidos.

¿Hay bibliotecas por ahí que lo hagan bastante bien? Estoy incluyendo bibliotecas Java o .NET (Java preferred) en el alcance, ya que se pueden llamar desde CF.

Cualquier idea o experiencia sería muy apreciada ... ¡gracias!

Editar: la indexación de archivos PDF funciona cuando el texto está incrustado en el PDF hasta donde yo sé con CF. Los archivos PDF con los que estoy tratando tienen el texto escaneado como una imagen.




Si tiene la capacidad de ejecutar su propio software (es decir, Dedicado / VPS), entonces podría investigar utilizando Tesseract OCR con cfexecute para convertir los PDF a texto.