una traducir texto software programa pasarlo para imagen gratis extraer escanear escaneado escaneada documento convertir como brother php pdf ms-word ocr lamp

php - traducir - ¿Cómo extraer/reconocer texto de documentos?



software ocr (3)

En lo que a mí respecta, no hay mucho que puedas hacer con OCR en PHP. La mejor solución sería usar un servicio en la nube, una aplicación web que le permite cargar una imagen y devolverle datos OCR. Pruebe www.ocrsdk.com , es un SDK de OCR basado en la nube lanzado recientemente por ABBYY. Ahora está en versión beta, por lo que es completamente gratuito y tiene ejemplos de códigos PHP listos para usar. Descargo de responsabilidad: yo trabajo @ ABBYY

Necesito extraer texto sin formato de los documentos cargados para poder buscarlos. Los documentos pueden ser MS Word o pdf (escaneados o que contengan texto). La aplicación en cuestión se ejecuta en una pila LAMP, pero la instalación de otro software podría ser una opción. ¿Hay alguna herramienta, servicio, biblioteca o combinación de los que podría recomendar para llevar a cabo esta tarea?


No conozco ningún software que convierta PDF a texto, pero para la parte de MS Word, puede utilizar Apache POI: http://poi.apache.org/, que está integrado en JAVA, por lo que tendría que ejecutar el binario de su archivo PHP para que funcione.

Otra opción es usar el JODConverter (que actualmente uso para este fin) http://code.google.com/p/jodconverter/ De modo que si el POI de Apache no funciona, sé que el jodconverter sí lo hace. Estoy usando la beta 3.0.

En mi código PHP, estoy guardando el archivo de carga y ejecutando el convertidor binario en el archivo en el directorio tmp, que creará un nuevo archivo en el directorio tmp y extraeré el texto sin formato del nuevo archivo.


Puede usar una combinación de utilidades de shell como pdftotext para PDF, wvWare para DOC, docx2txt.pl para DOCX, como lo hace el textractor rubygem.

# on Ubuntu apt-get install wv xpdf-utils links

También hay clases php nativas para extraer PDF y docx .

Otro rubygem, que incluso hace OCR para ti a través de Tesseract, es docsplit .

Puede ser una buena idea considerar Solr para indexar y buscar. Puede usar el complemento Solr Cell para indexar y buscar documentos de Word, PDF y más. Lo uso con éxito en uno de mis proyectos. Solr Cell se basa en varios proyectos como Apache POI , Tika y PDFBox .

La parte difícil es configurar todos los frascos dependientes de las celdas y el esquema de solr, y descubrir los parámetros de solicitud de indexación, pero todos pueden ser pensados ​​a partir de la documentación de la wiki. Aquí están mis archivos y esquema para que comiences, la parte relevante del esquema es la línea que contiene "datos adjuntos".

Sin embargo, Solr Cell no hace OCR. Primero tendrá que usar un motor de OCR para que puedan buscarse.

Para OCR puede usar OpenSource Engine Tesseract, desarrollado por Google, o puede que quiera echar un vistazo al motor comercial Abbyy . Ambos vienen como utilidades de línea de comandos, que puedes ejecutar desde tus scripts php. Para obtener los resultados comparables de Tesseract a partir de Abby, tendrá que hacer algunos pre y postprocesamiento 1 . También hay servicios en la nube, lo que podría ser una opción más fácil. Por ejemplo, Wisetrend y Abbyy Cloud . Este último está en beta en este momento, por lo que es gratuito y tiene muestras de código PHP listas para usar .