strip_tags remove phpocr examples example ejemplo php python ruby ocr tesseract

remove - tesseract ocr php example



¿Qué opciones de OCR existen más allá de Tesseract? (2)

He utilizado con éxito GOCR en el pasado para OCR de imagen pequeña. Yo diría que la precisión fue de alrededor del 85%, después de configurar correctamente las opciones de escala de grises, en fuentes bastante regulares. Falla miserablemente cuando las fuentes se complican y tiene problemas con los diseños multilínea.

También eche un vistazo a Ocropus , que es mantenido por Google. Está relacionado con Tesseract, pero por lo que entiendo, su motor OCR es diferente. Con solo los modelos predeterminados incluidos, alcanza una precisión de casi el 99% en imágenes de alta calidad, maneja el diseño bastante bien y proporciona una salida HTML con información sobre el formato y las líneas. Sin embargo, en mi experiencia, su precisión es muy baja cuando la calidad de la imagen no es lo suficientemente buena. Dicho esto, la capacitación es relativamente simple y es posible que desee intentarlo.

Ambos son fácilmente invocables desde la línea de comando. El uso de GOCR es muy sencillo; simplemente escriba gocr -h y debería tener toda la información que necesita. Ocropus es un poco más complicado; Aquí hay un ejemplo de uso, en Ruby:

require ''fileutils'' tmp = ''directory'' file = ''file.png'' `ocropus book2pages #{tmp}/out #{file}` `ocropus pages2lines #{tmp}/out` `ocropus lines2fsts #{tmp}/out` `ocropus buildhtml #{tmp}/out > #{tmp}/output.html` text = File.read("#{tmp}/output.html") FileUtils.rm_rf(tmp)

He usado Tesseract un poco y los resultados dejan mucho que desear. Actualmente estoy detectando imágenes muy pequeñas (35x15, sin borde, pero he intentado agregar una con imagemagick sin ninguna ventaja); van desde 2 hasta 5 y son una fuente bastante confiable, sin embargo, los caracteres son lo suficientemente variables como para que el simple uso de una suma de comprobación de tamaño de imagen no funcione.

¿Qué opciones existen para OCR además de seguir con Tesseract o realizar un entrenamiento personalizado completo? Además, sería MUY útil si fuera compatible con el alojamiento de estilo Heroku (al menos donde puedo compilar los contenedores y empujarlos).


Usamos OCR XTR Lite de Vividata en mi oficina. Utiliza el motor ScanSoft y es muy preciso, pero no es una solución gratuita. Actualmente se está realizando una secuencia de comandos desde bash y proceso de 75,000 a 150,000 páginas por día. La precisión es casi perfecta y rota automáticamente las imágenes para determinar la orientación de OCR.