traineddata trained tessdata spanish for esp data ocr tesseract

ocr - trained - Tesseract confunde dos números



tesseract spanish traineddata (2)

Es probable que en algún lugar de su archivo de caja haya valores incorrectos (caracteres) para 1 y 8. Puede verificar usando el programa jTessBoxEditor . Si es así, corrija, regenere el archivo de datos de idioma e intente nuevamente.

Estoy escribiendo una aplicación para escanear números de una imagen.

Los números utilizan la fuente OCR-B y también pueden contener + y > caracteres.

Esta es mi imagen de origen:

Las exploraciones que usaron Tesseract no fueron muy buenas, incluso cuando se limitó el conjunto de caracteres a los caracteres mencionados. Como no encontré ningún archivo de entrenamiento de OCRB para Tesseract, decidí entrenarlo yo mismo.

Creé esta imagen de entrenamiento e hice un archivo de caja con ella. El archivo de caja es correcto, todas las letras coinciden correctamente.

Luego hice todos los pasos descritos aquí para crear los otros archivos necesarios.

Al usar este conjunto de datos OCR-B recién entrenado, obtengo resultados bastante buenos en la imagen de origen, con un pequeño error: todos los 1 s se confunden con 8 sy viceversa. El comando utilizado para procesar la imagen era

$ tesseract esr2c.tif ocrb-esr2c -l ocrb

y la salida para la imagen de origen era

0800000001456> 8 00000195731208 8 01050008 023+ 08 0301226> 20

Si cambia todos los 1 sy 8 sy lo compara con la imagen de origen, la salida sería correcta (excepto por las dos últimas letras que puedo ignorar).

¿Cómo pudo pasar esto? ¿Cometí algún error en el proceso de entrenamiento? ¿Cómo puedo arreglarlo?


He entrenado tesseract 2.04 después de 1 mes de esfuerzos para OCR A fuente extendida. Funciona muy bien y muestra una precisión superior a 90 con un tamaño de fuente 14.

La imagen de entrenamiento debe ser imagen de alto contraste. Use el editor de imágenes "GIMP" y haga lo siguiente en Colores de menú-> Información-> Histgram- Lectura de los valores de Desviación estándar colores-> Trilla -> Escriba "Valor de Desviación Std" como Valor de la trilla Guardar imagen Use para entrenar.

Verifique y edite el archivo de su caja usando "qt-box-editor-1.06.exe". Es muy fácil de usar. Marque todas las casillas y los caracteres en ella. Es muy importante. En algún lugar de su archivo de caja tiene caracteres incorrectos para 1 y 8.

Ejecutar otros cmds.