with una texto tag remove reemplazar parte limpiar from etiqueta eliminar cadena allow all php ocr

php - una - remove html tags from string



Seleccione solo partes especificas de la imagen (5)

Soy completamente nuevo en "Reconocimiento óptico de caracteres" y necesito más información y consejos porque no pude encontrar si es posible hacer lo que necesito.

Tengo la siguiente tarea:

  1. Las imágenes se dan como entrada (tendrán la misma estructura), algunos iconos, símbolos y texto de la empresa.
  2. Solo es necesario seleccionar el texto y luego convertirlo en texto usando alguna biblioteca OCR.

¿Es posible crear una función usando alguna biblioteca php de OCR y seleccionar solo algunas de las zonas con texto?

Si no hay una buena biblioteca de OCR para PHP, ¿podría recomendarme algo en otros idiomas?

El siguiente ejemplo muestra lo que quiero hacer (esto es solo un ejemplo, no estoy tratando de hacer algunas manipulaciones extraoficiales con el dinero):

Esta es una imagen de muestra:

Y esta es la salida (el texto rodeado de rectángulos rojos):

  1. ESTE ES EL CONCURSO LEGAL PARA TODAS LAS DEUDAS, PÚBLICAS Y PRIVADAS
  2. L11180916G
  3. ONEDOLAR

Todos los artículos y consejos son bienvenidos.



No tengo conocimiento de ninguna extensión de PHP que implemente OCR, pero como un lenguaje genérico de scrpting con soporte para la manipulación de imágenes, PHP es una excelente opción para integrar otras herramientas.

Tesseract y gocr son herramientas de línea de comandos de código abierto para OCR, ambas muy efectivas. Pero al igual que cualquier paquete de OCR probablemente tendrá problemas con una imagen similar a la que usted proporcionó. Si su código PHP puede aislar el texto de las regiones de texto, obtendrá mejores resultados. Aún tendrá que hacer un poco de limpieza de datos - use un corrector ortográfico php. Encontrará que siguen apareciendo los mismos patrones de lectura errónea, como leer ''rn'' como ''m''. Su código PHP debería poder identificar y manejar la mayoría de los casos.

Con respecto al problema de identificar áreas de texto, depende de cuán similares sean realmente los documentos. Si ajusta su aplicación utilizando billetes de $ 1, es posible que pueda leer los números de serie de muchos de ellos, pero no sabrá cómo leer una nota diferente. Hay muchas herramientas de reconocimiento de imagen disponibles y, de nuevo, las herramientas cli serán fáciles de integrar.


Puede usar Irfanview de 32 bits y luego instalar el complemento KADMOS: http://irfanview.info/plugins/kadmos/

El DLL de Kadmos, al menos para el complemento, actualmente tiene 32 bits y es por eso que solo funciona con la edición de 32 bits de Irfanview.

Una vez instalada, abra una imagen que muestre texto y seleccione la entrada de menú "Opciones> Iniciar OCR ... (complemento)". Luego, podrá seleccionar un poco de texto arrastrando y soltando un rectángulo a su alrededor, y el texto reconocido aparecerá en una ventana desde la cual puede copiarlo. El complemento es solo para uso personal (no comercial), pero le permite ver si KADMOS satisface sus necesidades.

Si tiene muchas imágenes para procesar por lotes, puede adquirir una licencia de Kadmos DLL. Para obtener documentación técnica, visite: http://www.best-ocr.com/handbuch/book/html/files.html Para preguntas sobre licencias, reemplace "files.html" por "dll_e.htm" en la URL anterior.



Yo recomendaría: https://github.com/tesseract-ocr/tesseract

PHP probablemente no sea la mejor herramienta para el trabajo, pero siempre puede llamar a tesseract desde PHP si lo desea, luego analizar los resultados que obtiene de él.