sonder mexico marvel interstellar gabinete tesseract

mexico - tesseract ocr download



Formato Tesseract y tiff-spp no está en el set{1,3} (3)

Al intentar ejecutar este comando:

tesseract bond111.tif bond111 batch.nochop makebox

Me sale el siguiente error

Error in pixReadFromTiffStream: spp not in set {1,3} Error in pixReadStreamTiff: pix not read Error in pixReadTiff: pix not read

Suponiendo que spp not in set es el error principal aquí, ¿qué significa? Al principio tuve problemas porque el bpp era más alto que 24, así que lo reduje usando Gimp, pero eso no resolvió el problema.


Gracias por su publicación ZakW, me indicó la dirección correcta. De todos modos, también necesitaba establecer ''-depth 8''. La calidad no era lo suficientemente buena para OCR, lo que sea que intenté.

Lo que funcionó para mí es esta solución:

ghostscript -o document.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw document.pdf tesseract document.tiff document -l deu vim document.txt

De esta manera obtuve el texto perfecto con Umlauts en alemán.


Probablemente significa que su imagen TIFF tiene un canal alfa y, por lo tanto, la biblioteca subyacente de Leptonica utilizada por Tesseract no la admite. Si está utilizando Imagemagick, tenga en cuenta que las operaciones como -draw pueden provocar que se agreguen canales alfa. Si está utilizando convert en su flujo de trabajo y desea eliminar el canal nuevamente de inmediato, alise la imagen antes de escribir agregando -background white -flatten +matte antes del nombre del archivo de salida, por ejemplo:

convert input.tiff -fill white -draw ''rectangle 10,10 20,20'' -background white -flatten +matte output.tiff

Tesseract (bueno, Leptonica) acepta PNG en estos días y es menos exigente con ellos, por lo que podría ser más fácil migrar su flujo de trabajo a PNG de todos modos.

Fuentes: publicación de la lista de correo de magick-users; Publicación de la lista de distribución de tesseract-ocr


Puede intentar usar el comando ''tiffinfo'' proporcionado por libtiff_tools para verificar el formato TIFF de su imagen src. Existe una cantidad de formatos TIFF, con diferentes valores para Bits-per-pixel (bpp) y Samples-per-pixel (spp).

Error in pixReadFromTiffStream: spp not in set {1,3,4}

Un valor ''spp'' de 2 no es válido para TIFF.

Resolví el problema al guardar directamente en formato TIFF desde Gimp, en lugar de convertirlo desde .png a .tif usando ImageMagick''s ''convert''.

Ver también: formato TIFF