mexico - tesseract ocr download
Formato Tesseract y tiff-spp no está en el set{1,3} (3)
Al intentar ejecutar este comando:
tesseract bond111.tif bond111 batch.nochop makebox
Me sale el siguiente error
Error in pixReadFromTiffStream: spp not in set {1,3}
Error in pixReadStreamTiff: pix not read
Error in pixReadTiff: pix not read
Suponiendo que spp not in set
es el error principal aquí, ¿qué significa? Al principio tuve problemas porque el bpp era más alto que 24, así que lo reduje usando Gimp, pero eso no resolvió el problema.
Gracias por su publicación ZakW, me indicó la dirección correcta. De todos modos, también necesitaba establecer ''-depth 8''. La calidad no era lo suficientemente buena para OCR, lo que sea que intenté.
Lo que funcionó para mí es esta solución:
ghostscript -o document.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw document.pdf
tesseract document.tiff document -l deu
vim document.txt
De esta manera obtuve el texto perfecto con Umlauts en alemán.
Probablemente significa que su imagen TIFF tiene un canal alfa y, por lo tanto, la biblioteca subyacente de Leptonica utilizada por Tesseract no la admite. Si está utilizando Imagemagick, tenga en cuenta que las operaciones como -draw
pueden provocar que se agreguen canales alfa. Si está utilizando convert
en su flujo de trabajo y desea eliminar el canal nuevamente de inmediato, alise la imagen antes de escribir agregando -background white -flatten +matte
antes del nombre del archivo de salida, por ejemplo:
convert input.tiff -fill white -draw ''rectangle 10,10 20,20'' -background white -flatten +matte output.tiff
Tesseract (bueno, Leptonica) acepta PNG en estos días y es menos exigente con ellos, por lo que podría ser más fácil migrar su flujo de trabajo a PNG de todos modos.
Fuentes: publicación de la lista de correo de magick-users; Publicación de la lista de distribución de tesseract-ocr
Puede intentar usar el comando ''tiffinfo'' proporcionado por libtiff_tools para verificar el formato TIFF de su imagen src. Existe una cantidad de formatos TIFF, con diferentes valores para Bits-per-pixel (bpp) y Samples-per-pixel (spp).
Error in pixReadFromTiffStream: spp not in set {1,3,4}
Un valor ''spp'' de 2 no es válido para TIFF.
Resolví el problema al guardar directamente en formato TIFF desde Gimp, en lugar de convertirlo desde .png a .tif usando ImageMagick''s ''convert''.
Ver también: formato TIFF