search - software - ¿Cómo saber si un PDF contiene solo imágenes o ha sido escaneado con OCR para buscar?
programa para escanear texto y pasarlo a word (7)
Varias herramientas de PDF pueden indicarle si hay texto. Algunos están disponibles como controles COM, y tal vez incluso nativos de .NET.
Tengo un montón de archivos PDF que provienen de documentos escaneados. Los archivos contienen una mezcla de imágenes y texto. Algunos fueron escaneados como imágenes sin OCR, por lo que cada página PDF es una imagen grande, incluso cuando toda la página es enteramente texto. Otros fueron escaneados con OCR y contienen imágenes y texto de búsqueda donde el texto está presente. En muchos casos, incluso las palabras en las imágenes se hicieron búsquedas.
Quiero hacer un proceso automatizado para reconocer el texto en todos los documentos escaneados usando OCR, con Acrobat 8 Pro, pero no quiero volver a grabar los archivos que ya han pasado por el proceso de OCR. ¿Alguien sabe si hay alguna forma de saber cuáles contienen solo imágenes y cuáles contienen texto con capacidad de búsqueda?
Estoy planeando hacer esto en C # o VB.NET pero no creo que poder distinguir los dos tipos de archivos sea dependiente del idioma.
El pdfspy de Apago extrae información de PDF en un archivo XML. Incluye información sobre el documento, incluidas imágenes y texto. Para su proyecto, la información útil incluye el recuento y el tamaño de la imagen y el texto con OCR (oculto).
Abra el documento en acrobat. Ve a Archivo -> Propiedades. Busque en la sección "Avanzado" y encuentre el productor de PDF. Si se lee algo como "Captura de papel ...", entonces ha sido OCR.
Espero que esto ayude.
Las imágenes escaneadas convertidas a PDF que se han grabado con OCR después para que el texto pueda buscarse normalmente contienen las partes de texto representadas como "invisibles". Entonces, lo que ves en la pantalla (o en el papel cuando está impreso) sigue siendo la imagen original. Pero cuando busca con éxito, obtiene los éxitos resaltados que están en el texto invisible.
Te recomiendo que veas las herramientas de línea de comandos derivadas de pdffonts(.exe)
, pdfinfo(.exe)
y pdftotext(.exe)
. Vea aquí para descargas: http://www.foolabs.com/xpdf/download.html
Ejemplo de uso de pdffonts
:
C:/downloads/> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
Este PDF utiliza fuentes (indicadas por la columna ''nombre''), las ha incrustado (indicado por ''sí'' en la columna ''emb'') y utiliza fuentes de subconjunto (indicadas por ''sí'' en la columna ''sub'').
C:/downloads/> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
Este PDF usa 2 fuentes (indicadas por la columna ''nombre''). La fuente ''Universe-BlackOblique'' está incrustada por completo (indicada por el ''sí'' en la columna ''emb'' y el ''no'' en la columna ''sub''). La fuente ''Arial'' también se usa, pero no está incrustada.
C:/downloads/> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Este PDF no usa una sola fuente y, por lo tanto, no tiene ningún texto incrustado (por lo que tampoco tiene OCR).
Ejemplo de uso de pdftotext
:
C:/downloads/> pdftotext ^
-layout ^
cisco-ip-phone-7911-guide6.1.pdf ^
cisco-ip-phone-7911-guide6.1.txt
Esto extraerá todas las cadenas de texto del PDF (tratando de conservar cierta semejanza con el diseño original). Si no hay texto en el PDF, sabrá que no hubo OCR ...
Una solución de muy baja tecnología: cualquier archivo que tenga texto escaneado contendrá indudablemente la letra "a", así que haga una búsqueda en todos los archivos que no contengan la letra "NO a". Cualquier archivo que se muestre no habrá sido OCR
Use "dtsearch" para crear un índice para todos los archivos pdf ... luego "vea el archivo de registro" del proceso de indexación para verificar la lista de archivos PDF que no fueron indexados.
Perdón por desenterrar el hilo viejo, pero si lo encontraste echa un vistazo a mi hilo:
Programa Batch OCR para archivos PDF
puede obtener información adicional sobre el pdf cazándolo en unix / linux / osx o abriéndolo como modo "rb" en python. (Por supuesto que es python y no quería usar eso, pero tal vez tiene algo equivalente).