iphone - Extrayendo texto en pdf en Objective C

objective-c (1)

Hasta este punto, no había encontrado una solución que funcionara bien para extraer texto de un archivo pdf en Objective C para usarlo en el iPhone. Encontré un código C estándar y lo modifiqué para que funcione, y pensé que lo proporcionaría aquí, ya que hasta este momento he usado stackoverflow bastante pero nunca he devuelto. Puede obtenerlo aquí: https://bitbucket.org/zachron/pdfiphone/overview

Toma como entrada la ruta del archivo pdf y devuelve un nsstring del texto en el pdf. No escribí la mayoría de esto, pero lo modifiqué para que funcionara con el iPhone y Objective C. Necesitas incluir la biblioteca Zlib en tu proyecto (libz.dylib en el iPhone) si alguien toma esto y hace es más increíble, son tiempos buenos.

Tenga en cuenta que esto solo funcionará para extraer texto que está almacenado como tal en el PDF. No escaneará archivos PDF con OCR. Si desea hacerlo, existe la opción de usar Tesseract , el robusto motor FOSS OCR de Google. Se compila en el iPhone : ver Tesseract-iPhone-Demo de Nolan Brown para un ejemplo de trabajo. La biblioteca de imágenes ImageMagic también compila en el iPhone , y le permitirá convertir PDF a TIFF, que Tesseract acepta como entrada.