texto sacar protegido pegar ilovepdf extraer copiar convertir como archivo php pdf text unicode

php - sacar - ¿Cómo extraer texto del documento PDF?



ilovepdf (2)

Descargue la clase.pdf2text.php @ https://pastebin.com/dvwySU1a (Actualizado el 5 de abril de 2014) o http://www.phpclasses.org/browse/file/31030.html (Se requiere inscripción)

Código:

include(''class.pdf2text.php''); $a = new PDF2Text(); $a->setFilename(''filename.pdf''); $a->decodePDF(); echo $a->output();

La clase no funciona con todos los pdf que he probado, pruébalo y puedes tener suerte :)

Si lo anterior no funciona, intente http://pdfparser.org/

¿Cómo extraer texto del documento PDF usando PHP ?

(No puedo usar otras herramientas, no tengo acceso de root)

He encontrado algunas funciones que funcionan para texto sin formato, pero no manejan bien caracteres Unicode:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html


Sé que este tema es bastante antiguo, pero esta necesidad aún está viva. Leí muchos documentos, foros y guiones y construí uno nuevo avanzado que soporta PDF comprimido y sin comprimir:

https://gist.github.com/smalot/6183152

Espero que ayude a todos