php - sacar - ¿Cómo extraer texto del documento PDF?
ilovepdf (2)
Descargue la clase.pdf2text.php @ https://pastebin.com/dvwySU1a (Actualizado el 5 de abril de 2014) o http://www.phpclasses.org/browse/file/31030.html (Se requiere inscripción)
Código:
include(''class.pdf2text.php'');
$a = new PDF2Text();
$a->setFilename(''filename.pdf'');
$a->decodePDF();
echo $a->output();
La clase no funciona con todos los pdf que he probado, pruébalo y puedes tener suerte :)
Si lo anterior no funciona, intente http://pdfparser.org/
¿Cómo extraer texto del documento PDF usando PHP ?
(No puedo usar otras herramientas, no tengo acceso de root)
He encontrado algunas funciones que funcionan para texto sin formato, pero no manejan bien caracteres Unicode:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
Sé que este tema es bastante antiguo, pero esta necesidad aún está viva. Leí muchos documentos, foros y guiones y construí uno nuevo avanzado que soporta PDF comprimido y sin comprimir:
https://gist.github.com/smalot/6183152
Espero que ayude a todos