php - texto - ¿Cómo puedo extraer imágenes de un archivo PDF?

extraer imagenes de pdf sin perder calidad (3)

Necesito extraer todas las imágenes de un archivo PDF en mi servidor. No quiero las páginas PDF, solo las imágenes en su tamaño y resolución originales.

¿Cómo podría hacer esto con Perl, PHP o cualquier otra aplicación basada en UNIX (que invocaría con la función exec de PHP)?

Con respecto a Perl, ¿ha revisado CPAN ?

PDF :: GetImages - obtener imágenes del documento pdf
PDF :: OCR : obtenga ocr e imágenes de un archivo pdf
PDF :: OCR2 - extraer todo el texto y todas las imágenes ocr desde pdf

pdfimages hace precisamente eso. Es parte de los paquetes poppler-utils y xpdf-utils.

De la página de manual:

Pdfimages guarda imágenes de un archivo de formato de documento portátil (PDF) como Portable Pixmap (PPM), Portable Bitmap (PBM) o archivos JPEG.
Pdfimages lee el archivo PDF, escanea una o más páginas, archivo PDF y escribe un archivo PPM, PBM o JPEG para cada imagen, image-root-nnn.xxx, donde nnn es el número de imagen y xxx es el tipo de imagen (.ppm, .pbm, .jpg).
NB: pdfimages extrae los datos de imagen en bruto del archivo PDF, sin realizar transformaciones adicionales. Se ignora cualquier rotación, recorte, inversión de color, etc. realizada por la secuencia de contenido PDF.

pdfimages es bueno, ya que no reencode sino que solo extrae jpegs. Pero hay un error:

pdfimages viene del paquete "poppler-utils" o del más grande "xpdf-utils". Al menos en Ubuntu "poppler-utils" ya viene preinstalado. El pdfimages en poppler-utils 10.0.3 (Ubuntu 9.04 Jaunty) aún no reacciona a la opción "-j" para extraer ".jpg". Siempre extrae ".ppm".

Como solución, puede reemplazar "poppler-utils" por "xpdf-utils": $ sudo apt-get install xpdf-utils

atentamente,

+++ Oliver