python3 español documentacion book python-3.x pdf

python-3.x - español - python documentation pdf



La mejor herramienta para la extracción de texto desde PDF en Python 3.4 (2)

Estoy usando Python 3.4 y necesito extraer todo el texto de un PDF y luego usarlo para el procesamiento de texto.

Todas las respuestas que he visto sugieren opciones para Python 2.7.

Necesito algo en Python 3.4.

Bonson


pdfminer.six ( https://github.com/pdfminer/pdfminer.six ) también se ha recomendado en otros lugares y está diseñado para ser compatible con Python 3. Sin embargo, no puedo responder personalmente, ya que falló durante la instalación de MacOS. (Hay un problema abierto para eso y parece ser un problema reciente, por lo que podría haber una solución rápida).


Debe instalar el módulo PyPDF2 para poder trabajar con archivos PDF en Python 3.4. PyPDF2 no puede extraer imágenes, gráficos u otros medios, pero puede extraer texto y devolverlo como una cadena Python. Para instalarlo, ejecute pip install PyPDF2 desde la línea de comando. Este nombre de módulo distingue entre mayúsculas y minúsculas, así que asegúrese de escribir ''y'' en minúsculas y todos los demás caracteres en mayúsculas.

>>> import PyPDF2 >>> pdfFileObj = open(''my_file.pdf'',''rb'') #''rb'' for read binary mode >>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj) >>> pdfReader.numPages 56 >>> pageObj = pdfReader.getPage(9) #''9'' is the page number >>> pageObj.extractText()

La última declaración devuelve todo el texto que está disponible en la página 9 del documento ''my_file.pdf''.