tutorial reports reportes language informes espaƱol con linux r pdf scrape pdf-scraping

linux - reports - Lectura de datos de archivos PDF en R



reportes en r (5)

El paquete actual du jour para obtener texto de PDF es pdftools (sucesor de Rpoppler, mencionado anteriormente), funciona muy bien en Linux, Windows y OSX:

install.packages("pdftools") library(pdftools) download.file("http://arxiv.org/pdf/1403.2805.pdf", "1403.2805.pdf", mode = "wb") txt <- pdf_text("1403.2805.pdf") # first page text cat(txt[1]) # second page text cat(txt[2])

¿Es eso posible?

Tengo un montón de informes heredados que necesito importar a una base de datos. Sin embargo, están todos en formato pdf. ¿Hay algún paquete R que pueda leer en pdf? ¿O debería dejar eso en una herramienta de línea de comando?

Los informes se hicieron en excel y luego en pdf, por lo que tienen estructura regular, pero muchas "celdas" en blanco.


Entonces ... esto me acerca, incluso en una mesa bastante compleja.

Descargue un pdf de muestra desde bmi pdf

library(tm) pdf <- readPDF(PdftotextOptions = "-layout") dat <- pdf(elem = list(uri=''bmi_tbl.pdf''), language=''en'', id=''id1'') dat <- gsub('' +'', '','', dat) out <- read.csv(textConnection(dat), header=FALSE)


Solo una advertencia para otros que puedan estar esperando extraer datos: PDF es un contenedor, no un formato. Si el documento original no contiene texto real, a diferencia de las imágenes de texto con mapa de bits o posiblemente incluso cosas más feas de lo que puedo imaginar, nada más que OCR puede ayudarlo.

Además de eso, en mi triste experiencia, no hay garantía de que las aplicaciones que crean documentos PDF se comporten igual, por lo que los datos en su tabla pueden o no leerse en el orden deseado (como resultado de la forma en que el documento fue construido). Ser cauteloso.

Probablemente sea mejor hacer que un par de estudiantes de posgrado transcriban los datos por usted. Son baratos :-)


También puede (ahora) usar el nuevo (2015-07) Rpoppler pacakge:

Rpoppler::PDF_text(file)

Incluye 3 funciones (4, realmente, pero una solo le da un puntaje al objeto PDF):

  • PDF_fonts información de fuente en PDF
  • PDF_info información del documento PDF
  • PDF_text Extracción de texto PDF

(publicación como respuesta para ayudar a los nuevos buscadores a encontrar el paquete).


por zx8754 ... lo siguiente funciona en Win7 con pdftotext.exe en el directorio de trabajo:

library(tm) uri = ''bmi_tbl.pdf'' pdf = readPDF(control = list(text = "-layout"))(elem = list(uri = uri), language = "en", id = "id1")