titulo saber quitar propiedades online nombre metadatos fecha editar como cambiar autor archivo pdf text-extraction pdf-scraping

saber - ¿Cuál es un buen método para extraer texto de un PDF usando C#o ASP clásico(VBScript)?



metadata pdf (5)

¿Hay una buena biblioteca para extraer texto de un PDF? Estoy dispuesto a pagar si tengo que hacerlo.

Algo que funcione con C # o ASP clásico (VBScript) sería ideal y también necesito poder separar las páginas del PDF.

Esta pregunta tiene algunas cosas interesantes, especialmente pdftotext pero me gustaría evitar llamar a una aplicación de línea de comandos externa si puedo.


Aquí hay una buena lista: Open Source Libs para PDF / C #

La mayoría de estos están orientados a la creación de archivos PDF, pero también deberían tener capacidad de lectura.

También está este: iText

Solo he jugado con iText antes. Nada mayor.


Hemos usado Aspose con buenos resultados.


Puede usar la interfaz IFilter integrada en Windows para extraer texto y propiedades (autor, título, etc.) de cualquier tipo de archivo compatible. Es una interfaz COM por lo que debería haber utilizado las instalaciones de interoperabilidad de .NET.

También tendría que descargar el controlador PDF IFilter gratuito de Adobe.


La biblioteca Docotic.Pdf se puede usar para extraer texto formateado o sin formato de documentos PDF.

La biblioteca puede leer documentos PDF de cualquier versión (hasta el último estándar publicado). La extracción de páginas también es compatible con la biblioteca.

Enlaces a código de muestra:

Descargo de responsabilidad: trabajo para el vendedor de la biblioteca.


Además de la respuesta aprobada: también hay soluciones comerciales alternativas para reemplazar Adobe IFilter por indexación de texto (que proporciona la API similar pero también ofrece funcionalidad premium adicional):

  1. Foxit PDF IFilter : proporciona una indexación de texto mucho más rápida en comparación con el complemento de Adobe.
  2. PDFLib PDF iFilter : incluye soporte para documentos PDF dañados más la API adicional para ejecutar sus propias consultas.

Si está buscando la herramienta única que se puede usar tanto desde aplicaciones .NET administradas como desde lenguajes de programación heredados como ASP clásico o VB6, aquí es donde el SDK PDF Extractor comercial de ByteScout encajaría, ya que proporciona API .NET y ActiveX / COM .

Descargo de responsabilidad: yo trabajo para ByteScout