PDFBox - Descripción general
El formato de documento portátil (PDF) es un formato de archivo que ayuda a presentar datos de una manera que es independiente del software, hardware y sistemas operativos de la aplicación.
Cada archivo PDF contiene la descripción de un documento plano de diseño fijo, incluido el texto, las fuentes, los gráficos y otra información necesaria para mostrarlo.
Hay varias bibliotecas disponibles para crear y manipular documentos PDF a través de programas, como:
Adobe PDF Library - Esta biblioteca proporciona API en lenguajes como C ++, .NET y Java y con esto podemos editar, ver, imprimir y extraer texto de documentos PDF.
Formatting Objects Processor- Formateador de impresión de código abierto impulsado por objetos de formato XSL y un formateador independiente de salida. El objetivo de salida principal es PDF.
iText - Esta biblioteca proporciona API en lenguajes como Java, C # y otros lenguajes .NET y utilizando esta biblioteca podemos crear y manipular documentos PDF, RTF y HTML.
JasperReports - Esta es una herramienta de informes de Java que genera informes en documentos PDF que incluyen Microsoft Excel, RTF, ODT, valores separados por comas y archivos XML.
¿Qué es un PDFBox?
Apache PDFBox es una biblioteca Java de código abierto que admite el desarrollo y la conversión de documentos PDF. Con esta biblioteca, puede desarrollar programas Java que crean, convierten y manipulan documentos PDF.
Además de esto, PDFBox también incluye una utilidad de línea de comandos para realizar varias operaciones en PDF utilizando el archivo Jar disponible.
Características de PDFBox
Las siguientes son las características notables de PDFBox:
Extract Text - Con PDFBox, puede extraer texto Unicode de archivos PDF.
Split & Merge - Con PDFBox, puede dividir un solo archivo PDF en varios archivos y fusionarlos como un solo archivo.
Fill Forms - Con PDFBox, puede completar los datos del formulario en un documento.
Print - Con PDFBox, puede imprimir un archivo PDF utilizando la API de impresión estándar de Java.
Save as Image - Con PDFBox, puede guardar archivos PDF como archivos de imagen, como PNG o JPEG.
Create PDFs - Con PDFBox, puede crear un nuevo archivo PDF mediante la creación de programas Java y también puede incluir imágenes y fuentes.
Signing- Con PDFBox, puede agregar firmas digitales a los archivos PDF.
Aplicaciones de PDFBox
Las siguientes son las aplicaciones de PDFBox:
Apache Nutch- Apache Nutch es un software de búsqueda web de código abierto. Se basa en Apache Lucene, agregando detalles web, como un rastreador, una base de datos de gráficos de enlaces, analizadores para HTML y otros formatos de documentos, etc.
Apache Tika - Apache Tika es un conjunto de herramientas para detectar y extraer metadatos y contenido de texto estructurado de varios documentos utilizando bibliotecas de analizadores existentes.
Componentes de PDFBox
Los siguientes son los cuatro componentes principales de PDFBox:
PDFBox- Esta es la parte principal de PDFBox. Contiene las clases e interfaces relacionadas con la extracción y manipulación de contenido.
FontBox - Contiene las clases e interfaces relacionadas con la fuente, y usando estas clases podemos modificar la fuente del texto del documento PDF.
XmpBox - Contiene las clases e interfaces que manejan metadatos XMP.
Preflight - Este componente se utiliza para verificar los archivos PDF con el estándar PDF / A-1b.