Apache POI Word - Extracción de texto

Este capítulo explica cómo extraer datos de texto simple de un documento de Word usando Java. En caso de que desee extraer metadatos de un documento de Word, utilice Apache Tika.

Para archivos .docx, usamos la clase org.apache.poi.xwpf.extractor.XPFFWordExtractor que extrae y devuelve datos simples de un archivo de Word. De la misma forma, contamos con diferentes metodologías para extraer encabezados, notas al pie, datos de tablas, etc. de un archivo de Word.

El siguiente código muestra cómo extraer texto simple de un archivo de Word:

import java.io.FileInputStream;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class WordExtractor {

   public static void main(String[] args)throws Exception {

      XWPFDocument docx = new XWPFDocument(new FileInputStream("create_paragraph.docx"));
      
      //using XWPFWordExtractor Class
      XWPFWordExtractor we = new XWPFWordExtractor(docx);
      System.out.println(we.getText());
   }
}

Guarde el código anterior como WordExtractor.java. Compílelo y ejecútelo desde el símbolo del sistema de la siguiente manera:

$javac WordExtractor.java
$java WordExtractor

Generará la siguiente salida:

At tutorialspoint.com, we strive hard to provide quality tutorials for self-learning
purpose in the domains of Academics, Information Technology, Management and Computer
Programming Languages.