txt texto sobreescribir separado por modificar manejo linea leer guardar ejemplos datos como comas archivos archivo java parsing jsoup talend

texto - Cómo analizar datos en Talend con Java(provenientes de un archivo.txt previamente producido)?



modificar archivos txt en java (1)

Este es un problema relacionado con Talend, en su código, use los nombres completos del método, incluidos sus paquetes. Para su análisis de documentos, por ejemplo, puede usar:

Document document = org.jsoup.Jsoup.parse(new File("C:/Talend/workspace/WEBCRAWLER/output/keywords_SOA.txt"), "utf-8");

Tengo un proceso en Talend que obtiene el resultado de búsqueda de una página, guarda el html y lo escribe en archivos, como se ve aquí:

Inicialmente tuve un proceso de dos pasos para analizar la fecha de los archivos HTML en Java. Aquí está el código: Funciona y lo escribe en una base de datos mysql. Aquí está el código que básicamente hace exactamente eso. (Soy un principiante, perdón por la falta de elegancia)

package org.jsoup.examples; import java.io.*; import org.jsoup.*; import org.jsoup.nodes.*; import org.jsoup.select.Elements; import java.io.IOException; public class parse2 { static parse2 parseIt2 = new parse2(); String companyName = "Platzhalter"; String jobTitle = "Platzhalter"; String location = "Platzhalter"; String timeAdded = "Platzhalter"; public static void main(String[] args) throws IOException { parseIt2.getData(); } // public void getData() throws IOException { Document document = Jsoup.parse(new File("C:/Talend/workspace/WEBCRAWLER/output/keywords_SOA.txt"), "utf-8"); Elements elements = document.select(".joblisting"); for (Element element : elements) { // Parse Data into Elements Elements jobTitleElement = element.select(".job_title span"); Elements companyNameElement = element.select(".company_name span[itemprop=name]"); Elements locationElement = element.select(".locality span[itemprop=addressLocality]"); Elements dateElement = element.select(".job_date_added [datetime]"); // Strip Data from unnecessary tags String companyName = companyNameElement.text(); String jobTitle = jobTitleElement.text(); String location = locationElement.text(); String timeAdded = dateElement.attr("datetime"); System.out.println("Firma:/t"+ companyName + "/t" + jobTitle + "/t in:/t" + location + " /t Erstellt am /t" + timeAdded ); } } }

Ahora quiero hacer el proceso End-to-End en Talend, y me aseguraron que esto funciona. Intenté esto (que me parece bastante sospechoso):

Básicamente, puse todas las importaciones en "configuración avanzada" y el código en la sección "configuración básica". Se cree que esta importLibrary carga la biblioteca de análisis jsoup, así como también la conexión mysql (aunque podría conectar con las herramientas talend).

Obviamente esto no está funcionando. Traté de quitar el código base de las clases y esas cosas, y fue aún peor. ¿Me puede ayudar a obtener aquí los archivos .txt generados y analizados con Java?

EDITAR: Aquí está el enlace al trabajo taleth http://www.share-online.biz/dl/8M5MD99NR1

EDIT2: Cambié el código al que probé en JavaFlex. Pero no funcionó (la parte de importación en la parte inicial del código, el resto en "cuerpo / principal" y nada en "final").