web-scraping - tutorial - web scraping python

Cómo seleccionar datos de etiquetas específicas en nutch (1)

Soy un novato en Apache Nutch y me gustaría saber si es posible rastrear el área seleccionada de una página web. Por ejemplo, seleccione un contenido de rastreo y div en ese div solamente. Cualquier ayuda sería apreciada. ¡Gracias!

Deberá escribir un complemento que extenderá HtmlParseFilter para lograr su objetivo.

Creo que harás algunas cosas tú mismo, como analizar la sección específica del html, extraer las URL que quieras y agregarlas como enlaces externos.

Implementación de HtmlParseFilter: (El siguiente código da la idea general)

ParseResult filter(Content content, ParseResult parseResult, HTMLMetaTags metaTags, DocumentFragment doc){ // get html content String htmlContent = new String(content.getContent(), StandardCharsets.UTF_8); // parse html using jsoup or any other library. String url = content.getUrl(); Parse parse = parseResult.get(url); ParseData parseData = parse.getData(); Outlink[] links = parseData.getOutlinks(); // modify/select only required outlinks // return ParsePesult with modified outlinks return parseResult; }

Esperamos que esto sea útil.

Si eres nuevo en el plugin, he escrito un plugin simple " nutch-fetch-page " que guarda páginas html y contenido de texto en un disco local usando la interfaz HtmlParseFilter . Puede bifurcar / descargar y modificar el código.