scraping library example español crawler python hyperlink scrapy extractor

python - library - Scrapy crawl extra enlaces



scrapy python español (1)

Puede volver a escribir su ''Regla'' para acomodar todos sus requisitos como:

rules = [Rule(LinkExtractor(allow=(''/node/.*'',), restrict_xpaths=(''//div[@class="pane-content"]'',)), callback=''parse_imgur'', follow=True)]

Para descargar imágenes de los enlaces de imágenes extraídos, puede utilizar el ImagePipeline agrupado de Scrapy.

Necesito rastrear un sitio web y rastrear cada URL de ese sitio en un xpath específico, por ejemplo: necesito rastrear " http://someurl.com/world/ " que tiene 10 enlaces en el contenedor (xpath ("/ / div [@ class = ''pane-content''] ")) y necesito rastrear todos esos 10 enlaces y extraer imágenes de ellos, pero los enlaces en" http://someurl.com/world/ "parecen" http : //someurl.com/node/xxxx "

lo que tengo hasta ahora

import scrapy from scrapy.contrib.spiders import Rule, CrawlSpider from scrapy.contrib.linkextractors import LinkExtractor from imgur.items import ImgurItem class ImgurSpider(CrawlSpider): name = ''imgur'' allowed_domains = [''someurl.com/''] start_urls = [''http://someurl.com/news''] rules = [Rule(LinkExtractor(allow=(''/node/.*'')), callback=''parse_imgur'', follow=True)] def parse_imgur(self, response): image = ImgurItem() image[''title''] = response.xpath(/ "//h1[@class=''pane-content'']/a/text()").extract() rel = response.xpath("//img/@src").extract() image[''image_urls''] = response.xpath("//img/@src").extract() return image