python - library - Scrapy crawl extra enlaces
scrapy python español (1)
Puede volver a escribir su ''Regla'' para acomodar todos sus requisitos como:
rules = [Rule(LinkExtractor(allow=(''/node/.*'',), restrict_xpaths=(''//div[@class="pane-content"]'',)), callback=''parse_imgur'', follow=True)]
Para descargar imágenes de los enlaces de imágenes extraídos, puede utilizar el ImagePipeline agrupado de Scrapy.
Necesito rastrear un sitio web y rastrear cada URL de ese sitio en un xpath específico, por ejemplo: necesito rastrear " http://someurl.com/world/ " que tiene 10 enlaces en el contenedor (xpath ("/ / div [@ class = ''pane-content''] ")) y necesito rastrear todos esos 10 enlaces y extraer imágenes de ellos, pero los enlaces en" http://someurl.com/world/ "parecen" http : //someurl.com/node/xxxx "
lo que tengo hasta ahora
import scrapy
from scrapy.contrib.spiders import Rule, CrawlSpider
from scrapy.contrib.linkextractors import LinkExtractor
from imgur.items import ImgurItem
class ImgurSpider(CrawlSpider):
name = ''imgur''
allowed_domains = [''someurl.com/'']
start_urls = [''http://someurl.com/news'']
rules = [Rule(LinkExtractor(allow=(''/node/.*'')), callback=''parse_imgur'', follow=True)]
def parse_imgur(self, response):
image = ImgurItem()
image[''title''] = response.xpath(/
"//h1[@class=''pane-content'']/a/text()").extract()
rel = response.xpath("//img/@src").extract()
image[''image_urls''] = response.xpath("//img/@src").extract()
return image