python

当前位置:中华考试网 >> python >> python爬虫 >> 文章内容

python分布式爬虫中的Redis是什么?怎么用?

来源:中华考试网  [2020年11月26日]  【

  利用redis做分布式系统,最经典的就是scrapy-Redis,这是比较成熟的框架。同时我们也可以利用Redis的队列功能或者订阅发布功能来打造自己的分布式系统。

  Redis作为通信载体的优点是读写迅速,对爬虫的速度影响可忽略不计,使用比较普遍。

  主程序示例:

  import scrapy

  from scrapy.http import Request

  from scrapy.selector import HtmlXPathSelector

  from scrapy.dupefilter import RFPDupeFilter

  from scrapy.core.scheduler import Scheduler

  import redis

  from ..items import XiaobaiItem

  from scrapy_redis.spiders import RedisSpider

  class RenjianSpider(RedisSpider):

  name = 'baidu'

  allowed_domains = ['baidu.com']

  def parse(self, response):

  news_list = response.xpath('//*[@id="content-list"]/div[@class="item"]')

  for news in news_list:

  content = response.xpath('.//div[@class="part1"]/a/text()').extract_first().strip()

  url = response.xpath('.//div[@class="part1"]/a/@href').extract_first()

  yield XiaobaiItem(url=url,content=content)

  yield Request(url='http://dig..com/',callback=self.parse)

责编:fushihao

上一篇:RabbitMQ如何在python分布式爬虫中构建?

下一篇: 没有了

  • 会计考试
  • 建筑工程
  • 职业资格
  • 医药考试
  • 外语考试
  • 学历考试