Allen's Blog

使用 Scrapy 分布式爬取豆瓣图书数据

May 22, 2020

草稿还未完成…

先简单的列一下需求:

  • 使用付费代理IP,每换一次 IP 都需要 Slack Bot 通知一次,方便了解 IP 使用情况, 也可以做一个监控面板,来统计。
  • 付费代理 IP 余额预警,通过设定余额阈值进行余额报警。
  • 分布式,支持断点续爬的爬虫 (为了练习 Hadoop Spark 做数据准备)。

之前做过图书馆管理系统,做过 DropKindle 其实都需要图书的基础数据,这些基础数据就需要用爬虫来 获取了(在爬取豆瓣的图书数据的过程当中我发现豆瓣的很多图书图书数据还是爬的当当的QAQ)。


Written by Allen Wang