Python 实战：用 Scrapyd 打造个人化的爬虫部署管理控制台

终究是我的独角 发表于 2020-1-12 23:03

Scrapyd 是业内最优秀的爬虫框架之一 Scrapy 官方出品的部署管理平台。有了它，你就可以通过 API 向指定的爬虫发起指令，并且可以通过 Web 页面来查看爬虫的运行记录与状态等信息。https://user-gold-cdn.xitu.io/2018/10/22/1669ae857d80505e?imageView2/0/w/1280/h/960/format/webp/ignore-error/1
将爬虫部署到服务器是大部分爬虫工程师必备的技能，这个技能可以为你的职业价值锦上添花。然而网上关于 Scrapyd 的资料比较少，除了官方文档之外，只有一些零散的教程文章。这远远无法满足很多爬虫工程师的学习需求。所以你需要这本小册。而且 Scrapyd 并不提供访问控制功能，意味着只要你部署到服务器上，任何人都可以访问它并且控制你的爬虫。它也不提供数据统计的功能，你不可能知道你部署的爬虫有多少，也不知道它们运行了多少次，谁的运行时间最长，也无法对爬虫日志进行排序或者筛选过滤。别慌，笔者写这本小册就是为了解决那些问题。
https://user-gold-cdn.xitu.io/2018/10/29/166bf5a25955ba20?imageView2/0/w/1280/h/960/format/webp/ignore-error/1
最终的实战成果如下所示：Web 界面及功能演示

新增 API 及数据结果演示比如根据指定的project名称筛选出对应的爬虫记录。
不仅如此，文章中所涉及的演示和操作，笔者特意制作了 GIF 动图来帮助你更好的理解：

还有很多的流程图或者结构图以及 UML 图，助你轻松理解代码及其含义：https://user-gold-cdn.xitu.io/2018/10/13/1666c427d4ef9f28?imageView2/0/w/1280/h/960/format/webp/ignore-error/1
作者介绍
https://user-gold-cdn.xitu.io/2018/10/29/166bdadf38f22453?imageView2/0/w/1280/h/960/format/webp/ignore-error/1
韦世东，资深爬虫工程师、开源项目 ScrapydArt 作者、开源项目 Gerapy 开发小组核心成员、公众号【进击的 Coder】运营者之一，5 年 IT 从业经验，具有丰富的爬虫项目设计及分布式海量数据爬取经验，擅长反爬虫的绕过技巧，独立完成爬虫调度管理平台的技术研发，在数据分析及可视化方面具备一定的实战经验。你会学到什么？
[*]Scrapy 项目打包部署的正确姿势以及 Scrapyd 鲜为人知的技巧；
[*]源码阅读的能力，并且可以通过调试代码的方式快速地熟悉项目；
[*]Scrapyd-client 的使用以及爬虫项目打包；
[*]能够从源码的与功能设计的角度去思考，为什么这部分代码会这么写，它的应用场景有哪些；
[*]学会将逻辑和思路转化为实际的代码；
[*]通过大量的实战和代码积累能力，最终能够随心所欲地对 Scrapyd 进行扩展。
适宜人群
[*]希望提升自身技术竞争力的爬虫工程师
[*]Scrapy 爬虫框架使用者
[*]爬虫爱好者或正在学习爬虫技术的在校学生
[*]想要打造爬虫部署管理平台的工程师
[*]需要掌握 Python 开发基础，了解 HTML 基本知识
名人推荐
https://user-gold-cdn.xitu.io/2018/10/29/166bda5ec31a0f8d?imageView2/0/w/1280/h/960/format/webp/ignore-error/1

https://user-gold-cdn.xitu.io/2018/10/29/166bea6acea413e5?imageView2/0/w/1280/h/960/format/webp/ignore-error/1

**** Hidden Message *****

mjli111 发表于 2020-1-12 23:29

666666666666666

yahoobrother 发表于 2020-1-13 00:04

666666666666666666666

ggamma1 发表于 2020-1-13 00:26

Python 实战：用 Scrapyd 打造个人化的爬虫部署管理控制台

xzgxp 发表于 2020-1-13 00:37

9999999999999999999

CatMI666 发表于 2020-1-13 00:41

感谢大大分享

gp5251 发表于 2020-1-13 01:23

666666666666

fanyunfei 发表于 2020-1-13 04:59

Scrapyd 打造个人化的爬虫部署管理控制

ivan132 发表于 2020-1-13 08:09

感谢楼主分享

cloie 发表于 2020-1-13 08:23

8888888888888888888888888888888888888

页: [1] 2 3 4 5 6 7 8 9 10

瑞客论坛's Archiver

Python 实战：用 Scrapyd 打造个人化的爬虫部署管理控制台