前言
上周在视频直播中讲解了一下,沪漂小窝的scrapy框架和业务的内容。下面,我整理一下项目的大体进程。说项目也不算项目,就是个分享的实践。
我做此项目,第一要义是学习,不是为了完成绩效、KPI,学习之本在于自己学到手。不管是写爬虫还是web,用在以学习的角度去完成。所以里面有很多不完善的地方,可以修改。
所以,每个城市不限制人次,都可以去做。每个城市的情况不尽相同,下面我会介绍的通用方法
适用人群
- 大学三四年级计算机相关专业的大学生
- 学习完python基础,想练练手的刚入门不久学习人群
步骤
- 开始先看沪漂小窝的V2.0说明文档,源码地址都在里面。先熟悉代码,梳理业务流程。
- 确定城市的start_urls ,基本是每个城市的前20-30个活跃小组,活跃小组的判断标准是每天发帖子数超过20个,阈值根据实际情况可自定义。
- 根据上海版本的,先做出其他的城市的版本,能正常运行。
注意事项
- 本地测试可以不用代理,控制请求频率,高频请求会封IP,第二天自动解封。如果需要代理的话,可以使用阿布云 1元/小时 16元/天
- 多城市版本的核心是添加上城市的区分,入库的数据结构需要一样,不然没法在前端使用。
- 后期的我做好数据库扩展后,开始对接其他城市,为了最大化的保证想参与项目的人得到学习,如果你们有想做的,在文章后面留言你想做的城市,这样的话避免多个人做一个城市,毕竟后面协调代码的时候,一个城市需要一份就可以。
- 预计6月份,开始做对接,所以想要扩展其他城市的,最快的节奏是有三个周学习和开发优化,因为我做这个项目是前后用了三个月业余时间,所以我预计三个周的话,也可能有点仓促,我们虽然靠写代码吃饭,但是也要生活。
- 这个项目是个非盈利项目,代理和服务器费用,我自己来承担,仅供学习使用。
- 因为我平常都有自己工作,虽然是965,可我也有一些私下的生活事情要处理,所以有问题尽可能在群里协商解决,我有空的会回消息,尽量在晚上9点后,或者在我也会在直播中说说相关的问题。
我是马拉松程序员,可不止于代码!