前言:
我写这个系统的主要是目的为了学习python,我对于技术学习的态度始终是:眼过千遍不如手过一遍。其次的目的是找一个便宜点的合适的房子。有更好,没有也无妨,不耽搁我学习。
需求简介:
爬取豆瓣网上海地区租房类小组的帖子,根据帖子内容分析出该租房信息的相关内容,比如出租方式,付款方式,所以小区,靠近的地铁站等等。以便在寻找合适的房源的时候进行更针对性的查找,简约用户的信息选择时间。
功能模块:
- 爬虫模块
使用scrapy框架搭建的一个爬虫,获取信息进行过滤,分类,储存到数据库
- 查询 PC端
使用flask搭建的一个web页面,提供信息的查询、筛选、搜索等功能。
pc端地址 www.adong.fun
- 查询 小程序端
使用是springboot搭建后台服务,提供小程序端的查询和推动服务。沪漂小窝
开发相关:
o 开发语言:Python(Scrapy Flask) Java (Springboot) 微信小程序
o 数据库:Mysql8
o 项目地址:
爬虫:https://github.com/liudrain/hupiao_crawler
小程序:https://gitee.com/liudrain/hupiao_miniprogram
小程序服务端:https://gitee.com/liudrain/hupiao_service
使用tips:
1. 豆瓣有反爬限制,主要是限制ip的请求次数,具体的阈值我没试过,解决方法也是比较简单粗暴,就是用代理。学习推荐使用,1元/小时,16元/天。长期使用推荐蚂蚁代理,3元/天,效果较差,需要添加相关的重启方法。
2. 数据库推荐搭建一个自己的开发测试云数据库,具体的的方法不细说,在之前的文章中说过,本地的也可以。
3. 在使用框架之前可以先学习了解一下,不是每一个爬虫都需要用scrapy,看具体的需求而定。
4. 在爬取后的信息中,添加了一个次数。这个次数代表,该账号最近一个月时间内发布帖子的次数,简单区分是否是个中介或者专职二房东,通过用户行为给用户贴上标签,以后筛选。
5.数据库脚本,放在了小程序服务端(douban.sql),下载后在自己的数据库中运行,数据库使用的mysql,其他的数据库可以根据表结果自行更改。
开发难点:
1. 难点还是在反爬上,上面已经提到了,给的方法是目前我测试过来说最有效的,为此被封了4个豆瓣账号。
2. 文本分类直接使用的百度的开放平台,自己做分类也可以,是有一定技术难度的。这是我目前正在学习的方向
后续说明:
1. 后面拿到1个月的数据后,还可以做数据分析,从而深入学习python,
2.python作为一个语言,在很多方面能提升工作效率,包括不仅限于计算机专业,数据可视化自行找资料学习吧,比较简单,不放代码了。
3.路漫漫其修远兮,吾将上下而求索。