本文转载至知乎ID:Charles(白露未晞)知乎个人专栏
本文转载至知乎ID:Charles(白露未晞)知乎个人专栏
下载W3Cschool手机App,0基础随时随地学编程>>戳此了解
导语
利用python爬取鱼C论坛最新热门帖子信息并做简要分析,相信很多人对鱼C论坛并不陌生吧,毕竟小甲鱼出品的课程对新手还是很友好滴,基本上都是褒多贬少的状态。
让我们愉快地开始吧~
相关文件
开发工具
Python版本:3.6.4
相关模块:
requests模块;
pyecharts模块;
jieba模块;
wordcloud模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
原理简介
抓取目标:
鱼C论坛最新热门帖子信息:
通过requests模块+正则表达式即可实现抓取所有帖子的信息了。
分析目标:
将抓取到的帖子信息数据可视化,看看如何发帖子才能上鱼C热门。
主要通过pyecharts和wordcloud模块来实现信息数据的可视化分析。
结果展示
信息抓取:
在cmd窗口运行FCSpider.py文件即可,效果如下图所示:
数据分析:
在cmd窗口运行analysis.py文件即可。
首先让我们来看看鱼C论坛哪个版块的内容更容易上热门:
显然,Python大哥独占鳌头,占了鱼C论坛所有热贴数量的56.19%,因此想上鱼C论坛的热贴,当然首选Python主题啊!
或许有人会说,帖子数量说明不了问题啊,万一是有人恶意刷帖呢?(一个可能不太合适的比方),那么我们再来分析分析每个帖子的参与人数、回复量和查看量吧!
首先是参与人数(均未去重):
其中参与人数最多的10个热帖中Python的占比也很高,为:
因此从参与人数上看,python依旧无出其右,一枝独秀。
再来看看回复量和查看量:
结论依旧没有变,看来想在鱼C论坛混个热帖,发python主题是最佳选择。
最后,我们将所有热门主题的标题制作成词云,看看如何才能成为一名合格的"标题党":
OK,可以愉快地去水贴拿热门了~
完整源代码和结果详见相关文件。
更多
代码在2018年8月31日前测试无误