今天下午去电影院看完了《流浪地球》,可能是昨晚没休息好的原因,我竟然在中间不小心有睡着过。
如果满分 10 分的话,我给 8 分,整场电影看下来比较平淡,而且需要有一定的科学和太空方面的知识(虽然我也不太懂),否则看起来可能比较费脑子。
所以看完后,我至少到目前为止好像还没有找到一个推荐别人去看这个电影的理由,当然并不是说电影不好。
我给的 8 分是觉得电影很有创意,这对中国的科幻电影一定是有巨大的意义的,同时这种科幻大片也应该是一个国家软实力的象征。
好了,以上都仅仅是我个人观点,回到主题,今天主要还是来对上周 python 采集的 16w 评论数据进行简单的可视化分析,python爬取《流浪地球》16w评论。
今天主要从【全国观众地域分布】、【观众地域排行榜单】、【评论词云图】、【观众评论数量与日期的关系】、【观众评论数量与时间的关系】这五个方面进行分析,注意这里涉及的所有分析都是基于python爬取《流浪地球》16w评论 文章中获取的 16w 评论数据。
数据处理和统计用的 pandas 和 collections 两个库,地图和柱状图用的 pyecharts 库。使用前,请先安装相关三方库,还有下面三个地图包。
代码语言:javascript复制#安装国家、省级、市级地图包
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg
1、全国观众地域分布
从地图中可以看出,全国观众主要分布在东南、中部、北部,从颜色也可以大概看出(红色代表观众最多),各省会城市的观众居多,与实际的经济、消费水平基本相符。
2、观众地域排行榜单
找出全国各地观众最多的排名前 20 的城市,北京观众最多,不愧是首都,让人惊喜的是成都位列第三,超过了广州和上海,其他的基本上都是各省会城市了。
我觉得从这些数据中基本可以反映一个城市的经济实力和消费水平了,所以如果要考虑投资买房等可以优先考虑这 20 个城市了。
3、评论词云图
这个词云图就更直观了,16w 评论中出现的词越多,在这张词云图中的字号就会越大。可以看到大家评论最多的词是 "好看" "中国" "科幻电影" "不错" "国产" "好莱坞" 等。
4、观众评论数量与日期的关系
通过观众的评论日期可以看出,大年初一上映第一天的评论并不多,可能是大年初一大家都在家里和家人团聚,从初二开始评论数就开始递增了,说明这电影上映后越来越火。
由于我当时采集数据的时间是 17 日,而且 10 日到 17 日的数据有部分缺少,所以从 10 日后的数据应该就不够准确了。
5、观众评论数量与时间的关系
从图中可以看出,评论的时间主要集中于下午 15-20 点和 21-24 点,这电影时长为 2 小时,所以把评论时间往前移 2 小时即基本就是看电影时间。可以看出大家都是中午吃完午饭 (13点左右) 和晚上吃完晚饭 (19点左右) 再去看电影的,而且晚上看电影的人更多一些。
以上就是对《流浪地球》 16w 评论的可视化分析,分析结果仅代表个人观点。