震惊!垃圾分类居然能用Python搞定!
1 环境
操作系统:Windows
Python版本:3.7.3
2 需求分析
我们先需要通过
拿到 cid 之后,再填入下面的链接中。
http://comment.bilibili.com/{cid}.xml
打开之后,就可以看到该视频的弹幕列表。
有了弹幕数据后,我们需要先将解析好,并保存在本地,方便进一步的加工处理,如制成词云图进行展示。
3 代码实现
在这里,我们获取网页的请求使用 requests 模块;解析网址借助 beautifulsoup4 模块;保存为CSV数据,这里借用 pandas 模块。因为都是第三方模块,如环境中没有可以使用 pip 进行安装。
代码语言:javascript复制pip install requests
pip install beautifulsoup4
pip install lxml
pip install pandas
模块安装好之后,进行导入
代码语言:javascript复制import requests
from bs4 import BeautifulSoup
import pandas as pd
请求、解析、保存弹幕数据
接下来,我们就对保存好的弹幕数据进行深加工。
制作词云,我们需要用到 wordcloud 模块、matplotlib 模块、jieba 模块,同样都是第三方模块,直接用 pip 进行安装。
代码语言:javascript复制pip install wordcloud
pip install matplotlib
pip install jieba
模块安装好之后,进行导入,因为我们读取文件用到了 panda 模块,所以一并导入即可
我们可以自行选择一张图片,并基于此图片来生成一张定制的词云图。我们可以自定义一些词云样式,代码如下:
接下来,我们要读取文本信息(弹幕数据),进行分词并连接起来:
最后来看看我们效果图