01
前言
上一篇文章以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码,爬起更多的内容并保存到csv。
总共爬取1907条『课程学习』数据,分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示!
02
数据获取
程序是接着以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』进行完善,所以不清楚的可以先看一下这篇文章(详细讲述Scrapy入门,并以『B站』为案例进行实战编程)
1.各个scrapy文件
items文件
代码语言:javascript复制class BiliItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#pass
# 视频标题
title = scrapy.Field()
# 链接
url = scrapy.Field()
# 观看量
watchnum = scrapy.Field()
# 弹幕数
dm = scrapy.Field()
# 上传时间
uptime = scrapy.Field()
# 作者
upname = scrapy.Field()
增加了四个字段(观看量、弹幕数、上传时间、作者)
lyc文件
代码语言:javascript复制class LycSpider(scrapy.Spider):
name = 'lyc'
allowed_domains = ['bilibili.com']
start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']
# 爬取的方法
def parse(self, response):
item = BiliItem()
# 匹配
for jobs_primary in response.xpath('//*[@id="all-list"]/div[1]/ul/li'):
item['title'] = (jobs_primary.xpath('./a/@title').extract())[0]
item['url'] = (jobs_primary.xpath('./a/@href').extract())[0]
item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace("n", "").replace(" ", "")
item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace("n", "").replace(" ", "")
item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace("n", "").replace(" ", "")
item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]
# 不能使用return
yield item
# 获取当前页的链接
url = response.request.url
#page 1
new_link = url[0:-1] str(int(url[-1]) 1)
# 再次发送请求获取下一页数据
yield scrapy.Request(new_link, callback=self.parse)
为新增的四个字段进行网页标签解析
pipelines文件
代码语言:javascript复制import csv
class BiliPipeline:
def __init__(self):
#打开文件,指定方式为写,利用第3个参数把csv写数据时产生的空行消除
self.f = open("lyc大学课程.csv", "a", newline="")
# 设置文件第一行的字段名,注意要跟spider传过来的字典key名称相同
self.fieldnames = ["title", "url","watchnum","dm","uptime","upname"]
# 指定文件的写入方式为csv字典写入,参数1为指定具体文件,参数2为指定字段名
self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames)
# 写入第一行字段名,因为只要写入一次,所以文件放在__init__里面
self.writer.writeheader()
def process_item(self, item, spider):
# print("title:", item['title'][0])
# print("url:", item['url'][0])
# print("watchnum:", item['watchnum'][0].replace("n","").replace(" ",""))
# print("dm:", item['dm'][0].replace("n", "").replace(" ", ""))
# print("uptime:", item['uptime'][0].replace("n", "").replace(" ", ""))
# print("upname:", item['upname'][0])
print("title:", item['title'])
print("url:", item['url'])
print("watchnum:", item['watchnum'])
print("dm:", item['dm'])
print("uptime:", item['uptime'])
print("upname:", item['upname'])
# 写入spider传过来的具体数值
self.writer.writerow(item)
# 写入完返回
return item
def close(self, spider):
self.f.close()
将爬取的内容保存到csv文件(lyc大学课程.csv)
2.启动scrapy
代码语言:javascript复制scrapy crawl lyc
通过上述命令可以启动scrapy项目
3.爬取结果
一共爬取1914条数据,最后经过简单清洗最终可用数据1907条!
03
数据分析
1.大学生学习视频播放量排名
读取数据
代码语言:javascript复制dataset = pd.read_csv('Bili\lyc大学课程.csv',encoding="gbk")
title = dataset['title'].tolist()
url = dataset['url'].tolist()
watchnum = dataset['watchnum'].tolist()
dm = dataset['dm'].tolist()
uptime = dataset['uptime'].tolist()
upname = dataset['upname'].tolist()
数据处理
代码语言:javascript复制#分析1: & 分析2
def getdata1_2():
watchnum_dict = {}
dm_dict = {}
for i in range(0, len(watchnum)):
if "万" in watchnum[i]:
watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
else:
watchnum[i] = int(watchnum[i])
if "万" in dm[i]:
dm[i] = int(float(dm[i].replace("万", "")) * 10000)
else:
dm[i] = int(dm[i])
watchnum_dict[title[i]] = watchnum[i]
dm_dict[title[i]] = dm[i]
###从小到大排序
watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
#分析1:大学生学习视频播放量排名"
analysis1(watchnum_dict,"大学生学习视频播放量排名")
数据可视化
代码语言:javascript复制def pie(name,value,picname,tips):
c = (
Pie()
.add(
"",
[list(z) for z in zip(name, value)],
# 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标
# 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度
center=["35%", "50%"],
)
.set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"]) # 设置颜色
.set_global_opts(
title_opts=opts.TitleOpts(title="" str(tips)),
legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"), # 调整图例位置
)
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
.render(str(picname) ".html")
)
分析
- 【片片】《人间课堂》播放量最高,播放量:202万。
- 在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。
2.大学生学习视频弹幕量排名
数据处理
代码语言:javascript复制watchnum_dict = {}
dm_dict = {}
for i in range(0, len(watchnum)):
if "万" in watchnum[i]:
watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
else:
watchnum[i] = int(watchnum[i])
if "万" in dm[i]:
dm[i] = int(float(dm[i].replace("万", "")) * 10000)
else:
dm[i] = int(dm[i])
watchnum_dict[title[i]] = watchnum[i]
dm_dict[title[i]] = dm[i]
###从小到大排序
watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
#分析2:大学生学习视频弹幕量排名
analysis1(dm_dict,"大学生学习视频弹幕量排名")
数据可视化
代码语言:javascript复制###饼状图
def pie(name,value,picname,tips):
c = (
Pie()
.add(
"",
[list(z) for z in zip(name, value)],
# 饼图的中心(圆心)坐标,数组的第一项是横坐标,第二项是纵坐标
# 默认设置成百分比,设置成百分比时第一项是相对于容器宽度,第二项是相对于容器高度
center=["35%", "50%"],
)
.set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"]) # 设置颜色
.set_global_opts(
title_opts=opts.TitleOpts(title="" str(tips)),
legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"), # 调整图例位置
)
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
.render(str(picname) ".html")
)
分析
- 在弹幕数排行中《数据结构与算法基础》最高,弹幕数:33000
- 通过弹幕量的排行来看,可以看到大家都喜欢在什么样的课堂视频上留言。
- 与播放量对比,大学生喜欢在课堂内容学习视频上进行发言!
3.up主大学生学习视频视频数
代码语言:javascript复制
数据处理
代码语言:javascript复制#分析3: up主大学生学习视频视频数
def getdata3():
upname_dict = {}
for key in upname:
upname_dict[key] = upname_dict.get(key, 0) 1
###从小到大排序
upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0]))
itemNames = []
datas = []
for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1):
itemNames.append(upname_dict[i][0])
datas.append(upname_dict[i][1])
#绘图
bars(itemNames,datas)
数据可视化
代码语言:javascript复制###柱形图
def bars(name,dict_values):
# 链式调用
c = (
Bar(
init_opts=opts.InitOpts( # 初始配置项
theme=ThemeType.MACARONS,
animation_opts=opts.AnimationOpts(
animation_delay=1000, animation_easing="cubicOut" # 初始动画延迟和缓动效果
))
)
.add_xaxis(xaxis_data=name) # x轴
.add_yaxis(series_name="up主昵称", yaxis_data=dict_values) # y轴
.set_global_opts(
title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数', # 标题配置和调整位置
title_textstyle_opts=opts.TextStyleOpts(
font_family='SimHei', font_size=25, font_weight='bold', color='red',
), pos_left="90%", pos_top="10",
),
xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)),
# 设置x名称和Label rotate解决标签名字过长使用
yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),
)
.render("up主大学生学习视频视频数.html")
)
分析
- 在大学课程视频的up主中,up主视频中与大学课堂有关的视频数排行
- 在大学课程视频数排行中,视频数最多的是:小白在学习呢
4.大学课程名称词云化
数据处理
代码语言:javascript复制text = "".join(title)
with open("stopword.txt","r", encoding='UTF-8') as f:
stopword = f.readlines()
for i in stopword:
print(i)
i = str(i).replace("rn","").replace("r","").replace("n","")
text = text.replace(i, "")
数据可视化
代码语言:javascript复制word_list = jieba.cut(text)
result = " ".join(word_list) # 分词用 隔开
# 制作中文云词
icon_name = 'fab fa-qq'
"""
# icon_name='',#国旗
# icon_name='fas fa-dragon',#翼龙
icon_name='fas fa-dog',#狗
# icon_name='fas fa-cat',#猫
# icon_name='fas fa-dove',#鸽子
# icon_name='fab fa-qq',#qq
"""
gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name="大学课程名称词云化.png") # 必须加中文字体,否则格式错误
分析
- 以北京大学和清华大学的课程为主,课程标题含有着两个大学的居多。
- 这些视频标题中大多数以:基础、公开课、课件、考研、大学物理等关键词。
04
总结
1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。
2.对数据进行可视化展示以及凝练精简分析。
3.可能数据还有更多未分析或者挖掘的信息,欢迎在下方留言,提出你宝贵的建议!