引言
爬虫实践—爬取某音乐网站的mv,通过对某音乐网站的视频的爬取以进行实践。
本博客拟对爬虫的一个简单场景进行模拟,并对爬取的内容以文件的形式表现出来。
一、问题
以某音乐网站的mv为目标,通过爬虫程序进行访问及下载。
二、方法
第一步,下载安装requests库,方法为:按住win r键,输入cmd ,输入pip install requests命令以进行安装该库。
第二步,在py文件中引入该库,写入目标网站的地址url及本机的cookie,user-agent
第三步,用requests库对目标网站进行访问,并将字节的方式写入一个mp4文件,并进行保存。
三、实验结果与讨论
代码清单 1
代码语言:javascript复制import requests
if __name__ == '__main__':
url_ = "https://vodkgeyttp8.vod.126.net/cloudmusic/MCRgMDE0MCMxITIxJDA1Ig==/mv/394037/f77060af07a7d0ad7d3ce9972f99356c.mp4?wsSecret=c6af5b9bddc4dc566d29762c7715f87b&wsTime=1647611684"
headers_ = {
"cookie": "_iuqxldmzr_=32; _ntes_nuid=18d7d8dd0dff0e06025de9a6e0506829; NMTID=00OaEE3U5EC6W0JUUykorRkm57XCmQAAAF32T3YDg; WM_TID=x8XP2OcDBENFBVRQUFI/KveSX6KjjorC; P_INFO=1664115255@qq.com|1626421987|0|x19_client|00&99|null&null&null#not_found&null#10#0|&0||1664115255@qq.com; _ns=NS1.2.990022467.1632840377; __root_domain_v=.163.com; _qddaz=QD.151735248434161; WNMCID=oidncr.1644244734681.01.0; WEVNSM=1.0.0; MUSIC_U=7e79c92b49e7b3f23e31f4e132051116decd1f0847b6910d1b52b572e41ede74993166e004087dd3d78b6050a17a35e705925a4e6992f61dfe3f0151024f9e31; ntes_kaola_ad=1; timing_user_id=time_6mT4h27FMS; _ntes_nnid=18d7d8dd0dff0e06025de9a6e0506829,1646974067465; __csrf=1bb0d0252d3ed3c432b2bace34c7b9b2; JSESSIONID-WYYY=g+uH/QeJHpGvm2/seZKDcD6NNNM/rVGWzoEtWv+zIkYYcHyy3bk6IZSrnSBol2cEnWE5YU5nhfZNs+bgsGxMZTjGAHUZzMxJbZ7nA2arS5M1Sz1aMas+fbtnAD2ewW0gzAKsy4WBzqjhKEIWdxlHg0vjz48P7mmi7s2bscrBWtrQ2P:1647613436705; WM_NI=Em32Ge4fGPDcmx0RSOlgjKmoY79tdNog0NJIUAslfR2qTbhrcodhUfkm7ZHjgBdCULJ23muh9a48ExIHulBuJUUaZCkBTvVCMCt2Oz1I5vDY2rFZzdasdYTlbsweg7s9SUs=; WM_NIKE=9ca17ae2e6ffcda170e2e6ee84c6349af19c8fed41a6e78bb6c84e979e8ebbf53db890a3aece3bfce7bbb1e42af0fea7c3b92a87b3fdd3c66ff8ba89b1c769afa800b3d245b0b9a6acf0659be9f795e746adb900afc943979fbd8de55af2af9c83eb7aa1b1ac89d86ea9b3f9bbcb62a59eaca4d8488aeefd8ef864fbbffcd9c8748b98bb8dc17f8a8b9b82d949a99e9c97d5498f9dbcd3ce72f397fb97c753f2ae8abbf970a3adacbad768a2adb986e63db1e79db6f237e2a3",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}
response_ = requests.get(url_, headers=headers_)
bytes_data = response_.content
with open('那些年你很冒险的梦.mp4', 'wb') as f:
f.write(bytes_data)
四、结语
以一个简单的背景手刃了一个爬虫,以完成对于爬虫的一个初步认识。
稿件来源:深度学习与文旅应用实验室(DLETA)
作者:文裕龙
主编:欧洋