目录
1 引子
2 解决方案
1 引子
对某网页数据爬取时,
键中
显示网页源码与鼠标右键
查看网页源代码显示的网页源码不同。
图1: F12 键中 Elements 显示的网页源码
图2:鼠标右键 -> 查看网页源代码显示的网页源码
因此,在使用如下代码获取网页源码时实际上获取的是图
所示的网页源码:
代码语言:javascript复制content = requests.get(url).content.decode('utf-8')
print(content)
然而我们想要获得是图
所示的网页源码,那么这个想法怎么实现呢?
2 解决方案
既然无法通过
库来直接获取到我们想要的网页源码,那么我们就采用
和
方法直接获取我们想要的网页源码。
基于此,直接右击鼠标找到
,复制可供复制的整篇源码。
粘贴到本地,并将文件以
后缀命名。
之后就好办了,比如我这里运用
库即可获取到我们想获得的网页源码。
代码语言:javascript复制soup = BeautifulSoup(open('new.html', encoding='utf-8'), "html.parser")
print(soup)