Python爬虫之无法获取网页源码的解决方案详解

2022-01-10 13:48:34 浏览数 (4)

1 引子

2 解决方案

1 引子

对某网页数据爬取时，

键中

显示网页源码与鼠标右键

查看网页源代码显示的网页源码不同。

图1： F12 键中 Elements 显示的网页源码

图2：鼠标右键 -> 查看网页源代码显示的网页源码

因此，在使用如下代码获取网页源码时实际上获取的是图

所示的网页源码：

代码语言：javascript复制

content = requests.get(url).content.decode('utf-8')
print(content)

然而我们想要获得是图

所示的网页源码，那么这个想法怎么实现呢？

既然无法通过

库来直接获取到我们想要的网页源码，那么我们就采用

和

方法直接获取我们想要的网页源码。

基于此，直接右击鼠标找到

，复制可供复制的整篇源码。

粘贴到本地，并将文件以

后缀命名。

之后就好办了，比如我这里运用

库即可获取到我们想获得的网页源码。

代码语言：javascript复制

soup = BeautifulSoup(open('new.html', encoding='utf-8'), "html.parser")
print(soup)

0 人点赞