Python+selenium+PhantomJS获取百度搜索结果真实链接地址

2018-07-23 15:15:26 浏览数 (1)

祝愿所有参加高考的孩子们都能超水平发挥,考出好成绩,考上理想的学校!也希望你们考上大学之后仍然保持高考前的学习劲头!

===========正文=============

问题描述:在爬取百度搜索结果时,往往会得到一个中转链接,而不是真实地址,在浏览器打开这个中转链接之后才会变成真实地址。可以通过破解算法、抓包跟踪等不同手段来还原这样的地址,也可以模拟浏览器打开百度跳转链接之后获取真实地址,虽然速度稍慢一点,但是方便实现。本文使用selenium PhantomJS来模拟这个过程并获取真实地址。

1、打开网址http://phantomjs.org/download.html,下载PhantomJS,本文以Windows平台为例。下载压缩文件,把解压缩得到的phantomjs.exe复制到Python 3.6的安装目录下,也就是解释器主程序python.exe所在的文件夹。

2、使用pip命令安装Python扩展库selenium。

3、使用PhantomJS打开中转链接,然后获取真实地址。以上一篇文章Python 3.6模拟输入并爬取百度前10页密切相关链接为例,在代码中增加下面几行代码。

运行结果:

0 人点赞