前言
在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。
环境
- Python 3.6.5
- 需要安装的包:selenium
- 编译器:sublime text 3
代码思路
导入需要用到的Python包
代码语言:javascript复制import selenium,time
from selenium import webdriver
用打开浏览器
代码语言:javascript复制driver = webdriver.Chrome(executable_path='chromedriver.exe')
输入我们需要爬取的网站
代码语言:javascript复制driver.get("https://new.qq.com/ch/milite/")
如果程序执行错误,浏览器没有打开,那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动,然后将驱动文件路径配置在环境变量即可。
驱动器下载传送门
将网页的滚动条拉到底部,触发JS加载新数据
代码语言:javascript复制jsCode = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(jsCode)
休息3秒,从JS异步加载的完成到新闻页面的更新需要一些时间
代码语言:javascript复制time.sleep(3)
进行标签定位,定位到class="item-pics"的标签
代码语言:javascript复制div = driver.find_elements_by_class_name("item-pics")
for each in div:
each = each.find_element_by_tag_name("a")
打印爬取到的内容
代码语言:javascript复制print(each.text)
原代码
代码语言:javascript复制#这是一个军事新闻数据采集脚本
import selenium,time
from selenium import webdriver
if __name__ == '__main__':
driver = webdriver.Chrome(executable_path='chromedriver.exe')
driver.get("https://new.qq.com/ch/milite/")
for each in range(1,10):
jsCode = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(jsCode)
time.sleep(3)
print(each)
time.sleep(3)
div = driver.find_elements_by_class_name("item-pics")
for each in div:
each = each.find_element_by_tag_name("a")
print(each.text)