一、为什么要写headers?我们一般写的爬虫会默认向服务器发送爬取请求,而一般情况下网站是不允许被爬虫访问的,输出的text信息中会出现抱歉,无法访问等字眼。我们通过更改User-Agent字段则可以实现网站请求,实现网页应答。
二、 headers该怎么找?最简单的步骤如下:
1、打开你要爬虫的网页
2、按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】
3、按F5刷新网页
4、点击Network,再点击Doc
5、找到Headers,查看Request Headers的User-Agent字段,直接复制
6、将刚才复制的User-Agent字段构造成字典形式
界面显示与下图相似
headers中有很多内容,主要常用的就是user-agent 和 host,他们是以键对的形式展现出来,如果user-agent 以字典键对形式作为headers的内容,就可以反爬成功,就不需要其他键对;否则,需要加入headers下的更多键对形式。