Python爬虫:requests的headers该怎么填

2023-03-28 10:57:57 浏览数 (3)

一、为什么要写headers?我们一般写的爬虫会默认向服务器发送爬取请求,而一般情况下网站是不允许被爬虫访问的,输出的text信息中会出现抱歉,无法访问等字眼。我们通过更改User-Agent字段则可以实现网站请求,实现网页应答。

二、 headers该怎么找?最简单的步骤如下:

1、打开你要爬虫的网页

2、按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】

3、按F5刷新网页

4、点击Network,再点击Doc

5、找到Headers,查看Request Headers的User-Agent字段,直接复制

6、将刚才复制的User-Agent字段构造成字典形式

界面显示与下图相似

headers中有很多内容,主要常用的就是user-agent 和 host,他们是以键对的形式展现出来,如果user-agent 以字典键对形式作为headers的内容,就可以反爬成功,就不需要其他键对;否则,需要加入headers下的更多键对形式。

1 人点赞