网络爬虫
- 定义 通过模拟人请求网站的行为,然后能够自动请求网页并将数据抓取下来,再使用一定规则将其中我们所需要的有价值的数据提取出来存储,以便我们进行分析;
- 分类
- 通用爬虫 搜索引擎抓取系统的一个重要组成部分,主要将网页抓取下来,形成一个互联网的内容备份镜像;
- 聚焦爬虫 面向特定需求的网络爬虫,与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选,以满足我们对数据的需求;
http&https
- http HyperText Transfer Protocol,超文本传输协议,一种发布和接收HTML页面的方法,默认端口80;
- https Hypertext Transfer Protocol Secure,http协议的加密版,在http下加入SSL层,默认端口443;
URL
- 定义 Uniform Resource Locator,统一资源定位符;
- 组成:
scheme://host:port/path/?query-string=xxx#anchor
,除开英文字母、数字和部分符号外,其他都是% 16进制码
进行编码;- scheme:访问协议,常为http、https及ftp;
- host:主机/域名;
- port:端口号;
- path:查找路径;
- query-string:查询字符串;
- anchor:锚点,用于前端的页面定位;
常见请求方式
- get 只需要从服务器获取数据,而不会对服务器资源产生影响时所使用的方式;
- post 向服务器发送数据如登陆操作、上传文件等,会对服务器资源产生影响时所采用的方式;
常见请求头参数
- Cookie 由之前服务器通过 Set-Cookies 设置的一个 HTTP 协议;
- Referer 表示浏览器之前访问的页面,可以认为是之前访问页面的链接将浏览器带到当前页面;
- User-Agent 浏览器的身份表示字符串;
响应状态码
urllib库
Python 中常用的一个网络请求库,可用于模拟浏览器的行为,向指定服务器发送请求,同时也可以向服务器请求数据,然后将服务器返回的数据保存,这是 Python3 中自带的一个库,直接可以使用,不需要再安装;
总结
本文总结了学习 Python 爬虫所需要的一些基础知识,通过学习,你将对爬虫的定义以及一些网络知识有所了解,为接下来进一步学习 Python 爬虫做好准备;