本章主要是讲爬虫的基本流程,首先我们来看一下HTTP协议以及我们这个请求头的 介绍,我们先来看一下它的一些步骤,就关于我们这个网络通信的,那么首先大家知道 我们这个电脑,浏览器它是什么呢,他就是我们一般是什么访问网站的话,它会有一个 URL码,比如说我们的百度WWW. baidu.com,他的话实际上是一个域名,那么这里的话 他会有一个DNS服务器,服务器,这个DNS服务器它是我们这个IP地址的标注服务器,那 比如说我们刚才是WWW. baidu.com ,它实际上,会有一个什么会转换成一个,比如说 1.1.1.1,这个IP地址有点类似于现实生活中的一个经纬度一样。
流程
浏览器它给服务器发送的是这个域名,WWW. baidu.com,那么DNS的话呢,它会把 它转换成这个IP地址,首先我们这一个DNS服务器他会返回IP地址,就是那个域名对应的 IP地址给这个浏览器,然后呢,我们这个浏览器拿到了这一个IP地址以后,他会去访问 我们这个服务器,访问服务器返回响应,服务器通常返回给我们响应数据,还包括一些 其他不同的数据,像页面的话,一般就包括什么HTML/css/js/jpg等等。
返回数据类型解析
代码语言:javascript复制 返回的数据就是这一些等等还有其他的,只是举个例子,所以这个的话呢,实际上就
是它的一个步骤,这个网络通讯的步骤,实际上像我们刚刚讲的这个百度首页,就是打开
百度以后,百度首页它里面的话,我们看上去就是一个页面,完整的页面有,导航、有背
景、有logo以及有搜索框等一些内容,那它实际上的话是有什么,实际上是由很多部分组
成起来的,像我们这个HTML,它里面就会有一些文本信息,就是我们这个文本值。
第二个是CSS,CSS里面它就是一些样式,就控制我们这一个文字大小、颜色等,那么
还有一个js,它相当于一个行为,就相当于人的思想一样,你的思想是什么他的行为就是什
么,包括这一个什么鼠标点击这种事件,就像它会产生一些相对的效果,那还有刚刚之前
说的是什么JPG,他就是什么图片吗,当然图片的话呢,它还有其他格式,比如说png这一
些,所以这个的话,我们看上去就是一个页面,实际上它是有很多部分组成起来的.
复制代码
网络通信的原理
通信请求
代码语言:javascript复制 网络通信他的实际原理就是我们一开始去发送请求的时候,他会给一个东西,那么像
我们一个请求,他只能对应一个数据包,数据包就相当于一个文件,就一个请求对一个数
据包,那么就好比我们之前的这个什么www baidu.com这个请求,他实际上呢,就只能获
取到一个数据包,只能获取到什么HTML这些数据,那你像有一些的,它是不包括这一些图
片的,像这些什么JPG,或者是CSS是不包括的,他就是一个对应一个数据包,我们之后如
果说去抓包的时候,他可能会有很多个数据包,比如说像有一些的是什么HTML,有些是CSS,
有些什么js,就这些数据包的话呢,共同组成了这个页面,或者说整个网站。
复制代码
网站响应
代码语言:javascript复制 那么我们每发送一次请求的话呢,URL可能就会不一样,所以这里的话就是我们这一个
网络通信的,实际原理大家注意一下,你像有一些,如果说我们缺少了一部分,那比如说我
们这个响应内容把它复制过来,详细内容里面,他可能会缺少一些东西,你像我对这一个,
Www baidu.com发送请求,然后就到了响应内容,他可能会缺少一些东西,那么有一些缺少
的部分东西浏览器它会自动去发送请求,把它填充完整,最终呢,他可能会组成一个完整的
好看的百度首页,那你像有一些的话,他可能不会自动补全,他缺少的文件,它不会自动去
填充好,那么这里的话就是我们这个网络通信的步骤。