爬虫案例-实现翻译功能

文章目录

前言一、学前准备二、爬虫是什么？三、补充概念 1.http协议就是服务器和客服端进行数据交互的一种形式。 2.常用请求头信息 3.常用响应头信息 4.加密方式四、原理步骤 1.指定url 2.发起请求 3.获取响应数据，text返回的是字符串形式的响应数据 4.持久化储存 5.执行结果五、爬取一个百度翻译的功能

前言

随着我们不断地深入学习，手上的资料已经满足不了我们的时候，我们就需要在发达的网络里寻找帮助，而爬虫就是帮我们在网络众多信息中筛选出我们所需要的。

一、学前准备

首先您需要在您的电脑上安装 Python，然后下载安装 Pycharm IDE，最后在Pycharm下载requests模块。

二、爬虫是什么？

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

三、补充概念

1.http协议

就是服务器和客服端进行数据交互的一种形式。

而https就是安全的超文本传输协议

2.常用请求头信息

User-Agent：请求载体的身份标识

Connection：请求完毕后，是断开连接还是保持连接

3.常用响应头信息

Content-Type:服务器响应回客服端的数据类型

4.加密方式

1.对称密钥加密

2.非对称秘钥加密

3.证书秘钥加密

四、原理步骤

1.指定url

代码如下：

代码语言：javascript复制

import requests
if __name__='__main__':
    url='https://www.sogou.com/'

2.发起请求

代码语言：javascript复制

import requests
if __name__=="__main__":
    url='https://www.sogou.com/'
    response=requests.get(url=url)

3.获取响应数据，text返回的是字符串形式的响应数据

代码语言：javascript复制

import requests
if __name__=="__main__":
    url='https://www.sogou.com/'
    response=requests.get(url=url)
    page_text=response.text
    print(page_text)

4.持久化储存

若想长久保存还需要新建文件，存入文件里

代码语言：javascript复制

import requests
if __name__=="__main__":
    url='https://www.sogou.com/'
    response=requests.get(url=url)
    page_text=response.text
    print(page_text)
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)