Python爬虫之request +re

2022-07-04 16:22:38 浏览数 (1)

什么是爬虫?

它是指向网站发起请求,获取资源后分析并提取有用数据的程序;

爬虫的步骤:

1、发起请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等

2、获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

3、解析内容

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库(MySQL,Mongdb、Redis)文件

废话不多说,直接上代码截图(本文以抓取猫眼网站电影数据为示例):

以下是执行后输出的结果:

备注:代码截图中有详细的注释信息,所以不在文中再来说明代码中的用法。

感兴趣的同学,不妨依据代码截图,自己照着敲一遍,让程序跑起来,感受下爬虫Python之request re的魅力吧,有任何疑问可以在文章下方点击“写留言”来给我留言哟~

友情提示:“无量测试之道”原创著作,欢迎关注交流,禁止第三方转载。

0 人点赞