利用requests库爬取图片

2020-04-26 16:19:43 浏览数 (1)

python爬虫在爬取小项目时使用requests库比起scrapy框架更加的方便、快捷，而scrapy框架常用于数据量大、源地址复杂。

Requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

安装requests库和BeautifulSoup4库，命令行

代码语言：javascript复制

1pip3 install requests
2pip3 install BeautifulSoup4

键入代码

代码语言：javascript复制

 1import requests
 2from bs4 import BeautifulSoup
 3import re
 4import os
 5
 6res = requests.get("http://news.4399.com/gonglue/wzlm/pifu/")
 7ss = res.text.encode('ISO-8859-1').decode('gbk')
 8
 9soup = BeautifulSoup(ss,"html.parser")
10targets = soup.find_all('ul',class_="rolelist cf pifulist")
11targets=str(targets)
12imgurl = re.findall(r'lz_src="(.*?)"',targets)
13os.mkdir("skin")
14os.chdir("skin")
15n=1
16for each in imgurl:
17    img = requests.get(str(each))
18    with open(str(n) '.jpg','wb')as f:
19        f.write(img.content)
20    print("第" str(n) "张下载完成")
21    n =1
22print("*******************************")
23print("下载完成，共下载了" str(n-1) "张")
24print("*******************************")

执行程序

爬虫 http scrapy

0 人点赞