- python爬虫在爬取小项目时使用requests库比起scrapy框架更加的方便、快捷,而scrapy框架常用于数据量大、源地址复杂。
Requests | Scrapy |
---|---|
页面级爬虫 | 网站级爬虫 |
功能库 | 框架 |
并发性考虑不足,性能较差 | 并发性好,性能较高 |
重点在于页面下载 | 重点在于爬虫结构 |
定制灵活 | 一般定制灵活,深度定制困难 |
上手十分简单 | 入门稍难 |
- 安装requests库和BeautifulSoup4库,命令行
1pip3 install requests
2pip3 install BeautifulSoup4
- 键入代码
1import requests
2from bs4 import BeautifulSoup
3import re
4import os
5
6res = requests.get("http://news.4399.com/gonglue/wzlm/pifu/")
7ss = res.text.encode('ISO-8859-1').decode('gbk')
8
9soup = BeautifulSoup(ss,"html.parser")
10targets = soup.find_all('ul',class_="rolelist cf pifulist")
11targets=str(targets)
12imgurl = re.findall(r'lz_src="(.*?)"',targets)
13os.mkdir("skin")
14os.chdir("skin")
15n=1
16for each in imgurl:
17 img = requests.get(str(each))
18 with open(str(n) '.jpg','wb')as f:
19 f.write(img.content)
20 print("第" str(n) "张下载完成")
21 n =1
22print("*******************************")
23print("下载完成,共下载了" str(n-1) "张")
24print("*******************************")
- 执行程序