利用requests库爬取图片

2020-04-26 16:19:43 浏览数 (1)

  • python爬虫在爬取小项目时使用requests库比起scrapy框架更加的方便、快捷,而scrapy框架常用于数据量大、源地址复杂。

Requests

Scrapy

页面级爬虫

网站级爬虫

功能库

框架

并发性考虑不足,性能较差

并发性好,性能较高

重点在于页面下载

重点在于爬虫结构

定制灵活

一般定制灵活,深度定制困难

上手十分简单

入门稍难

  • 安装requests库和BeautifulSoup4库,命令行
代码语言:javascript复制
1pip3 install requests
2pip3 install BeautifulSoup4
  • 键入代码
代码语言:javascript复制
 1import requests
 2from bs4 import BeautifulSoup
 3import re
 4import os
 5
 6res = requests.get("http://news.4399.com/gonglue/wzlm/pifu/")
 7ss = res.text.encode('ISO-8859-1').decode('gbk')
 8
 9soup = BeautifulSoup(ss,"html.parser")
10targets = soup.find_all('ul',class_="rolelist cf pifulist")
11targets=str(targets)
12imgurl = re.findall(r'lz_src="(.*?)"',targets)
13os.mkdir("skin")
14os.chdir("skin")
15n=1
16for each in imgurl:
17    img = requests.get(str(each))
18    with open(str(n) '.jpg','wb')as f:
19        f.write(img.content)
20    print("第" str(n) "张下载完成")
21    n =1
22print("*******************************")
23print("下载完成,共下载了" str(n-1) "张")
24print("*******************************")
  • 执行程序

0 人点赞