如何爬取知乎漂亮妹纸照片

2019-10-14 17:39:18 浏览数 (1)

爬取过程

1:

上知乎网站找到相关题目

我们第一步上知乎网站找到相关的问题,这个比较好找。比如:

然后我们需要把网址拷贝下来,比如我们把上面第一个问题的网址拷贝下来:

https://www.zhihu.com/question/26037846

注意只需要question后面对应的编号就行了。

2

用selenium获取网页文件

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Firefox,Safari,Google Chrome,Opera等。

这里,我们使用谷歌Chrome浏览器。我们需要下载chromedriver.zip然后解压到指定文件夹。

接下来就是代码操控Chrome浏览器并获得html文件。

3:

获得图片地址并下载

在获取html文件后我们需要用正则表达式匹配图片的地址,然后根据这个地址下载图片到本地。

爬取结果

我们选取一些比较好看的图片:

参考代码:

https://github.com/kunkun1230/Python_crawling/tree/master/爬取知乎妹纸图

修改:

(1)下载chromedriver.zip然后解压到指定文件夹

代码语言:javascript复制
driver =  webdriver.Chrome(r"C:Userschromedriver.exe")

(2)正则表达式:

代码语言:javascript复制
r=re.findall(r'data-actualsrc="([^"] )"',str1)
r = list(set(r))

(3)建立output/rawfile文件夹

建立output/image文件夹

0 人点赞