大家好我是前端少年汪!痴迷技术,对programming有着极大的兴趣和爱好。 从明天起,做一个新思维的人 继承,多态,层层封装 从明天起,不再关心内存管理 让每一条数据,自动放到合适的位子上 从明天起,我将为每一个对象 取一个温暖的名字 它们用驼峰命名,优雅,大方 陌生人,我也祝福你哈 愿你不再为系统级bug烦恼 愿你在平台之间肆意游荡 愿你不再关心溢出与异常
爬取的目标网站:wallhaven.cc/
使用到的库:
- requests
- Xpath
分析目标网站的DOM结构
我们可以看到这个网站总共分为六个大的模块:Latest,Hot,Toplist,Random,Upload,Forums 我爬取的主要是latest,hot,toplist,random这四个模块的图片. 这四个模块对应的url网址分别为:
- wallhaven.cc/latest
- wallhaven.cc/hot
- wallhaven.cc/toplist
- wallhaven.cc/random
图片的预览页面
这里可以看到page=2的页面总共