python多线程爬虫-下载wallhaven超清壁纸

2023-11-21 08:39:21 浏览数 (1)

大家好我是前端少年汪!痴迷技术,对programming有着极大的兴趣和爱好。 从明天起,做一个新思维的人 继承,多态,层层封装 从明天起,不再关心内存管理 让每一条数据,自动放到合适的位子上 从明天起,我将为每一个对象 取一个温暖的名字 它们用驼峰命名,优雅,大方 陌生人,我也祝福你哈 愿你不再为系统级bug烦恼 愿你在平台之间肆意游荡 愿你不再关心溢出与异常

爬取的目标网站:wallhaven.cc/

使用到的库:

  • requests
  • Xpath

分析目标网站的DOM结构

我们可以看到这个网站总共分为六个大的模块:Latest,Hot,Toplist,Random,Upload,Forums 我爬取的主要是latest,hot,toplist,random这四个模块的图片. 这四个模块对应的url网址分别为:

  • wallhaven.cc/latest
  • wallhaven.cc/hot
  • wallhaven.cc/toplist
  • wallhaven.cc/random

图片的预览页面

这里可以看到page=2的页面总共

0 人点赞