Python 3 批量爬取小红书话题笔记并下载高清无水印图片源码爬虫！

小红书现在已经成为营销胜地，对于笔记，尤其是爆款笔记的研究和搜集整理，应该是不少人在做的事情。

前面本渣渣分享了小红书单篇笔记的下载，这篇为大家分享批量下载小红书笔记的方法，这里取了巧，下载话题的小红书笔记，同样也能实现批量下载同一话题下的多篇小红书笔记内容。

Python爬虫，小红书单篇笔记采集爬虫源码工具

以下简单整理下抓包分析及部分参数分享：

重要的参数分析及要点都附上图了，仅供参考学习！

采集对比验证效果：

附关键源码参考：

其中参数cookie、page_id 须自行补齐！

代码语言：javascript复制

# -*- coding: utf-8 -*-
#小红书话题数据采集
# author:微信 huguo00289
#https://www.xiaohongshu.com/page/topics/5bfd5dcb0af6350001652788?fullscreen=true&naviHidden=yes&xhsshare=CopyLink

import requests

url="https://www.xiaohongshu.com/web_api/sns/v3/page/notes?"
headers={
    "cookie": cookie,
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
}
params={
    "age_size": 6,
    "sort": "hot",
    "page_id": page_id,
    "cursor": "",
    "sid": ""
}
response=requests.get(url=url,headers=headers,params=params,timeout=6)
print(response.status_code)
cursor=response.json()['data']['cursor']
print(cursor)
datas=response.json()['data']['notes']
print(datas)
for data in datas:
    print(data)
    title=data['title']
    print(title)
    images_list=data['images_list']
    for image in images_list:
        image_name=image['fileid']
        image_url=image['url_size_large']
        print(image_name,image_url)

就分享到这里吧，感兴趣的话，可以自行修改补齐下载部分的内容代码，需要注意的是翻页的标签元素参数，要处理一下，不少网站下拉翻页都是这样处理的！

·················END·················

python 爬虫笔记工具源码

0 人点赞