小红书现在已经成为营销胜地,对于笔记,尤其是爆款笔记的研究和搜集整理,应该是不少人在做的事情。
前面本渣渣分享了小红书单篇笔记的下载,这篇为大家分享批量下载小红书笔记的方法,这里取了巧,下载话题的小红书笔记,同样也能实现批量下载同一话题下的多篇小红书笔记内容。
Python爬虫,小红书单篇笔记采集爬虫源码工具
以下简单整理下抓包分析及部分参数分享:
重要的参数分析及要点都附上图了,仅供参考学习!
采集对比验证效果:
附关键源码参考:
其中参数cookie、page_id 须自行补齐!
代码语言:javascript复制# -*- coding: utf-8 -*-
#小红书话题数据采集
# author:微信 huguo00289
#https://www.xiaohongshu.com/page/topics/5bfd5dcb0af6350001652788?fullscreen=true&naviHidden=yes&xhsshare=CopyLink
import requests
url="https://www.xiaohongshu.com/web_api/sns/v3/page/notes?"
headers={
"cookie": cookie,
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
}
params={
"age_size": 6,
"sort": "hot",
"page_id": page_id,
"cursor": "",
"sid": ""
}
response=requests.get(url=url,headers=headers,params=params,timeout=6)
print(response.status_code)
cursor=response.json()['data']['cursor']
print(cursor)
datas=response.json()['data']['notes']
print(datas)
for data in datas:
print(data)
title=data['title']
print(title)
images_list=data['images_list']
for image in images_list:
image_name=image['fileid']
image_url=image['url_size_large']
print(image_name,image_url)
就分享到这里吧,感兴趣的话,可以自行修改补齐下载部分的内容代码,需要注意的是翻页的标签元素参数,要处理一下,不少网站下拉翻页都是这样处理的!
·················END·················