Python 3 批量爬取小红书话题笔记并下载高清无水印图片源码爬虫!

2023-11-27 17:16:41 浏览数 (1)

小红书现在已经成为营销胜地,对于笔记,尤其是爆款笔记的研究和搜集整理,应该是不少人在做的事情。

前面本渣渣分享了小红书单篇笔记的下载,这篇为大家分享批量下载小红书笔记的方法,这里取了巧,下载话题的小红书笔记,同样也能实现批量下载同一话题下的多篇小红书笔记内容。

Python爬虫,小红书单篇笔记采集爬虫源码工具

以下简单整理下抓包分析及部分参数分享:

重要的参数分析及要点都附上图了,仅供参考学习!

采集对比验证效果:

附关键源码参考:

其中参数cookie、page_id 须自行补齐!

代码语言:javascript复制
# -*- coding: utf-8 -*-
#小红书话题数据采集
# author:微信 huguo00289
#https://www.xiaohongshu.com/page/topics/5bfd5dcb0af6350001652788?fullscreen=true&naviHidden=yes&xhsshare=CopyLink

import requests

url="https://www.xiaohongshu.com/web_api/sns/v3/page/notes?"
headers={
    "cookie": cookie,
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
}
params={
    "age_size": 6,
    "sort": "hot",
    "page_id": page_id,
    "cursor": "",
    "sid": ""
}
response=requests.get(url=url,headers=headers,params=params,timeout=6)
print(response.status_code)
cursor=response.json()['data']['cursor']
print(cursor)
datas=response.json()['data']['notes']
print(datas)
for data in datas:
    print(data)
    title=data['title']
    print(title)
    images_list=data['images_list']
    for image in images_list:
        image_name=image['fileid']
        image_url=image['url_size_large']
        print(image_name,image_url)

就分享到这里吧,感兴趣的话,可以自行修改补齐下载部分的内容代码,需要注意的是翻页的标签元素参数,要处理一下,不少网站下拉翻页都是这样处理的!

·················END·················

0 人点赞