这次使用火车采集器来采集数据, 试试看如何
1.介绍
官网 火车采集器是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品,并赢得众多用户的一致认可。
2.进入软件
image.png
3.新建任务
image.png
4.配置任务
a. 配置需要获取内容页的页面地址
image.png
b. 分析页面分页
可以看到页面从第二页开始产生规律
image.png
c. 进行分页配置
image.png
image.png
d. 进行内容页链接采集
image.png
e. 配置内容页规则
双击内容页链接
image.png
d. 获取需要元素的xpath
Ashampoo_Snap_2019.04.16_20h40m39s_001_.png
image.png
f. 过滤一些不必要的标签和空格
Ashampoo_Snap_2019.04.16_20h40m39s_001_.png
g. 测试采集
image.png
image.png
注意:
可以看到, 联系电话没有, 如果用puppeteer就可以, 应为puppeteer用的开发者工具爬, 而采集器用的http请求源码
image.png
image.png
h. 配置线程
开大点采的快
image.png
i. 保存开采
image.png
5. 爬取结果
image.png