搜索引擎全网采集
Msray-plus,是企业级综合性爬虫/采集软件。
支持亿级数据存储、导入、重复判断等。无需使用复杂的命令,提供本地WEB管理后台对软件进行相关操作,功能强大且简单易上手!
1:可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理;
2:可从用户提供的url种子地址,源源不断的自动爬取全网网站数据,并进行结构化数据存储与自定义过滤处理;
3:可从用户提供的网站列表数据中,全自动的提取出网站联系方式信息,包括但不限于邮箱、手机/电话、QQ、微信、facebook、twitter等。
同时支持存储域名、根网址、网址(url)、IP、IP所属国家、标题、描述、访问状态等多种数据,主要运用于全网域名/网址/采集、行业市场研究分析、指定类型网站采集与分析、网络推广分析以及为各种大数据分析等提供数据支撑
1:采集注意事项
1:搜索引擎是根据关键词采集的,采集之前要准备好关键词(关键词可以为txt文档,一行一个)
2:配置流程
1:上传关键词文件
2:选择适合自己需求的过滤规则(可保持默认)
3:选择需要使用到的搜索引擎
4:过滤方案的使用,可以保持默认,也可以自定义过滤规则,可根据域名,ip地址,国家信息进行过滤
3:对采集的数据进行 导出和数据分析
软件可进行全网公开数据挖掘,大规模采集互联网公开数据,精准挖取采集内容。
可将采集到的数据进行本地存储,或者远程推送到自己的客户端,进行二次利用,业务分析.