多搜索引擎关键词采集域名采集URL采集联系信息采集工具
Msray-plus,是一款采用GO语言开发的企业级综合性爬虫/采集软件。
1:可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理;
2:可从用户提供的url种子地址,源源不断的自动爬取全网网站数据,并进行结构化数据存储与自定义过滤处理;
3:可从用户提供的网站列表数据中,全自动的提取出网站联系方式信息,包括但不限于邮箱、手机/电话、QQ、微信、facebook、twitter等。
同时支持存储域名、根网址、网址(url)、IP、IP所属国家、标题、描述、访问状态等多种数据,
主要运用于全网域名/网址/采集、行业市场研究分析、指定类型网站采集与分析、网络推广分析以及为各种大数据分析等提供数据支撑。
支持多种搜索引擎
目前已经集成了市面上主流的搜索引擎,而且还在持续的集成添加中......
Msray-plus主要功能
1:关键词采集
MSRAY-PLUS可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理。支持存储与导出的数据包括:
代码语言:txt复制所属引擎:如 baidu
关键词:如 招牌
域名:如 www.msray.net
根网址: 如 http://www.msray.net
网址(url): 如 http://www.msray.net/page/1.html
IP: 如 113.123.12.123
IP所属国家: 如 美国
标题:如 这是一个网站的标题
描述:如 这是一个网站的描述内容
访问状态码:如 200
支持导出自动拓展出的关键词数据,并可显示拓展词的来源;
支持持续性的根据种子关键词,全自动拓展出相关词并采集(无限采集);
2:外链采集任务引擎
MSRAY-PLUS可从用户提供的url种子地址,源源不断的自动爬取全网网站数据(无限爬取),并进行结构化数据存储与自定义过滤处理;支持存储的数据包括:
代码语言:txt复制域名:如 www.msray.net
根网址: 如 http://www.msray.net
网址(url): 如 http://www.msray.net/page/1.html
IP: 如 113.123.12.123
IP所属国家: 如 美国
标题:如 这是一个网站的标题
描述:如 这是一个网站的描述内容
访问状态码:如 200
如果我们在创建搜索引擎任务的时候,开启了【关联外链抓取任务】,那么创建搜索引擎任务后,系统也会自动生成对应的外链引擎任务!
3:联系信息采集任务引擎
企业推广销售最重要的环节就是获取客户资源。在现实生产过程中我们会遇到很多瓶颈:
代码语言:txt复制1:线下获取资源效率低下,往往都在拜访过程中浪费大量的时间
2:资源来源聚道有限,单一
3: 资源杂乱,无效数据多,不都精准
4:获取资源陈旧,过时
MSRAY-PLUS提供基于浏览器的图形化操作界面,智能获取资源。支持亿级数据处理,利用强大的数据获取能力,抓取互联网上所有主流渠道的企业信息资料,并支持导出,再次整理。
联系信息采集任务模块,支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;
电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式;
邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容!
facebook账号同时兼容ID格式与账号名格式!
支持自动保存采集进度,可停止后下次接着采集;
同时支持自定义导出字段内容与自定义导出格式;
同时支持导出结果文件下载到本地,以及导出保存到服务器目录;
同时支持导出单条信息与多条。比如有的联系方式包含两个电话号码,那么我们可以选择仅导出一个(方便其他软件识别),也可以导出多个。
更多关注:
msray官网:https://www.msray.net/
在线文档:https://www.msray.net/doc/
免费版获取:https://github.com/super-l/msray