IP地理位置定位技术,包含基础数据采集、硬件系统搭建、应用场景划分和定位系统研发四项关键技术。
基础数据采集为IP地理位置定位技术的研究提供基础数据支撑,是IP地址定位的基础性工作和关键技术。首先,按照不同的数据采集规则,针对不同数据源的数据格式,研究并实现一套自动化的智能化的数据采集技术;其次,对采集到的数据进行筛选、清洗和挖掘,形成基础数据库,为系统提供基础数据支撑。
基础数据采集的研究内容包含确定数据源(如Whois开放数据等)、分析数据采集的方法(如网络爬虫、数据交换、地面采集等)、各种数据采集方法的可行性分析及实现方案、确定采集数据的属性值(如地理位置、经纬度、所属运营商等)、数据的清洗办法、数据的正确性验证步骤、基础数据的迭代更新流程等。
为了保证数据质量和数据丰富性,针对不同的数据源,系统通过三种方式获取基础数据,分别是数据挖掘、数据采购、地面采集。数据挖掘是指通过网络爬虫,从特定网页如APNIC网站、BGP网站、地图类网站中获取IP及地理位置信息;数据采购是指从可以提供基础数据的公司进行数据采购,例如某本地服务网站、某网络打车网站等;地面采集是指利用自主研发的数据采集软件,进行人工实地数据采集。
数据采集技术已存在多个开源的第三方框架,例如Scrapy、Nutch、Crawler4j、WebMagic等;数据挖掘算法,例如支持向量机SVM、K-Means等,都已得到广泛应用