超高精准度IP地理位置定位技术,采用将数据挖掘与网络测量相结合的总体模型,搭建先划分IP地址应用场景再进行IP地址定位的技术架构,利用动态IP地址多区域定位算法,解决了基准点数据利用率低、单一技术无法实现超高精度IP地址定位等问题,形成街道级IP地理位置定位,极大程度上提升了IP地址定位的精确度和覆盖度。与世界上最先进的IP地址定位技术相比,精确度提高了30倍,技术上处于国际领先地位。
超高精度IP地理位置定位技术通过设计探测机选择算法,根据探测机地理位置、网络出口等指标,选择最优探测机组合,搭建高可用、易扩展的分布式探测机群组。研发高并发海量数据爬虫系统,部署在分布式探测群组之上,针对万维网、移动平台的数据进行深度挖掘,完成WHOIS、BGP等开源数据库数据和IP地址基准点数据采集。
针对传统网络测量方式获取到的网络路径不全、时延经常发生膨胀、采集效率低下等问题,采用基于Per-Flow方式探测的Paris traceroute和MDA traceroute的探测技术,采集基于UDP和ICMP类型的网络路径,设计时延修复和路径修复算法,保证网络拓扑信息的完整性和正确性。
针对同一类别的IP指纹信息、地理覆盖范围、网络拓扑、对应域名、端口等属性存在相似性,不同类别间存在明显差异的特点。为了解决目前应用场景划分停留在运营商、数据中心等级别,颗粒度粗糙等问题。结合IP的物理特征和网络特征,利用机器学习分类算法,完成17类IP应用场景的精细划分。从而针对不同场景使用差异化的基准点过滤算法和IP定位算法,提高整体定位的准确度。
结合IP应用场景判定结果,根据不同来源的数据特征,设定不同的清洗规则,对IP基准点数据进行清洗,确保数据的真实性和准确性。针对WHOIS和BGP数据,根据注册机构的类型、地域以及登记的时间,筛选可用基准点。
针对移动基准点数据,使用独立IP和IP簇双重过滤原则。对独立IP,筛选一定时间内搜集到的位置数量(不少于10条位置信息)和来源数量(不少于3个数据来源)都比较丰富的情况,划定其经常出现的区域,并删除不在区域内的异常基准点;对相邻的IP簇,使用多种数据来源(不少于3个数据来源)提供的IP丰富位置信息(不少于20条位置信息),划定该IP簇经常出现的区域,并删除不在区域内的异常基准点。
针对单一使用数据挖掘技术或网络测量技术,从可行性上来讲,要实现超高精度IP地址定位是十分困难的问题。研发超高精度IP地理位置定位算法,对不同应用场景下的、有基准点的IP进行动态聚类分析,针对不同的聚类参数,权衡聚类覆盖区域的面积大小以及聚类覆盖区域下的基准点召回率,找到效果最优的聚类参数,给出不同应用场景下IP地理位置的最大覆盖范围;对没有基准点的IP进行网络拓扑相似度比较,完成IP定位。
超高精度IP地址定位技术将数据挖掘与网络测量两种技术相结合,从而产生化学反应,极大程度上提升了IP地址定位的精确度和覆盖度。