新智元报道
来源:清华大学
编辑:Priscilla 好困
【新智元导读】近日,全球网络通信顶会ACM SIGCOMM 2021公布了获奖名单,清华大学信息学院刘云浩、李振华团队研究影响蜂窝网络可靠性的软硬件及人类行为因素,获本届大会唯一最佳学生论文奖,成为首个获得该奖的亚洲研究院校。
清华大学团队获得ACM SIGCOMM 2021唯一最佳学生论文奖。
成为亚洲地区首个获得该奖的研究院校!
清华大学信息学院刘云浩教授和李振华副教授团队带领信息学院2021级博士生李洋和信息学院2020级博士生林灏,研究影响蜂窝网络可靠性的软硬件及人类行为因素。
有趣的是,团队之前聚餐的时候还讨论过论文的「后路」:要是论文没被大会收录,还能往哪投。
这下团队应该能放心了,不仅论文投中了,还直接拿了本届唯一的最佳学生论文奖。
左起:李洋、林灏、李振华、刘云浩
获奖论文
蜂窝网络是人类移动通信的普适技术。
从传统的2G、3G,到现在普及的4G、高速的5G、未来的6G,蜂窝网络的不断进化为超高清视频直播、增强现实、虚拟现实、实时人工智能和自动驾驶等一系列前沿应用提供基础传输架构支撑。
高速蜂窝网络不仅代表高带宽,还要求低时延和高服务密度。
「手机不断网」成为了一个至关重要但又难以克服的问题。
如何在大规模异构高动态蜂窝环境中保证网络连接的可靠性,同时涉及了手机制造商、网络服务提供商、操作系统和应用软件开发商。
由此,清华大学的团队与工业界结合,共同研究了蜂窝网络的可靠性问题。
团队的研究论文《蜂窝网络可靠性的全国性研究:测量、分析和增强》(A Nationwide Study on Cellular Reliability: Measurement, Analysis, and Enhancements)获得了唯一的最佳学生论文奖(Best Student Paper Award)。
论文地址:http://www.greenorbs.org/people/lzh/papers/[SIGCOMM'21] Cellular Reliability.pdf
项目地址: https://CellularReliability.github.io/
这是首次对蜂窝网络可靠性进行大规模长时间的研究。
随着蜂窝网络技术不断进步,手机网络可不可靠,成为了蜂窝技术采用和部署的一个关键问题。
但是,因为在移动设备上测量可靠性具有一定的难度,大规模测量的成本也很高,这个问题就一直没有解决。
因此,团队决定填补这个研究空白。
对34种不同硬件型号的7000多万部安卓手机进行大规模的深入研究。
研究发现,蜂窝网络生态系统,尤其是5G技术,存在多项不为人知的重要软件设计缺陷。
而这些正是损害蜂窝网络可靠性,导致手机老是断网的主要根源。
由此,团队提出了基于「非齐次时变马尔科夫过程」的最优化方法,将蜂窝连接修复的刚性低时效等待革新为自适应概率模型驱动策略,从而让手机断网的持续时间降到最小。
论文还首次引入稳定性兼容的4G/5G双连接机制,在不降低数据传输率的前提下,实现蜂窝连接的高可靠平滑切换。
团队在这7000多万部安卓手机部署应用后,5G手机断网次数减少40%,所有手机断网持续时间缩短36%。
可靠性问题
从移动设备的角度来看,蜂窝数据连接失败主要有以下三种情况 :
- Data_Setup_Error(连接建立错误) : 移动设备可以接收附近基站的信号,但无法与基站建立数据连接。
- Out_of_Service(服务中断):数据连接已经建立,但移动设备不能接收蜂窝数据。
- Data_Stall(数据阻塞):移动设备可以接收蜂窝数据,但数据连接异常停滞。
Android中移动蜂窝网络生命周期管理的状态机模型。多种蜂窝数据失败事件发生在不同状态的相互迁移中
测量
团队在自定制安卓系统Android-MOD之上用所开发的实时监控服务从关键系统服务中抓取详细的设备和网络状态信息,并过滤掉误报。
最终有7000万用户加入研究,分享了8个月的数据(2020年1月至8月)。
数据集中有34种不同型号的安卓手机,移动、电信、联通3个移动互联网服务供应商,以及530万个基站。
分析
结果显示,在所有34种型号的设备上,手机故障都很常见。
对于每个型号,0.15%-45%(平均为23%)的设备至少经历过一次蜂窝电话故障。
在测量过程中,一个设备平均发生多达33次故障,而一次故障持续时间平均长达3.1分钟。
实验告诉我们:手机硬件更好也于事无补。
蜂窝故障主要是由软件的可靠性缺陷造成的。例如,安卓10中盲目地优先考虑5G连接的实现,大大损害了蜂窝连接的稳定性。
此外,大部分(94%)故障持续时间是由于Data_Stall故障引起的。
当然,手机断网跟运营商也有关系。
由于电信的信号覆盖率较低,电信用户的手机故障发生率(27.1%)比移动用户(20.1%)和联通用户(14.7%)更高。
但与此相反,虽然3G基站的数量和总体信号覆盖范围比不上2G或4G基站,但3G基站上的故障发生率却低于2G或4G基站。
基站方面,通常的观点认为,蜂窝的可靠性与接收信号强度(RSS)之间存在正相关关系。
然而,当RSS达到最高的5级时,情况正好相反。此时比1-4级的RSS更容易发生故障。
事实上,大多数5级RSS下的故障来自公共交通枢纽周围密集部署的基站,虽然RSS高,但这些基站增加了LTE移动性管理的控制信道开销,导致经常出现网络故障。
改进
研究提出了可以大规模改善蜂窝可靠性的方案:
- 让手机供应商推出5G模块和新的操作系统版本之前谨慎处理、加强测试,特别是多场景覆盖;
- 让互联网服务供应商充分利用无线电资源,例如利用「空闲」的3G基站和规划公共区域的基站部署密度;
- 促进跨互联网服务供应商基础设施建设。
对于上述改善方案,研究团队已经进行了力所能及的系统实现,产生了可观的实际影响。
首先,考虑蜂窝故障的可能性,不盲目追求5G潜在的高数据率,同时利用最新的4G/5G双连接机制,优化Android 10中的无线接入技术(RAT)选择策略。
其次,优化安卓系统中的三阶段蜂窝连接恢复机制,将其固定时间触发器替换为基于非齐次时变马尔可夫过程(TIMP)的概率模型驱动触发器,从而使设备更快速地恢复网络。
团队向受测用户发布双重优化的系统补丁后,在更新系统的用户中5G手机故障情况减少40%,Data_Stall持续时间减少了38%。
团队介绍
获奖论文共同第一作者为清华大学信息学院2021级博士生李洋和信息学院2020级博士生林灏。
李洋,现于清华大学软件学院可信网络与系统研究所攻读博士学位。
曾就读于清华大学软件学院,并在2018年获得学士学位,2021年获得工程硕士学位,入选清华大学优秀硕士毕业论文。
曾以第一作者身份发表IEEE INFOCOM论文一篇、IEEE/ACM TON期刊论文一篇。合作发表过FAST、MobiSys、TPDS等会议/期刊论文。
研究方向为云计算、数据挖掘、机器学习、移动互联网等。
林灏,目前为清华大学软件学院二年级博士生(直博)。
曾就读于清华大学软件学院,在2020年获得学士学位。
在本科及博士就读期间以共同一作身份在ACM MobiCom上发表论文两篇,在IEEE TPDS上发表论文一篇。合作发表过EuroSys、TMC会议/期刊论文。
研究方向主要为移动网络与操作系统。
通讯作者为清华大学信息学院教授刘云浩和清华大学信息学院副教授李振华。
个人主页:
https://www.thss.tsinghua.edu.cn/publish/soft/3641/2011/20110608151912005129309/20110608151912005129309_.html
刘云浩,清华大学全球创新学院院长,自动化系教授,ACM Fellow,IEEE Fellow,获清华大学自动化系工学学士学位,美国密西根州立大学计算机系工学硕士与工学博士学位。
曾任美国密西根州立大学讲席教授、计算机系主任;清华大学长江学者教授、软件学院院长。ACM Transactions on Sensor Network 主编,CCCF主编。
2010年获得教育部自然科学一等奖,2011年获国家自然科学二等奖,2013年获得ACM主席奖,是该奖1985年设立以来唯一获奖中国人。
个人主页:
http://www.greenorbs.org/people/lzh
李振华清华大学软件学院副教授、博士生导师。
2005年获得南京大学计算机系学士学位,2008年获得南京大学计算机系硕士学位,2013年获得北京大学计算机系博士学位。
主要研究领域为云计算/云存储、网络通信、移动计算/移动模拟器。
其他共同作者还包括清华大学博士后宫良一、小米集团移动技术总监辛显龙、明尼苏达大学副教授钱风和伊利诺伊大学助理教授徐天音。
个人主页:
https://gongliangyi.github.io/
宫良一,清华大学博士后。
2010年获得哈尔滨工程大学计算机学院学士学位,2016年获得哈尔滨工程大学计算机学院博士学位(直博),2016-2019年就职于天津理工大学信息安全系(高级讲师),2019-2022年就职于清华大学软件学院可信网络与系统研究所。
2017年曾获天津市131创新人才称号。近五年来在国际学术会议及期刊(其中包括SIGCOMM,NDSI,MobiCom, EuroSys, TMC, TPDS等)上发表论文数篇,目前主持国家自然青年科学基金和天津市自然青年科学基金项目,曾参与多项国家级、省部级重大科研项目。
主要研究方向为网络安全、移动操作系统和移动模拟器。
参考资料:
https://www.tsinghua.edu.cn/info/1181/86382.htm