本文转载自清华大学计算机系校友会
范举(2007 博)
现任中国人民大学副教授。他2012年7月毕业于清华大学计算机系,获得博士学位,导师是周立柱教授。2012-2015年在新加坡国立大学从事博士后研究工作。2015年起在中国人民大学信息学院及数据工程与知识工程教育部重点实验室工作。他主要从事数据库领域的研究工作,研究方向为群智计算、知识图谱与大数据分析。近年来发表论文30余篇,包括22篇中国计算机学会A类(CCF-A)论文,涵盖了数据库领域的顶级期刊TKDE和三大顶级会议SIGMOD、VLDB、ICDE。并在在数据库顶级会议SIGMOD 2017上参与组织辅导报告(Tutorial),这也是来自中国大陆机构的学者首次在SIGMOD会议上做辅导报告。作为课题负责人承担了国家自然科学基金青年项目、重点项目(人大子课题负责人),和腾讯犀牛鸟基金重点项目。先后担任VLDB 2018和ACM Multimedia 2015等两个领域顶级会议(CCF-A类)的程序委员会委员(PC Member),以及CCF-A类期刊VLDB Journal、TKDE、TODS的评审人,并曾担任2016年全国数据库大会宣传主席。
2018年春节前,系友办的老师邀请我为“园丁计划”撰写一篇文章。这份毕业多年之后收到的邀请,让我在感激与感动之余,也有几分焦虑和惶恐。尽管我2012年就从贵系数据库组博士毕业,但由于中间在新加坡国立大学做了三年的博士后,2015年底才入职中国人民大学。满打满算也才只做了两年多的老师,经验资历尚浅,对高校教师这一职业尚未有整体全面的理解。思来想去,打算主要侧重高校科研,特别是“青椒”科研这点,结合自身经历发表些一孔之见,希望对有志于在高校工作的学弟学妹有所借鉴。
计算机科研:工业界碾压学术界?
去高校还是去企业,既是每个计算机博士毕业前的哈姆雷特之问,也是博士生就业争论的焦点问题。之前很多学长学姐探讨了个人兴趣、薪酬待遇,工作自由度、成就感使命感等方面,我这里想重点对比一下高校科研与企业研发。
计算机行业偏重应用且发展迅速,企业特别是互联网企业有着强大的科研能力,我们熟知的很多新技术,如云计算、无人驾驶,都几乎是在工业界的推动下迅猛发展起来的。在这种情况下,高校科研的处境十分尴尬:论选题,企业在第一线,能发现不断涌现的真实用户需求;论实施:企业在硬件、人力、执行效率等方面有着毋庸置疑的优势。此外,对我们做大数据分析的人来讲更要命的一点是:真正的“大数据”,如用户行为数据、交易数据、社交数据等,都通通在企业那里。这种尴尬的局面一度让我很困惑:高校科研是否会与现实脱节,变成孤芳自赏的自娱自乐?或是对工业界亦步亦趋,进而被工业界全面碾压?
带着这样的困惑,我在2016年尝试申请了CCF-腾讯犀牛鸟基金,希望通过与企业的接触,找到问题的答案。经过激烈的竞争(入围比例19/182),申请到了与腾讯社交与效果广告部的合作项目。项目在2017年结题,并获得优秀项目奖与持续滚动犀牛鸟重点项目的机会。在合作的过程中,我逐渐对高校科研的“比较优势”有了些自己的观察。
首先,企业是业务场景,用户需求驱动为先,会较多考虑投入产出比。例如,我合作的广告部门近些年发展极为迅速。在业务的压力下,会以线上较稳定的效果为首要优先级. 对于最新的学术方向,更多的方案选择会“心有余而力不足”,如融合用户画像、社交影响力、广告主题等多源异构数据,更精准地预测用户与广告的互动行为。与此相比,高校科研并非商业行为,无KPI之劳形,更看重理论与方法的创新,或者简单地说,更多基于兴趣。因此在探索新技术上的机会成本通常远低于企业。
其次,企业更关注产品或服务的整体稳定性。在与一线工程人员的合作中,我了解到广告投放是个十分复杂的工程,要考虑方方面面的因素,如广告形态、展示量、流量分发等等,当真牵一发而动全身。因此,企业的第一优化目标是保证稳定性,希望规避因新技术的引入而带来的风险。而高校科研往往聚焦于某一点,如点击率的预测。优化目标简单而聚焦,便于尝试各种模型与算法,试错成本也相对更低。
再次,企业研发一般是需要整体规划布局的,带有一定的滞后性。然而计算机技术发展很快,原有布局难免出现盲区。例如腾讯高校关系部的小伙伴就提到了量子计算。这方面腾讯之前没有做太多的布局,因此希望通过和高校的合作来“避盲”。
回到最开始的问题,我并不认为在计算机科研方面工业界全面碾压学术界。企业研发类似大象,综合实力雄厚,但需要顾及的事情也多,步履不免沉重,转向也或有踟蹰;而高校科研特别是青椒科研则类似小鸟,体量虽小却胜在轻灵,如能专注于某一方向,也能取得不俗的成绩。二者并非要比个高下,应该相伴而行,发挥各自的比较优势,共同推动技术的进步。
▲ 参加CCF-腾讯犀牛鸟科研基金项目结题评审会
科研选题:理想主义开出现实的花朵
既然要发挥高校科研的比较优势,一个不容回避的问题就是该如何选题。提起科研选题,相信每个青椒都曾徘徊与纠结过:选题偏重基础理论与技术,则离“理想”太近,离“现实”太远;选题过于产业化与商业化,则离“理想”太远,离“现实”太近。在这方面我本人做的也不够好(天秤座的选择障碍症时不时出来作祟),简单谈些个人体会吧。我认为选题要考量以下三个“度”:
第一是“有用程度”:计算机科研不应该做论文机器,要做真实有用的问题,这也是能与企业相伴前行的前提。我之前在新加坡国立大学的合作导师就非常强调数据库与大数据系统研发的重要性,认为那才是科研人员“安身立命”的根本。我所在的人民大学数据库团队也有着优良的系统研发传统,团队带头人杜小勇教授时常引用习大大的“科技工作者把论文写在祖国的大地上”。在这方面,我个人做的也还很不够,希望可以进一步沉淀,做“有用”的研究。
第二是“前沿热度”:计算机行业发展如此之快,要想与企业研发这头大象相伴而行,必须要对前沿研究有足够的敏感度。在这方面,今年我所在的人民大学数据库团队提出研究“政府治理大数据”,并承担了国家自然科学基金重点项目。我们聚焦于信用管理与信用分析,利用互联网和政府大数据中多源、多模态的行为大数据,构建行为知识图谱,进而通过对海量行为知识图谱大数据的管理与实时分析,实现针对法人/自然人的信用管理与信用分析。其中行为知识图谱构建既有很多的技术挑战,又有着很强的现实意义,受到了很多企业的关注。
第三是“人文温度”:我所在的中国人民大学是所文科为主型大学:我个人常常调侃官方文件中的“主干的文科、适当的理科、必要的工科”:计算机研究在人大是在有必要的时候才重视重视。笑谈归笑谈,我认为在人民大学做计算机研究还是应该有其独特之处的:通过与社科人文专业的学科交叉,或许会给“冷冰冰”的技术赋予一定的“温度”。例如,我目前在跟人大新闻学院合作,与传播学、心理学的老师一同组建了数据驱动的计算传播研究团队,希望通过知识图谱、群智计算等技术手段,分析信息传播规律,营造良好的在线信息环境,目前正在积极与今日头条等企业建立合作关系。在合作的过程中,与社会学的老师有很多碰撞。例如,我们谈推荐侧重从用户历史行为中挖掘兴趣,并根据兴趣做出推荐;而社会学家忧虑,这样是否会形成“信息茧房”——用户所看到的信息被锁死在一定范围内,这些对我们研究推荐的多样化很有启发。我个人很喜欢这个研究方向,毕竟技术不应该只关注于准确率与时间效率,它应该服务于构建美好的生活。
结语
前面洋洋洒洒说了这么多道理,最后想跟正在求职过程中彷徨纠结的学弟学妹们说些“过来人”的感受。在清华,我看到过很多目光坚定的人,比如我的导师周立柱教授。周老师在花甲之年临危受命,担任青海大学计算机系首任系主任,筚路蓝缕,克服了巨大的困难——之前王晓英学姐在“园丁计划”的文章中也有提及。周老师带我们去青海开过会,也给我们讲过很多经历。不过最触动我的是周老师在清华新闻网上的一张照片:背靠青海的蓝天与金黄的高粱地,真诚、笃定、平和、喜悦。贵系的毕业生能力都很强——能力强的人往往爱纠结:去高校、互联网公司,还是转金融?要户口,等分房,还是年薪百万?成为人生赢家,还是实现个人情怀?泛泛地看这些选项都有其可取之处,不过我建议学弟学妹们还是更多地关心所做的事情本身,思考是否具有“比较优势”,能否通过努力更好地实现个人价值,构建更美好的生活。最后,套用贵校“宣传片”台词,愿你们爱你所爱,行你所行,听从你心,无问西东。
▲ 在数据库领域顶级会议SIGMOD 2017上做辅导报告