陈雨强,AI独角兽第四范式联合创始人、首席研究科学家。他与数据科学为伴,一路走来,从学习计算机,到搭建全球首个商用深度学习系统,再到立志做出世界上最好的AutoML,在他看来,AI可以解决很多问题,关键在于用什么样的技术与方法,结合什么样的业务与场景。
▍遇见科学的第四范式
什么是数据科学?这是「数据科学50人」系列专访一直在探究的,也是每次专访中提给受访者的第一个问题。
消失的图灵奖得主Jim Gray(注:在一次远帆之后,他神秘的消失在人世间)曾认定数据科学是科学的第四范式。在学界,关于第四范式的讨论甚嚣尘上,这一切都来自于大数据的定性与发展。
陈雨强解释说:“从第一范式的实验科学和第二范式的理论科学,到第三范式理论解释不了,只能用计算机进行一些模拟,再到第四范式,有了发现科学的新方法——大数据。”陈雨强认为,因为科学规律孕育在数据之中,把其中隐藏的那些规律挖掘出来的技术,都可以被认知为数据科学。
数据一词由来已久,无论是托夫勒的《第三次浪潮》还是香农的《信息论》都对数据在现代科学中的重要性作出过阐述。自90年代开始,海量数据蕴藏的价值慢慢被学者们认知与发掘。2006年,深度学习的概念被Geoffrey Hinton教授等人提出,开启了的新一轮人工智能的上升周期。直至当下,本轮AI浪潮也由大数据助推、掀起,而陈雨强与数据科学的交集也从90年代就开始了。
小时候的陈雨强只爱电脑。“我在小学四年级时就自学编程了,家长不让我玩游戏,那我就自己编一个游戏出来,自己玩。”提起儿时的爱好,陈雨强显露一丝小小的骄傲。
90年代,历史见证了诸多显性与隐性大事件的发生。1994年,中国通过一条64K的国际专线接入国际互联网,为今天大数据与人工智能在中国的蓬勃兴起奠定了基础;1997年的美国,NASA的宇航员迈克尔和大卫提出“海量数据”的概念,描述他们当时面临的数据过载与运算的难题;同年,IBM的人工智能“深蓝”在国际象棋比赛中击败了大师卡斯帕罗夫,成为人工智能历史上的里程碑事件;1998年,SGI(美国硅图公司)首席科学家John R. Mashey发布了名为《大数据与下一次基础设施压力的浪潮》的报告,首次提出了“大数据”的概念。
贯穿90年代与新千年的初页,陈雨强还没有接触到大数据、人工智能等先进概念。“我们那时候的兴趣就是CS(计算机科学,Computer Science),做编程的事儿。”陈雨强非常笃定。
“那么,你是什么时候才接触到人工智能呢?”
陈雨强回答:“因为一个巧合接触到人工智能。上大学之后,最开始打的比赛是欧洲办的一个做垃圾邮件分类的比赛,那次没有拿到名次,但是学到了一点算法的使用和理论,有了一些实践经验。于是从那时开始做人工智能,尤其是迁移学习(注:一种机器学习方法,是把一个领域的知识,迁移到另外一个领域,使得目标领域能够取得更好的学习效果)。”
(图片说明:陈雨强在某活动上分享《人工智能如何在企业的落地》)
在考入上海交通大学之后,从本科到研究生,陈雨强的专业都是计算机。也是在交大,他结识了日后对他产生深远影响的戴文渊(第四范式创始人)。
在技术圈,打国际计算机比赛,拿下冠军,最后被圈内“封神”,这就是每一位极客的梦想。2005年,戴文渊带领团队拿下了ACM(国际大学生程序设计竞赛)世界冠军,并在圈内成功“封神”。
(图片说明:第四范式创始人戴文渊在母校交通大学与学生们交流 图片来源:上海交大)
在交大,陈雨强也跟随戴文渊“南征北战”打比赛,还把这位大自己四岁的师兄当作技术领域最佩服的人。
“我刚进交大时,戴文渊是我所在团队的教练,他为人和蔼、谦逊,虽然是世界冠军,但是没有什么架子。”追忆起十几年前的画面,历历在目。陈雨强说:“因为我提前入学,戴文渊还帮助我搬寝室,这件事对我触动很大。”
日后,无论在生活、学习还是科研中,戴文渊都给予陈雨强极大的帮助。“我写论文遇到困难的时候,他都可以从不同的角度开导我,每次和他聊完以后,我都比较安心。”
戴文渊是一个执着追赶目标的人,一步一步踏实向前和不放弃的精神影响到了陈雨强。因为大学的友谊与信任,2015年初,离任华为诺亚方舟实验室主任科学家的戴文渊,带领以前的伙伴们创建了人工智能技术与服务提供商——第四范式。而当时已在百度与今日头条锤炼过的陈雨强选择加入其中,成为联合创始人,并兼任首席研究科学家。
▍架构师的修行
上海交大研究生毕业之后,随亦师亦友的戴文渊创业之前,陈雨强就职于工业界的技术大厂牌——百度与今日头条。
当时的百度如日中天。2005年,百度以美股IPO(上市)首日历史最大涨幅轰动全球股市。在全球最大的互联网市场,百度一度打败谷歌,成为中国排名第一的搜索引擎。直至今日,中国搜索市场超过一半的份额由百度掌握,而撑起中国人工智能半壁江山的将帅均出自百度。
在百度,陈雨强构建百度核心的搜索广告系统——凤巢系统,成功搭建了世界首个商用深度学习系统,将深度学习技术首次应用到了拥有千亿特征的在线广告场景,并从帮助百度在线广告业务收入与用户体验提升超过15%。也因为这个项目,陈雨强获得“百度最佳新人”,并成为百度历史上技术晋升最快的员工,两年时间从校招生晋升至架构师。
离开百度之后的陈雨强,选择了今日头条。头条是一家相信技术可以颠覆互联网内容传播的科技公司。事实也证明,这几年因为头条的存在,互联网内容行业发了翻天覆地的变化。
在头条,陈雨强作为整体算法负责人开发了今日头条最核心的新闻推荐系统与信息流广告系统,这两个系统也是今日头条获得成功的关键武器。
当时,陈带领团队通过构建支持千亿特征、千亿数据的流式机器学习系统,使得每个用户阅读点击行为都能在秒级更新进模型,这就是今天,头条APP带给读者极速的千人千面、个性化的阅读体验。
(图片说明:今日头条App的内容个性化推荐技术成为数据科学在互联网内容领域的经典应用案例 图片来源:视觉中国)
说起工作中,面临内容推荐算法的难题和解决方式,陈解释:“之前大部分做推荐的方式都是相关性,或者把相关性和点击率等混在一起考虑。这样就出现很多问题,算法工程师一方面希望提升点击率,但另一方面又担心由于点击率太高引入过多标题党所以不敢权利优化点击率,导致左右为难没法把指标优化到极致。当时做的第一件事情是根据业务拆分把机器学习目标进行拆分,让不同的模型分别专一的去解决点击率、留存、标题党的问题,然后共同作用提升产品效果。”
除了内容,在广告推荐算法、用户行为数据收集、分析与产品优化等方面,陈雨强都使用了AI技术,赋能产品,也获得了积极的反馈。
两段经历合并为一段修行,陈雨强从架构师起身,联翩而至,用数据科学开辟了一片崭新的天地——与戴文渊一起下海创业。2015年初,一家名为第四范式,专注于提供人工智能技术与服务的公司在北京中关村横空出世。
用陈雨强自己的话说,三段经历各有不同。百度造“凤巢”,陈雨强解决一个公司的一个搜索广告点击率的问题;头条做推荐,陈雨强帮助公司解决了频道推荐、视频推荐、广告推荐等多个问题;范式建生态,在新的战场上,陈雨强要考虑在不同行业、不同场景下,解决不同的问题。
2019年2月,著名研究机构CB Insights发布的《2019全球100强AI初创企业排行榜》,第四范式作为唯一六家中国公司入榜,市值超过10亿美元,成为AI领域新独角兽。
▍关于改变、人才与行业
在这个瞬息万变的时代,大部分人却害怕做出改变,所以马云说:改变是痛苦,但不改变会更加痛苦。也有很多人憎恨、抱怨这个不断变幻的世界,所以托尔斯泰说:每个人都想要改变世界,却没人想过要改变自己。
陈雨强30岁的人生,从第四范式成立那天起,就发生了改变。
“我的变化是比较大的,开始思考技术怎么变现,以及怎么带领团队攀登更高峰,所以,对目标的理解是对资源的理解,技术如何产生价值,又产生多少价值。”陈雨强说。
作为凸显研究能力并赋能公司产品与服务的科学家,陈雨强的关注点是如何把“齿轮”做好,把“马达”的力量加大。有数据显示,中国公司的平均生命周期只有3.9年,对于初创公司挑战只会更大,所以,创业唯一的选择就是创新、做出改变,反之走向消亡、载入商业史册。
陈说:“如果不以广告变现的话(此前服务公司的商业模式),你把“马达”的马力变大不一定对公司有推进的作用,所以,第四范式走了一条全新的路子,把技术的路线变现,设定更好的目标,让更好的一些研究人员能够加入进来。”公司需要数据科学人才,更注重应用型人才,技术是硬实力,而懂得将实际业务场景结合技术,解决行业根本问题的人才是最好的数据科学人才。”
在这个AI赋能的时代,寻觅“懂技术又懂行业的数据科学人才”谈何容易!
聊完人才,自然会联系到行业。哪些行业适合AI赋能,哪些不适合呢?
面对我们提出的问题,陈雨强认为AI赋能的行业可以分为两大类:“一类是实验成本和获取成本比较低的,比如说推荐和营销,都是由一个行为推荐一个东西,产出一个反馈,选择接受还是不接受。”
“另一类,实验的成本高,收集样本数比较小,比如说在石油勘探方面,打勘测炮的成本很高,这样收回数据与反馈的会非常少。”
当数据量充足的情况下,利用行业经验和模型,就能较简单地解决问题。如果你的数据不够多的时候,人可以更多依赖先验知识,并将先验知识加入模型(如贝叶斯、知识图谱等)去解决问题。陈雨强解释到。
在陈雨强看来,黑天鹅是AI是解决不了的。除此之外,对于那些可以从历史经验中获得对未来预测的问题中,没有AI完全解决不了的。AI是个大概念,你可以将各种不同类型的AI技术做组合搭配,以解决不同类型的业务问题。
▍做最好的AutoML
人生总是需要一个目标,一方面明确自己的方向,一方面催促自己进步。陈雨强的目标坚定又简单——希望几年之内成就一个世界上最好的AutoML(自动机器学习)团队。
人工智能技术听起来高大上,但当下狭义的理解等于机器学习。
(图片说明:自动机器学习相对传统机器学习与人工的优势)
通常,无技术背景的人无法不通过编程语言就使用机器学习技术,同时,在某特定领域有效的机器学习模型,在另一领域完全不适用,且通常需要大量的专业知识,正是由于这些限制,AutoML技术拔地而起。
(图片说明:自动机器学习AutoML的技术框架)
自动机器学习通过前文提及的迁移学习,结合了统计、深度学习技术,旨在实现AI工具的大众化,而这类所有人都能使用的AI自动化平台,坊间戏称为“托、拉、拽”(注:直接把参数拖、拉、拽到相应的模块中,既可实现模型运算)。
市场普遍认为,AutoML是未来AI的重要工具,用户只需要提供数据,AutoML就能通过各种方法解决你的问题。陈雨强的团队正在做出一个更好的AutoML。
通过自身的研发,以及开放社区与承办NIPS(神经信息处理系统大会)的AutoML比赛等生态构建方式,第四范式于2018年发布了基于“库伯学习圈”理论打造的 AutoML产品。
(图片说明:“库伯学习圈”理论认为经验学习过程由具体经验、反思性观察、抽象概念化、主动实践四个适应性学习阶段构成)
除了拆除用户使用门槛并覆盖了从建模到应用的全流程操作之外,第四范式的AutoML产品还将应用场景触达到制造业、影视、零售和医疗保险等领域。在疾病预测、金融反欺诈、互联网推荐等几十个实际业务场景的数据验证中, AutoML做出了接近甚至超过顶级数据科学家的模型效果。当然,出色的产品还需更多的市场检验。
立志要做最好AutoML的陈雨强说自己很“宅”,和大部分技术男一样,除了每天敲击键盘的咔咔声与满屏幕二进制语言的符号外,动漫也是他最喜欢的。
“交大有一个动漫中心... ...”提起动漫,陈雨强放下了研究科学家的严谨模样,他说他也喜欢旅行与摄影,当然,在其位,谋其政,现在他也会花更多的时间看管理学的书籍。
(图片说明:酷爱旅行与摄影的陈雨强在中国台湾地区)
三十出头的年纪,一家独角兽公司的联合创始人与首席研究科学家,在同事眼里,他有着师兄戴文渊一样的谦逊品质。
“雨强为人谦虚,他说他看动漫,顺便就把日语学了,而且日语水平非常高,说爱旅游,摄影也非常好,说看管理学的东西,就会定期在公司给我们分享一些他沉淀的知识理论与思考,公司还蛮多他的粉丝的。”第四范式的同事如此评述陈雨强。
C轮融资之后的第四范式,希望把资金放在加强产品和技术的积累,以及生态链的打造上,陈雨强坚定地说:“我们不是为我们自己而做的,而是希望更多人能使用技术创造更大价值。”
建公司、管团队、办比赛、做产品,这些年的陈雨强有成长,有改变,更有坚持,不变的是与他一直相伴的是第四范式和数据科学。
作者 | Harry Wu wuhao@dtcj.com
题图 | 站酷海洛
▍数据科学50人成员
陈雨强,第四范式联合创始人&首席研究科学家,世界级深度学习、迁移学习专家。在第四范式期间主持研发了国内首个商用的人工智能全流程平台,在百度期间主持架构了全球第一个商用深度学习系统“凤巢深度学习系统”,在今日头条期间陈雨强从零起步搭建团队,建立了今日头条最核心的新闻推荐系统与信息流广告系统,该系统服务于数亿用户,帮助今日头条成为中国移动互联网领域最成功的内容分发平台之一。陈雨强多次在 NIPS、AAAI、ACL、KDD、SIGKDD 等人工智能顶会上发表论文,获 APWeb2010 Best Paper Award、KDD Cup 2011 名列第三,其学术工作被全球著名科技杂志 MIT Technology Review 报道。
▍关于数据科学50人
“数据科学50人”项目是由第一财经旗下DT财经发起的中国顶尖数据科学从业者的系列专访与社群组织,从数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布。