当机器都会“学习”了,你还想不学习么? | 数据科学50人· 谢梁

2018-08-08 14:20:10 浏览数 (1)

如今,我们每个人都在谈论“数据科学”,《哈佛商业评论》杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的顶尖数据科学家,希望能让你们了解这些神奇的人和他们的神秘事儿,为你们一窥数据科学的未来与未知。

▍十年之前,我不认识你,你不认识“数据科学”

2017年,伴随着人工智能概念的持续火热,“机器学习”一词从阳春白雪逐渐变得越来越下里巴人。如果你在亚马逊搜索关键词“机器学习”,在首页的推荐书籍中,你一定不会错过《Keras快速上手:基于Python的深度学习实战》这本书。

不过,如果只看评论,你可能不一定会购买它。书下面的评论争议热烈,倒是引起了DT君的兴趣。

作为一本基于Python里Keras库的深度学习入门书籍,出现很多有价值的讨论,对于作者谢梁来说,其实已经达到了自己的初衷——让更多朋友能赶上机器学习和人工智能的大潮。

(图片说明:亚马逊网站上部分最近出版的“机器学习”类书籍;图片来源:亚马逊官网截图)

谢梁,现微软云存储工程团队的首席数据科学家,纽约州立大学应用计量经济学博士。虽然现在他是数据科学的“弄潮儿”,但在十年前,其实他也是一个“旁观者”。

2000年从西南财经大学金融系毕业的时候,谢梁一开始是在中国工商银行从事信贷评估的工作。在这期间,他逐渐发现了实证数量分析中的巨大价值,于是辞职去了纽约州立大学Binghamton分校,师从Subal Kumbhakar教授,学习计量经济学。

不过,这个时候的谢梁,虽然对于数据分析情有独钟,但是对于“数据科学”还并没有什么成体系的概念。

“计量经济学,是运用现代统计方法研究经济现象的学科,现在来看,倒是很符合数据科学的要求。”他告诉DT君,在美国,研究计量经济学的博士生除了去学校教书以外,大多会去实业部门,比如华尔街或者各大银行、经济咨询公司等,从事高级数据分析工作。这些工作内容集中在某一具体商业领域,如债券,房屋信贷,金融风控等,与如今大家讨论的“数据科学”有很大的重合。

谢梁认为,“数据科学家”其实是一个背景极其多元化的群体,不仅有来自统计和计算机的专业人士,也有大量来自于经济学、物理学、运筹学、心理学的专业人士。他们的共同点是都具有较扎实的数理训练,熟练掌握编程技能,同时具备快速学习的能力。

计量经济学博士毕业后,他并没有立刻进入科技行业,而是首先从事了一些商业智能方面的工作,包括自动化的营销、客户画像等,了解了机器学习的应用领域。

到微软后,他先后在Azure云计算部门从事了服务层SaaS和基础架构层IaaS的数据分析工作。这些领域都需要对大量的数据进行分析,对客户运营策略和基础架构上运行的软件行为进行优化。

虽然环境发生了变化,但是这种“数据科学”的工作方法并没有改变——都是在有限资源条件下进行最优化的工作,同时需要对结果进行合理的解读与概念推广。他的经济学的功底让他在转换跑道时,走得得心应手。

对于“数据科学”,已经“爬坑”了十几年的谢梁觉得:数据科学就是一种按照可以复验的方法对数据及其内在规律进行研究,并系统地组织和构造认知体系的活动。

他认为,其中最重要的:第一,它包含了一套科学的方法论,其体系的核心则是密歇根大学统计系前系主任Jeff Wu提出的统计三元论 (Statistical Trilogy);第二,它是一套系统化的知识组织和构造。

就像很多搞研究的科学家一样,谢梁对数据科学的定义听起来也很抽象。不过没关系,抛开这些不亲民的概念不讲,对谢梁来说,当他从事数据科学时,要面对的永远都是清晰、具体的实际问题。

面对数据,他问自己的第一个问题永远是:你的目的是什么?

▍第一个问题永远是:你的目的是什么?

“从应用的角度来讲,数据最重要的价值取决于使用这个数据的目的。”

“数据有价值”的说法,其实最早来自于商业环境中的应用,数据是能够赚钱的。在纯粹的商业世界里,活动的目的都遵循一个基本前提假设——获利。数据科学最开始活跃的领域也正是“离钱近”的地方——金融、市场营销等。

谢梁的数据科学生涯一开始,也是从消费者和市场分析领域起步的。谢梁回忆说,这些商业工作非常强调技术与业务的结合,不追求非常炫酷的方法,但是对于可操作性要求高,这都对他现在考虑问题的角度和方式产生了深刻的影响。“我在考虑一个问题的时候先是从如何实施开始入手,再以倒序的方式去生成解决方案。”

谢梁认为,数据科学作为一个辅助业务,只有当其能对业务产生实际指导性作用才有价值。

“举例而言。如果有两家公司在收集一个人的各方面信息,A公司只能收集的是这个人每月财务流水的信息以及信贷,比如房屋贷款等方面的信息;B公司只能收集的是这个人的地理信息。那么从最直接的商业机会及其潜在价值来看,财务信息的价值是高于地理信息的价值的,这也是在信用分建模中财务信息比重很大的原因。

但是如果你的目的是要使用数据了解整个社区人口移动的模式从而帮助组织交通,疏导道路拥堵,那么显然地理信息的价值大大高于财务信息,甚至可以说财务信息在这个问题里没有明显价值。”谢梁说到。

只有把数据和应用场景有机结合起来,才能实现其价值的最大化。这就好比越野车的价值体现在公路以外的地方是一个道理。

如果你还不知道自己做数据的目的,不如就先假设让它为——赚钱。

十年前,根据美国能源部的部署,一家能源公司要在德克萨斯州推广智能电表应用。它收集了全州的电表数据,但并不知道如何使用。当时谢梁在这家公司担任数据分析职位,他领到的任务就是利用数据找到促进业务增长的方法。

“我去了以后发现这些数据从表征上与生物里面的基因表达高通量分析所应用的数据很像,因此我采用了Orly Alter等人发表在PNAS上的基于SVD的方法来对数据进行聚类,结果发现了以前被忽略了的一个消费群。”

谢梁发现的这个消费群,和传统德州的电力用户的用电模式不太一样,季节性差异较大。根据这个分析结果,他和营销部门合作了一个有针对性的营销计划,提前锁定了这类用户,用弹性价格直接向他们营销服务,吸引他们从原先的电力供应商转户到他所在的公司。

谢梁的计划最终实施效果非常好,邮件直销成功率高于平时的其他直销计划2倍以上。

在早期的数据科学探索阶段,谢梁尝试了很多不同的业务模式。他也常感叹,如今数据科学家需要掌握的知识和技术,也越来越多元化。“前几年可能数据科学家还在热衷于贝叶斯,现在就必须登上人工智能的大船;前几年还可以满足于NoSQL,现在就得学学知识图谱了。”

由于数据科学是围绕具体业务问题而立足,所以当环境变化后,所需的技术也会非常不一样。谢梁自己也是如此,从事市场分析,需要的是市场感知映射理论等;进入微软从事智能运维之后,就需要掌握异常点检测,长尾统计量分析等技术。

正是从微软开始,谢梁逐渐走上了机器学习和人工智能这条“不归路”。

▍在微软Azure做“智能运维”是一种怎样的体验

“我从小就用微软产品,中学就学习过用VB和FoxPro编程。”提到微软,谢梁总是有一种特殊的好感。虽然有时连绵的阴雨让西雅图没那么可爱,但是作为亚马逊、微软等科技巨头总部的所在地,他如今非常喜欢在西雅图的生活。

他现在的工作,是在微软Azure存储程序部门负责主导运用机器学习等数据分析的方法,提高存储系统运行效率,也就是如今很热门的“智能运维”。

所谓“智能”,在谢梁看来,就是利用数据找出某种规律,然后运用机器学习等人工智能的方法,将业务进行自动化和优化的过程。

(图片说明:谢梁现在生活在微软总部所在地西雅图,这里还坐落着亚马逊、波音、星巴克等著名的公司;图片来源:视觉中国)

据谢梁介绍,Azure云计算部门的“智能运维”涉及存储工程的所有方面,从存储的不同服务层的运行到日常维护,以及最终将人工智能嵌入Azure Storage的软件核心。“比如,我们预测的节点的健康状况分布,会成为决定Azure数据流存储的重要依据,预测的流量状况决定了存储系统负载平衡策略。另外我们的代码部署系统以后会根据新代码的实际表现进行打分,并提供部署建议。”

在竞争压力日益增大的今天,不断上升的人力成本和持续扩大的产业规模,使IT系统的运维工作变得越来越复杂,将机器学习等人工智能方法应用于IT基础架构的优化,成为了谢梁这位数据科学家最关心的事儿。

如今,他带领的智能运维团队,已经可以把机器学习和人工智能的方法应用于IaaS存储系统的多个方面,包括负载平衡、节点故障预测、可售容量预测、系统工作调度等。更新的应用包括内部运维的知识图谱构建,代码质量打分和Bug预测等,成效显著。

以节点故障预测为例,他们运用卷积神经网络来对依时间变动的大量系统运行指标进行建模,预测节点健康状态。存储系统会根据预测的节点健康分布情况,有意识地避开未来24小时状态会变差的节点,从而提高SLA和系统可用率,效果比传统预测方法准确度提高了30%左右。

系统运行效率的提升提高了可售资源的比率,降低单位交易量的总运营成本,为公司直接创造了经济价值。

▍机器都开始“学习”了,你还想不学习么?

在对话过程中,谢梁提到最多的一个概念就是“机器学习”。作为人工智能领域应用最广泛的技术之一,机器学习已经逐渐被运用到了各行各业的决策实践中。

现有的机器学习技术能从纷繁复杂的数据中提炼出可验证的特定模式。比如根据不同客户的特征和历史行为推荐产品的推荐系统,根据历史数据进行预测,根据统计分布侦测可能的网络入侵等。谢梁说,因此凡是能够根据可验证的模式采取特定操作的业务,都会受益于机器学习。

20世纪90年代以来,营销咨询、消费金融和保险等行业就得益于机器学习方法的广泛应用,而率先展示出了数据的价值。

消费金融领域的Capital One就是靠深度的数据分析起家的经典案例。他们利用数据抓住用户,针对性地制定信用卡策略,从一家名不见经传的小信用卡公司,连续十年保持两位数增长,如今已是资产规模超过3000亿美元的综合性金融企业。

(图片说明:Capital One发展初期凭借对数据的深度分析和运用,成功打入了美国信用卡市场,其数据策略后来成为很多公司学习的对象;图片来源:视觉中国)

“财险领域的GEICO和Allstate保险公司也是该领域机器学习技术的领先应用者和受益者。IT领域的著名咨询公司Gartner早就应用偏好映射等方法来构造诸如‘魔力象限’这样的数据产品。”谢梁介绍说。

在谢梁看来,随着以机器学习为代表的现代人工智能技术的成熟,很多人工劳动将会被机器替代。“比如客服、系统维护、代码找Bug、法务咨询等等。总之,具备(在一定空间内)高度重复性的工作,无论是蓝领还是白领都会被人工智能逐渐替代或者部分替代。”

在业界,谢梁认为机器学习目前主要应用在前端和后端两个层面。

前端的客户分析是指,利用机器学习得出的模式与客户进行交易上的交互。这方面的例子有折扣券分发、跨部门销售、风险控制等。现在比较火的智能投顾、客服机器人、导购机器人等,都是属于这种类别。

另一方面是后端的系统运维,利用机器学习抓住系统运行的特征来进行优化。这也是谢梁现在的主要工作。他告诉DT君,“机器系统是按照某些软件规则进行运转的复杂体系,其数据虽然繁杂但有较大可能性能分离出有规则的模式。现在这属于机器学习应用的一个比较热门的领域。比如通过预测系统的波峰波谷可以预支资源,从而实现比实时弹性计算更好的结果;通过分析历史故障数据,可以建议当前故障的最优解决方案等等。”

至于未来机器是否会夺走人类的工作,谢梁表示我们暂时还不用太担心,“人最高的能力是学习并拓展到未知领域的能力,这方面目前还看不到人工智能有涉及的可能。”

但是人类也不能掉以轻心,他最后建议DT君,”不断学习,扩大自己能力到需要更多创造力的领域,是保持自己竞争力的重要手段。”

当机器都开始“学习”的时候,人类也要更加努力才行了。

文 | 程一祥: chengyixiang@dtcj.com

题图 | 视觉中国

▍数据侠门派

谢梁是纽约州立大学计量经济学博士,微软云计算核心存储工程部首席数据科学家,主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有10年以上机器学习应用经验,熟悉各种业务场景下机器学习和数据挖掘产品的需求分析,架构设计,算法开发和集成部署,行业跨度包含金融,能源和高科技。曾经担任美国道琼斯工业平均指数唯一保险业成分股的旅行者保险公司分析部门总监,负责运用现代统计学习方法优化精算定价业务和保险运营管理,推动精准个性化定价解决方案。在包括Journal of Statistical Software等专业期刊上发表多篇论文,担任Journal of Statistical Computation and Simulation期刊以及Data Mining Applications with R一书的审稿人。与人合著有《keras快速上手:基于Python的深度学习实战》一书,销量近万册。

0 人点赞