作者 CDA数据分析师
在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身入数据科学领域。
最近,CDA 采访了几位来自不同行业的数据科学团队负责人,聊聊他们眼中的数据科学家是什么样的,以及对于初入数据科学行业的人群有些什么建议。
今天请到的是来自星窗科技的首席数据科学家——薛松,让我们看看研发总裁眼中的数据科学家是什么样的吧。
点击播放采访视频,建议wifi下播放
以下是采访的文字整理部分。
薛松 星窗科技 首席数据科学家
大家好,我叫薛松。在美国毕业之后,我先是在美国华盛顿的一家大数据公司做数据科学家,后来回到中国加入了一个初创公司,现在在初创公司里担任首席数据科学家。
Q1:请您介绍一下,目前您从事的数据科学相关的工作内容?
我们的主要工作是帮助企业客户,尤其是中小型企业客户搭建数据平台,在挖掘他们的数据核心价值。
我们团队的核心工作可以归纳为是数据的产品化。像我们之前帮助一些金融领域的客户,他们会有一些个人客户的信贷需求。那么他们掌握了这些个人用户的信贷资料,我们会帮他们在这些信贷资料的基础上面进行一些数据挖掘。获取这个人的信用记录,并且去构建这些人与人之间的关系网络,从这个关系网络中去了解一个人的信用程度。利用大数据分析利用数据科学,去帮他们准确的判断每个人的信用程度,并且提供相应的授信额度,那么这是我们应用的一个案例。
Q2:您觉得当下企业需要的数据科学家应该具备哪些技能?
硬技能这些专业性的技能其实都不用说了,大家也都知道。
首先,编程的核心技能对于数据科学家是非常重要的。这方面可能不需要你像程序员样那么精通,但是最基本的这些编程的技能是肯定要有的。
其次我想强调的是这也可能是很多人忽视的一点,就是统计基础。也就是统计的基本思想,以及对于这些机器学习算法、人工智能算法的统计精神的理解。我想这就是将数据科学家和程序员区分开的一个重要标志。
数据科学家他们会对底层的统计思想掌握的更清晰,他们很明白地了解到算法的适用场景适用的数据类型适用的问题,那么他们在实际工作中常常是为程序员提供了相当于守门员的作用。他们会知道什么样的算法适用于什么样的场景,而不是简单地去调包去使用算法,那么这是硬技能的部分。
在软技能方面,数据科学家更需要具有良好的沟通能力。因为在实际工作中,数据科学家往往是需要和不同团队不同部门不同层级的人员去沟通,去协调去获取各方面的资源去获取各方面的支持。因此数据科学家的沟通能力是要比在企业的其他部门,其他的这些技术人员要更强的要求更高。
其次是逻辑思维的能力。因为数据科学家相比于更基层一点的数据分析师,或者是其他的数据工程师这些人员来讲,他需要能够把握问题的核心关键所在,能够将资源集中于这些最关键最核心的问题。因此数据科学家需要能够条理很清楚地去分析问题,去找到问题的核心关键所在。因此逻辑思维能力和分析问题的能力,是数据科学家的一个重要的软能力。
Q3:结合您在国外的经历,您觉得中外数据科学家的区别在哪?
我觉得这个问题是非常好的一个问题。在国内和国外的一个非常大的区别在于,在美国专业性的壁垒会比中国更没有这么明显。
在美国会看到很多来自不同背景的人去做数据分析师,像我之前的同事有学经济的,有学生物的,有学物理的,那么他们去做数据分析师去做数据科学家其实是各有各的长处。有的更擅长分析商业问题,有的更擅长数学公式的推导,有的更擅长写代码,这样的团队中集聚了各方面人才的能力,并且大家能够没有障碍没有隔阂的交流,形成的战斗力是远远比大家来自同一背景的人要强得多的。
在国内,大家可能背景会趋同,很多数据分析师和数据科学家都是来自于理工科,甚至全部都是计算机背景的人士。大家的技术水平都很高,但是实际上我们可能缺乏了这种互补性,而且往往对于实际问题来讲是需要能够从不同的角度来看这个问题,需要来自各方面的智慧。
这一点我是觉得国内和国外的一个很大的区别。而且我也希望能够有越来越多来自不同背景的人能够加入到数据分析师数据科学家的行列,为我们带来不同角度的视角,更多的视野。所以这也是我觉得CDA培训对于这些非理工科,尤其是非计算机专业同学的一个很大的价值。能够让他们跨越专业壁垒,能够投入到数据科学这一个充满激情的行业中来。
Q4:您认为数据科学家需要具备的一个核心能力是什么?
我觉得在实践工作中既然到数据科学家这个层次,那么他和我们说数据分析师或者再基层一点的商业分析师之间有所不同,重要区别在于我们通常会对数据科学家有领导才能的期待。而在实践中这种领导力,往往不是通过一个具体的职位反映出来的,就是我们说这种 leadership without leader role。
就是说在实际工作中,数据科学家扮演的角色往往是一个领导性的角色,但是他常常并不具有领导的头衔。所以他很多时候是需要跨团队协作,跨团队调动资源带领一个团队,但事实上他又没有强有力的手段,能够去推动事情的进展和落地。
所以我觉得数据科学家一个很重要的能力,就是说在没有正式的头衔的时候,去推动项目往前走。
推动项目的实施和落地的能力,那么就需要他有强大的沟通技巧。一方面,和其他团队间的沟通能力。另一方面,向上管理的能力。就是和自己的领导和这些公司企业的高层和外部的客户去沟通,推动自己的想法,推动自己项目的进展。
这部分能力我认为是对于数据科学家来讲,是在职业道路上进一步上升的一个很重要的能力,可以说是最关键的能力。
Q5:请您给一些正在职场打拼的数据分析师、数据工程师们一些职业发展建议!
我的建议首先是实践,就是像英语里面说get your hands dirt,任何能够去动手做一些事情的时候,就去动手做一件事情,实践是最好的导师。
第二点,尽量的能够成为一个全栈的人才。就是说作为数据科学家而言,你不仅仅是说要掌握机器学习,要掌握数据分析的能力。同时你要能够将整个项目推动往前走,必须了解项目的方方面面,而且能在有必要的时候,自己能够去做项目中其他的事情。所以成为全栈的数据科学家,成为全栈的人才,这是成长为数据科学家的一个必经之路。
此外,要去了解敏捷开发,去实践敏捷开发。因为数据科学家和单纯的开发人员一个很大不同是,我们往往要面对着非常不确定的环境去工作。那么这个不确定性表现在目标往往是不确定,含糊不明确的团队往往是不明确的,你所能够调动所拥有的资源也是不明确的,你需要将项目推进。
只有通过快速的迭代,快速的敏捷开发能够一步一步的把项目逐渐实现,所以敏捷性开发的流程工作是数据科学家工作中一个重要的一环。
Q5:您对 CDA LEVEL 3 数据科学家人才标准有何建议和期待?
我认为,既然能够参加level 3的数据科学家,应该是CDA这个体系里边最高水准的人才。那么对于这个层次的人才,我有三点期望。
第一,有非常强的实践能力。就像前面说的这是一个数据,科学家是全栈的人才,作为一名数据科学家,他能够担当项目的方方面面,并且能够在其中扮演领导性的角色。所以实践性我认为是level 3数据科学家的首要考核标准。
第二,有扎实的理论基础。这与level 1 level 2的人不一样,不仅仅是说我要能够去应用这些算法,能够去应用这些现成的工具解决问题,并且还需要知道这些算法的局限性在哪里,这些算法的应用场景它背后的统计原理在哪里。所以这些对于数据科学家来讲,他的理论基础一定要扎实。
第三,数据科学家应当是一个T型人才。一方面要有广度,另一方面又需要有自己的深度。因此对于数据科学家而言,他应当在作为全栈型人才的基础上,同时有自己所擅长所精通的地方。这个可以是某一种具体的算法,某一项业务,在某一个业务场景,某一个行业里边成为专家。以上这三点是我对于Level 3数据科学家的一个期望。
现在我已经做了7、8年的数据科学家,也经常自己在市场上招人,碰到的一个很大的问题就是,我们很难有一个客观的标准去判断什么样是优秀的人才,什么样是符合我们要求的数据科学家。我期待CDA level 3的数据科学家认证能够为我们提供选择人才的黄金标准,能够选拔出来真正符合企业需要,能够成为一个优秀的数据科学家这样的人才。