数据科学通识第二讲:数据科学

2020-04-21 17:33:36 浏览数 (1)

获取更多完整课程视频、课件、案例、数据以及题库等资源,请登录数据酷客平台(www.cookdata.cn)。

视频内容

1 什么是数据科学

数据科学是一门交叉学科,主要研究如何利用科学的方法、过程、算法或系统,从结构化的或非结构化的数据中提炼知识、洞察规律、获得见解。

以金融领域中的银行业为例,银行会从不同的渠道收集客户的信用数据,包括客户的年龄、职业、收入、过往的还贷情况等。通过对上述数据的分析和处理,银行可以建立信用风险评估模型,从而对不同类型的用户进行信用风险的等级判断,帮助银行来识别哪些是高风险用户,哪些是信用良好的低风险用户,进而帮助银行实施更好的信用和贷款管理。信用风险评估是一个运用数据科学来帮助金融企业进行决策的典型案例。

2 数据科学的基本内涵

数据科学的基本内涵有两层意思:用数据的方法研究科学和用科学的方法研究数据。

第一层意思是用数据的方法研究科学问题。在科学研究的历史长河中,经过多年的发展,形成了从实验归纳到模型推演,再到计算机仿真的三种科学研究范式。在如今这个数据爆炸的时代,数据驱动来推进相关原理和方法发现的科学研究方法被称为科学研究的第四范式,比如生物信息学、天体信息学等等。

数据科学基本内涵的第二层意思,是指用科学的方法研究数据。我们对于数据的研究不是靠经验或者感觉,而是把数据的研究看作一个具有生命周期的过程,包含数据的采集、管理、分析,到可视化呈现,以及数据如何进行有效的治理,甚至数据的分析过程是不是涉及伦理问题等,都采用一种科学的方法来进行研究。这就是数据科学的另一层含义,用科学的方法研究数据。

2.1 数据的方法研究科学

科学研究的第四范式也称作数据密集型科学。它是将海量数据放入庞大的计算机集群中,只要数据间存在着一定的相互关系,那么就能找到相应的模型和算法,来发现传统的科学方法发现不了的新模式、新知识,甚至是新规律。

下述表格所呈现的开普勒第三定律的发现过程为例,开普勒通过观察八大行星绕太阳运动的数据,发现运行周期和距太阳的平均距离之间存在着某种规律,通过不停的演算,最后发现周期的平方和行星距太阳的距离的立方之比是一个常量,稳定在1左右,进而大胆地提出了开普勒第三定律。这是一个通过观察数据、分析数据得出规律,用数据的方法研究科学问题的典型例子。

数据科学对科学研究产生了重要的影响,当前它已经成为科研体系的重要组成部分。随着未来的发展,它将取得与物理、化学、生命科学等自然学科同等重要的地位。数据科学也促使科学研究与市场产业、行业的联系更加密切,缩短了从基本原理的发现,到产生经济效益的产业化的周期。除此之外,数据科学相关的研究和应用,与社会的发展以及人们日常生活的联系也将会越来越紧密。

2.2 科学的方法研究数据

用科学的方法研究数据是数据科学的另一层内涵,它的意思是指数据科学在数学、统计学、计算机科学的多学科的支撑下,从数据采集、数据管理、数据治理、数据分析、数据可视化、数据伦理等众多的方面来开展科学的研究,涵盖了数据全生命周期的流程和相应的处理链条。

  • 数据采集:借助相关的技术和手段来进行数据的收集;数据管理环节中,通过将收集的数据存储在介质中,来对数据进行管理和维护。
  • 数据治理:通过对数据进行有效的组织,可以有效提升数据的质量,以便为后面的分析过程提供更好、更可用的数据。
  • 数据分析:在数据分析环节,通过对数据进行详细的研究和概括总结,提炼有价值的信息来洞察规律,是最为重要的环节。
  • 数据可视化:数据可视化,就是指运用图形、图表等多种有效的可视化方法来展示数据,以便更清晰明确地传递数据中所蕴含的价值,也帮助人们更好的理解数据。
  • 数据安全:我们在分析和运用数据的过程中,是否会产生数据安全问题?是否会侵犯用户的隐私?我们运用算法得出的一些结论,是否会对某些特定群体产生不公平现象?是否会存在认知上的偏见?这些都被称为数据伦理问题,也有很多的学者从事这方面的研究。
  • 数据应用:对于数据应用其实就更好理解了,我们通过对数据的分析,得出的知识、见解、原理,或者是相关关系,必将对相关的行业领域产生影响,也为相关的领域带来应用价值。

3 数据科学:交叉学科

数据科学是一门交叉学科,德鲁·康为(Drew Conway)的韦恩图展示了数据科学多学科交叉的特性。

太阳系八大行星绕太阳运动的数据太阳系八大行星绕太阳运动的数据

图上有三个圆,分别代表计算机科学、数学与统计学和领域知识。数学统计学和领域知识的结合是传统的研究方法。计算机科学与数学统计学的结合,诞生了机器学习这样的研究领域。计算机科学与领域知识相结合,推动了大量的软件开发与应用,这三大领域的交集是数据科学(data science)。

从这里可以看出数据科学的内涵和学科支撑是非常丰富的。数学统计知识为数据科学提供了数理基础,计算机的程序设计通过代码展示数据分析的过程和结果。领域知识也是非常重要的,数据科学通过对数据的分析,得到相应的知识和见解,它一定是与某一个行业领域紧密相关的。这些行业领域中的先验知识,对于我们开展数据分析,以及分析结果的利用都是非常重要的。

4 大数据

我们已经来到了一个数据爆炸的时代,“大数据”(Big Data)这个词近年来十分火爆。大数据是指无法在一定时间内用常规的软件工具对其内容进行获取、管理和处理的海量数据的集合。大数据具有“5V”特性:

  • 规模性(Volume):形容数据量非常大。 多样性(Variety):指数据的类型众多,有结构化的,也有非结构化的。
  • 高速性(Velocity):是指数据产生的速度非常快。由于在我们的日常生活中,每天都会快速产生大量的数据,所以要求我们处理数据的能力要强、处理的速度要快,这样才能快速发现数据中的价值。
  • 真实性(Veracity):指的是从互联网或是智能传感器等数据收集工具得到的数据,是人们真实行为的一个体现,通过对这些数据的分析,可以洞察人们的行为规律。
  • 价值性(Value):指的是大数据的价值密度低。价值隐藏在海量的数据中,我们要通过分析挖掘才能得到这样的价值。这就是大数据的“5V”特性。

那么到底多大的数据被称为“大数据”呢?在计算机中所有的信息都是以二进制来存储的,一位二进制,称为一个比特,8位二进制称为一个字节(Byte)。KB是指1024个字节就是1024×8个比特。再进一步以1024个单位递增,有MB、GB、TB、PB、EB、ZB和YB等。到底多大算“大数据”,是一个动态发展的过程,目前来看,在TB、PB以上级别的数据量就可以被称为是“大数据”了。

5 数据科学与大数据

数据科学是一门以数据,尤其是大数据作为研究对象的学科。大数据最大的特点就是数据的规模大,而数据科学本身它并不强调数据规模的大小,在大数据出现之前,数据科学也有着广泛的应用。

我们刚刚介绍的开普勒第三定律,它的发现过程实际上并不是在大数据时代,它是很早的一个数据科学应用的例子。

针对大数据所带来的这种挑战,数据科学更拥有了用武之地,它为在海量的数据中挖掘价值,构建相应的规律,提供了新的思维、新的思路和新的方法。

0 人点赞