数据的分类(Data Classification)常识(3)

2020-04-21 16:11:40 浏览数 (1)

A.数据(Data)和信息(Information)常识

B.数据的分类(Data Classification)常识

一、宏观的数据分类

二、统计数据分类和数据标准

三、大数据业务领域中的数据类型

三、大数据业务领域中的数据类型

大数据是驱动机器学习等业务的燃料,机器学习构成了人工智能(AI)的基石。通过挖掘(和分析)大数据,人们能够发现某种模式,以更好地理解事情发生的原因。然后,他们还可以使用AI来预测未来可能发生的情况,并根据这些见解制定战略方向。大数据业务领域中的数据类型[22]如下:

3.1 大数据

业务领域中的大数据被定义为:大量的数据实际上不适合标准(关系)数据库进行分析和处理,大数据是由人和机器生成的大量信息引起的过程。虽然'大数据'的定义可能略有不同,但每个数据集的根源都是非常大的,包含结构化、半结构化和非结构化数据的不同数据集,来自不同来源和不同数量,从字节到泽字节(zettabytes)。传统的关系数据库很难(不是不可能)以低延迟捕获,管理和处理它们,这很复杂。

3.2 结构化,非结构化,半结构化数据

请看前面1.2.2小节。所有数据都有某种结构。在结构化数据和非结构化数据之间划分,取决于数据是否具有预定义的数据模型以及是否以预定义的方式组织。

3.3 带时间戳的数据

带时间戳的数据是一个数据集,它具有时间排序的概念,定义每个数据点被捕获(事件时间)或收集(处理时间)的序列。这种类型的数据通常用于收集行为数据(例如,网站上的用户操作),因此是一段时间内行动的真实表示。拥有这样的数据集对于正在研究负责预测或估计下一个最佳动作风格模型的系统的数据科学家来说是非常宝贵的,或者可以通过系统重放用户步骤来执行旅程分析。

3.4 机器数据

机器数据驱动现代企业的系统、技术和基础设施创造的设备数据。例如,工作中,从驾驶联网汽车到办公室,登录计算机,拨打电话,回复电子邮件,访问应用程序,所有这些活动都会以一系列不可预测的格式创建大量机器数据,这些格式经常被忽略。有人把机器数据比喻为“数字废气”。

机器数据包括来自各种领域的数据、如应用程序编程接口(API)、安全端点、消息队列、变更事件、云应用程序、呼叫详细记录和来自工业系统的传感器数据。机器数据很有价值,因为它包含客户、用户、交易、应用程序、服务器、网络和移动设备的所有活动和行为的明确、实时记录。

3.5 时空数据

时空数据描述了同一事件的位置和时间——它可以向我们展示物理位置中的现象如何随时间变化。它可以描述点位置或更复杂的线,例如车辆轨迹,或构成国家,道路,湖泊或建筑物足迹等地理对象的多边形(平面图)。

时空数据包含时间戳中的日期和时间信息。有效时间是现实世界中涵盖的时间段。事务时间是已知存储在数据库中的事实的时间。分析人员如何可视化和与时空数据交互的例子包括:跟踪移动车辆,描述人口随时间的变化,或识别电信网络中的异常情况。决策者还可以运行后端数据库计算,以查找对象之间的距离或指定位置内包含的对象的摘要统计信息。

3.6 开放数据

开放数据是任何人可以免费获得的数据(有机会对其应用分析)和重新发布的权利,不受版权、专利或其他控制机制的限制。如果它在人们实际上可以理解的方式来分享的内容开放数据才是有用的。它需要以标准化格式共享,并且可以轻松追溯到它的来源。

3.7 暗数据

暗数据是未被使用的数字信息,并且以某种形式处于休眠状态。组织在其常规业务活动过程中收集,处理和存储的信息资产,但通常不能用于其他目的。

3.8 实时数据

分析中最具爆炸性的趋势之一是能够流动和处理实时数据。有些人认为这个术语本身就是一种误称,即数据的传播速度与通信速度一样快,这并不比时间本身快......所以,从逻辑上讲,即使实时数据也略微落后于实际的时间流逝在现实世界。但是,我们仍然可以使用该术语来指代即时计算,其发生速度与人类可以感知的速度一样快。

边缘计算和即将到来的5G上升等趋势正在基于实时数据所带来的机会获得动力。数据即时的力量将是实现智能城市的催化剂。实时数据可以帮助解决在道路交通事故中部署紧急资源,以及在全市范围内更加顺畅地帮助交通流量的所有方面。实时数据还可以在消费者和品牌之间提供更好的联系,允许根据位置和偏好在精确的时刻提供最相关的优惠。

3.9 基因组学数据

基因组学数据是另一个需要专家理解的领域。基因组学数据涉及分析患者的DNA以识别新药并通过个性化治疗改善护理。类似的还有很多种的生物医学科技数据。

3.10 运营数据

运营数据是业务数据之外比较边缘的数据类型,公司业务运行中产生并拥有各种大数据,如:应用程序日志和指标、事件数据、微服务应用程序和第三方信息的数据。数据科学家和IT专家外,如何将这些数据转化为决策者和非技术团队可以使用的商业洞察力,是运营数据的应用场景之一。

3.11 高维数据

高维数据的概念简单说就是多维数据的意思。平时我们经常接触的是一维数据或者可以写成表形式的二维数据,高维数据也可以类推,不过维数较高的时候,直观表示很难。

随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、Web使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。又比如,面部识别技术里,由于人脸上轮廓的数量非常复杂,我们需要新的数据表达式,这些数据具有多方面的能力,能够处理能够描述面部物理学中存在的所有细微差别和个性的计算。与此相关的是特征脸的概念,即当它们用于计算以处理人脸识别时给予一组特征向量的名称。

由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用欧式距离作为数据之间的相似性度量,但在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。

随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用欧式距离作为数据之间的相似性度量,但在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决方法如:通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。

3.12 垃圾数据(未验证的过期数据)

未验证的过期数据,指那些已经收集的,但没有人知道它是相关的、准确的、还是正确的类型的数据。从业务角度来说,如果您信任未经验证的数据,那么您就不应该相信任何基于此的决策。没有验证的数据只是垃圾,也成为垃圾数据。

未完待续(To Be Cont.)

0 人点赞