数据使用全过程的一点思考

2019-12-19 11:38:18 浏览数 (1)

近日参加外部会议,对其中谈到的数据使用过程,自己的一点思考。总结整理,分享出来。

1. 知识管理的三个层次

在知识管理领域,有一个典型的知识阶层图。

1). 层次:数据

数据,是我们对客观事物的数量、属性、关系等的抽象描述,进而方便人们对其保存、传输和使用。但其没有相关背景,不能表达具体含义。

2). 层次:信息

信息,来源于数据但高于数据。当数据用于描述事物及其关系,形成有逻辑的数据流,被称为信息。其具备一个重要的特点就是实时性。因此我们认为信息是具有时效性的有一定含义的、有逻辑的、经过加工处理的、对决策有价值的数据流。例如企业内的各种报表,其本身是客观的、但却是被动的,不具备决策行动的一种素材。

3). 层次:知识

信息虽然给出数据内一些有意义的东西,但其价值往往随着时间流逝开始衰减,只有通过人们的参与对信息进行归纳、演绎、比较等手段进行挖掘,是其有价值的的部分沉淀下来,并于已存在的人类知识体系相结合,这部分有价值的信息就转化为知识。知识,相比于数据或信息更接近行动,是可以用来决策和指导行动的。

4). 层次:智慧

智慧是人类基于已有的知识,针对产生的问题根据获得的信息进行分析,对比,演绎找出解决方案的能力。这种能力运用的结果是将信息的有价值部分挖掘出来并使之成为已有知识架构的一部分。

三者关系

借用一张图,来描述几个层次之间的关系。

2. 数据使用全过程

我将数据使用过程,划分为四个阶段,分别对应前面谈到的三个层次。针对不同阶段,我们的关注点也有所不同。可用下面这张图简单总结下。

1). 阶段:采集数据

在采集数据节点,我们重点关注的是下面特点。

  • 实时 数据实时性,对数据价值意义重大,也赋予数据更多使用遐想空间。传统的T 1的batch处理方式,愈发不能满足客户需求。近些年来的实时计算、流式处理等,正是迎合了这种需求。
  • 运维 整个采集过程,应该是免运维或者只需要很少的运维成本即可完成。企业内部数据可能纷繁复杂,数据源也很多,要管理好如此多的采集过程,没有完善的运维保障是不可想象的。
  • 侵入 零侵入,是客户对采集过程的要求之一。如何做到旁路采集,对已有系统无感,要做到不影响已有业务。
  • 风险 无风险,是客户对采集的最根本诉求。无论结果如何,都不能影响现有系统,要控制整体风险。上面谈到的旁路采集,甚至是离线采集对客户来说很有意义。在极端情况,可做多风险管控,必要的隔离、熔断机制可保证将风险降到最低。

2). 阶段:加工数据

在数据加工过程,我们主要关注以下几个维度。

  • 海量 随着近些年来企业数字化进程的发展,越来越多的数据被收集利用起来。因此对加工阶段的处理能力有了更高的要求,GB、TB乃至PB级数据成为常态。从数据规模上,十亿、百亿、甚至万亿规模已不罕见。要解决海量问题,TP类场景常见的方案有分库分表、分布式乃至云原生技术;对于AP类场景常见的方案有分布式或大数据类方案。
  • 极速 在处理海量数据的同时,客户对处理速度的也有了更高的要求,这也是为了满足实时性诉求。从硬件架构来看,SSD、PCM、MEM等分层存储,RDMA、25/40Gb网络(IB)提供了底层的支持。分布式等软件架构,为存储海量数据的同时提高高速计算提供可能。特别是对于AP类场景,过去传统的T 1的批量作业方式,已不能满足客户的需求。分钟级、秒级、甚至毫秒级的查询响应诉求,成为必然。技术方案上,过去十年来火热的大数据技术,正面临冲击。诚然,其处理大体量数据是其典型优势,但对速度的天然短板也让其备受争议。这主要是因为其自身处理模式的限制,虽然可通过内存等技术提高处理效率,但其对于极致性能仍无法满足。这点上,数据库技术是有其优势的。
  • 多模 在处理的数据形态上,除了传统的关系数据外,近些年来对半结构化、非结构化的数据处理诉求也逐渐增多,常见的诸如JSON、时空等。这要求计算平台,可提供多模技术,实现在单一平台支持多种结构数据的存储、计算能力。而不是让用户在不同平台上分别处理。
  • 接口 这里谈到的接口,是指数据库与用户的交互接口。客户希望通过标准的、简洁的方式与数据库沟通。作为近二、三十年的事实标准,SQL无疑是一个好的选择。这也是近些年来,很多非关系模型的数据库,也尝试提供SQL或类SQL的接口,方便客户以他们更熟悉的方式访问到数据。同时强调下,对于AP类分析场景,SQL也提供了很多便利的特性(如窗口函数等),方便用户解决复杂业务需求。这也是很多新兴数据库,必须要解决的兼容问题。

3). 阶段:分析数据

从数据分析角度,我们主要关注以下几个维度。

  • 动态 传统数据分析场景,是用户通过预置(事先定义好)的模式,分析指定的数据内容。这是一种静态的方式,但随着企业对数据分析的新要求,现在更多是需要更加快捷、更加灵活、无固定模式、探索类的数据分析,即更强调其动态能力。这一点,后面我会单独说明。
  • 智能 智能,则是强调平台不是简单提供数据分析能力,而是可以辅助客户完成关联、聚合、分析,进一步降低获得数据的门槛。
  • 自助 传统方式下,数据的使用者往往是数据分析师、ETL开发工程师、数据建模人员等专业技术人员,但现在企业内部的数据正受到更多人的关注。依靠平台定制化服务,已无法满足客户需求,更多是还需要平台能以客户自助的方式完成。这样可大大降低数据使用门槛,同时减轻数据平台的压力。
  • 交互 与数据交互的方式,已悄然发生变化。传统的通过技术人员,使用SQL与数据的交互,甚至需要专业数据分析语言(R或Python等)无疑抬高了使用门槛;现在企业更加强调的是用更加友好的,更加业务化的表述方式来获得数据。有的甚至支持通过NLP提供自然语言交互的方式,帮助用户使用数据。

4). 阶段:理解数据

这无疑是使用数据的更高层次,目前在场景上还在探索之中。我看到的两个场景,分享出来。

  • 最优样式 最优样式,相对简单。它是指平台根据用户获得数据,推荐给客户最好的展示方式。这不再依赖客户的使用经验,而可复用大量平台积累的最佳实践,而不是只依靠客户设计。这方面,已有厂商做出部分实践,可推荐若干种显示建议供客户选择。
  • 自主分析

自主分析,无疑是“更高”的目标。当客户面对纷繁复杂的数据,如何找到数据规律?需要分析哪些方面?如何进行分析?分析结果如何展示?等等。这强调是数据理解能力。不同的用户,对同样的数据理解不同,而得到的分析结果也大相径庭。这正是高级分析人员的价值所在。但如何通过平台,提高这些能力;使得普通的小白用户,也可以快速挖掘数据价值。这些无疑是对平台更大的考虑,它需要将“数据经验”预置到系统中,用这个大脑完成此类工作。目前,已有部分厂商在实践之中。

5). 全域能力

在图中右侧,跨越不同数据使用阶段,还有些共性的能力贯彻其中,我将其称之为全域能力。这里面包括:

  • 安全 数据从产生(或抓取)、传输、存储、使用、展示、分享、销毁等,不同阶段均涉及到安全问题。客户需要从更高的高度,看待数据问题,并制定全面的安全策略。因为安全的“木桶效应”特点,其最小的短板也会数据安全隐患。
  • 资产 将数据作为一种资产来看待,已成为很多公司的共识。企业的价值不仅仅局限在固定资产、产品专利、核心技术,也在于其掌握的数据。国家层面,甚至成立了若干数据交易所,帮助企业完成数据价值的变现。这点同样也是需要从全局角度出发,考虑整个企业的数据资产管理、价值评估等工作。
  • 管控 数据管控,也成为数据管理。其更强调一种企业管理行为,是一种PDCA的循环,从计划、建设、运营到监督。概念上可概括为“实现数据和信息资产价值的获取、控制、保护、交付以及提升,对政策、实践和项目所做的计划、执行和监督”。
  • 治理 数据治理,是企业对数据资产管理行使的具体活动集合。这里包括了常见的数据架构、元数据、主数据、数据质量、数据模型与设计、数据开发、数据集成、商业智能分析等等。其更多是一些“实操”的数据行为,目的是提高企业整体数据应用水平。
  • 运营

数据运营,是近些年来提出的比较多。这里更多强调的是数据驱动的概念,强调数字化在企业经营决策中发挥的作用等。

3. 数据分析模式变化

针对上面的分析数据阶段,展开阐述下。随着企业对数据使用特点的变化,近些年来数据分析模式也发生了一些变化。可将其总结如下:

如图中所示,之前的数据分析,是以左侧的“数据可视化”为主要方式;而现在更多转变为右侧的“可视化分析”。

1). 数据可视化

这是传统的一种使用数据方式,客户从提出数据需求、进行数据建模到生成分析结果。再根据获得结果,重新提出新的需求…如此往复,迭代变化。这是一个单向的推进过程,往往需要一个较长的周期;且需要有一定专业度的技术人员参与。整个过程需要在业务=>技术=>业务间不断切换,效率很低。

2). 可视化分析

新型的数据使用方式,更加强调可视化分析。其主导角色为业务人员,其更多从业务角度出发使用数据。其过程也简化为,提出数据需求,自助分析...,以上过程是双向的,不断迭代。这里更加强调平台方提供的自助分析能力和业务侧对数据的理解。当然,这一过程也并非完全不需要技术人员,其底层可以是由专业技术人员构建的数据基础(例如数据中台),业务人员在已有成果上使用。

3). 总结

上述这一变化,其核心是“动态”二字,更加强调灵活性、自助性,缩短原有方式的周期及成本。让整个过程更加贴近业务,更好地满足最终需求。其背后的根本诉求,正是使用数据解决将要面对的“未知问题,未知答案”的问题。

0 人点赞