构建智能体系

2019-08-19 15:22:02 浏览数 (1)

作者:Nature

出品:AI机器思维

“人们曾经以采集食物为生,而如今他们要重新以采集信息为主,尽管这件事看起来很不可思议。”

——马歇尔·麦克卢汉

20世纪原创媒介理论家、思想家

●数据的生态

人类社会的发展史也是人类科技发展史。人类社会由采集狩猎时代到农业社会的渐进,由农业社会到工业社会的嬗变,由工业社会到信息化时代的飞跃,由信息化时代迈入智能社会。社会的演进趋势也是文明的演进趋势,文明从低级向高级,从小范围向大范围扩展;文明中心或主流文明在空间和时间转移的变化下向高级文明演进;在主流文明的时代模式下人类进入智能社会。由数据到信息,由信息到知识,由知识到智慧,一步步演进推动了人类智能万物的互联,进入智能化社会,实现人类与机器智能共存的智慧社会。数据价值链的演进过程如下图1-1所示。

图1-1 数据价值链的演进过程

大道至简,万物开始的本源都是简单而生。正如老子的《道德经》所言:道生一,一生二,二生三,三生万物。

老子的宇宙生成说到“一”、“二”、“三”,乃是指“道”创生万物的过程。通过讲述了一、二、三这几个数字,并不把一、二、三看作具体的事物和具体数量。它们只是表示“道”生万物从少到多,从简单到复杂的一个过程。追溯数的发展历史,人类早期的时代就是简单的数据记载。最初也完全没有数量的概念。

随着人类的进化,人类发达的大脑对客观世界的认识已经达到更加理性和抽象的地步。这样,在漫长的生活实践中,由于记事和分配生活用品等方面的需要,才逐渐产生了数的概念。比如捕获了一头野兽,就用一块石子代表。

捕获了三头野兽,就放三块石子。"结绳记事"也是地球上许多相隔很近的古代人类共同做过的事,也是数的产生之源。我国古书《易经》中有"结绳而治"的记载。

传说古代波斯王打仗时也常用绳子打结来计算天数。用利器在树皮上或兽皮上刻痕,或用小棍摆在地上计数也都是古人常用的办法。随着社会的发展,这些方法用得多了,就逐渐形成数的概念和记数的符号。

数的产生促进了科技的发展,尤其人类建立最基本的数学概念的时期,人类从数数开始逐渐建立了自然数的概念,简单的计算法,并认识了最基本最简单的几何形式。随着人类进化与科技发展,计算机的发明让人类进入了信息化时代,开始了新的时代。

随着计算机的发明,伴随着农业时代和工业时代的衰落,人类社会向信息时代过渡,跨进第三次浪潮文明,其社会形态由工业社会发展到信息社会。第三次浪潮的信息社会与前两次浪潮的农业社会和工业社会最大的区别,就是不再以体能和机械能为主,而是以智能为主。信息化是时代发展的大趋势,代表着先进生产力。

信息化大约从20世纪50年代中期开始,其代表性象征为“计算机”,主要以信息技术为主体,重点是创造和开发知识。信息化时代数据以传统关系型数据为主,数据存储一般存储在关系数据库中。对数据的应用只是简单的统计分析以及业务报表开发。

随着互联网、移动互联网和物联网的发展,数据生产源多元化,人类进入大数据时代,各行业都积累了一定量的数据,同时机器也在产生机器数据,人类进入到数据的海洋世界,产生和收集数据没有哪一个时代像现在这么便捷。

医疗数据、金融数据、交通数据、LBS数据、天气数据、旅游数据、政务数据、社交数据、机器数据等通过大数据技术搜集而来,借助大数据深加工技术对数据去伪存真,通过对海量的各类数据清洗、转化、整合、装载等生成价值数据。

对这些深加工的数据通过大数据应用层的数据开发工具实现价值挖掘,如医疗数据的病例分析、金融数据的金融风险控制、交通数据的交通智能调度、旅游数据的旅游推荐、旅游数据的精准营销、政府数据的政务服务等。大数据平台逻辑架构图如图1-2所示。

图1-2 大数据平台逻辑架构图

●数据的时效性分类与处理特征

数据的时效性对于数据的价值至关重要,数据根据实效性分为实时、准实时和离线。实时、准实时、离线一般是以时延的时间长短为区分标准。实时表示毫秒、秒级时延;近实时主要是分钟级时延;而离线是时延超过十分钟以上。实时等同于流处理(streamprocessing),如同于 Storm、Spark Streaming。

所谓实时和离线的区别其实是从时延的角度出发,如果时延短的就是实时,时延长的就是离线。时延就是从数据产生到计算出结果的时间差,时延是从端到端的,不仅仅是查询执行时间。公式表示即为:时延= 数据准备时间 查询计算时间。如何将各种计算、报表加速,从原来天级别、小时级别,加速到近实时来。数据的时效分类如同1-3所示。

图1-3数据的时效分类

对数据的应用场景不同,数据处理的时效方式不同,选择的技术也就不同。对数据处理层而言一般分为批量处理和流处理。所谓批处理,也常 “离线”处理,即数据以一个完整的数据集被处理可以重复计算,数据在落地之后定时或者按需启动作业跑批计算。一般情况下,批处理一次处理的数据量大,延迟较大,经常需要全量计算;流处理,也称为“实时”,即数据以流式的方式(增量)被处理,它与批处理的特点正好完成相反。

批处理与流处理的区别:

批处理主要操作大容量静态数据集,经常被用于对历史数据进行分析与挖掘。一般批处理使用的数据集通常具有如下特征:

数据有界限:批处理数据集数据是有限范围内的。

数据持久存储:数据通常持久存储在某存储上。

数据量大:处理数据量的量级是海量数据。

批处理框架Apache Hadoop,处理引擎提供了一套批处理模型,最适合处理对时间要求不高的非常大规模数据集。通过非常低成本的组件即可搭建完整功能的Hadoop集群,使得这一廉价且高效的处理技术可以灵活应用在很多实际业务中。与其他框架和引擎的兼容与集成能力使得Hadoop可以成为使用不同技术的多种工作负载处理平台的底层基础层。

流处理对随时进入系统的数据进行实时计算。相比批处理模式,这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的,数据量小,可以逐条计算、数据不落地、全内存计算。处理结果立刻可用,并会随着新数据的抵达继续更新处理。流处理主流的数据处理技术主要有Spark、Streaming、Storm等。混合框架Apache Spark,Apache Flink。数据的批处理与流处理区别如图1-4所示。

图1-4批处理与流处理区别

业务场景的应用不同,客户需求的不同,数据价值流的实效性也就不同。对数据应用的处理模式选择的处理逻辑和科技技术也不同,适合就是最好的。

●大数据处理体系

数据作为重要资产的观念已经成为行业共识,但要发挥数据资产的作用,还需要一个对数据进行加工处理、分析挖掘的过程。数据的价值并不是简单地浮现在数据的表面,数据内在的规律、知识才是其最为核心的价值所在。大数据时代,数据呈现出了爆发性增长、多样化演变的趋势。原有的小系统、结构化数据的抽样、小规模分析与数据挖掘已经不能满足行业发展的需求,通过借助大数据相关技术打破数据孤岛、囊括音频、影像等非格式化数据或半格式化数据的加工处理,来构建更为全面的行业数据价值视图。

数据创造价值,智慧引领未来。为发挥大数据服务价值,构建大数据处理服务体系是利用数据的关键一环。大数据处理体系分为结构化数据处理体系、非结构化数据处理体系和流数据处理体系。

●数据的价值演进

用艰辛换来的东西才真有价值——爱迪生

没有哪一个时代会像当今这个时代变化这么快,互联网、物联网、移动互联网让万物互动链接,区块链让信用信息传递,信息传输如此便捷,数据获得与创造数据如此丰富,人们处于数据的海洋包围之中。丰富的数据看上去繁杂无序,数据的种类各式各样,规划化与不规范化并存,智能化的发展创造生产出格式化、非格式化和半格式化的数据。对于这些丰富的海量数据矿山,只有经过专业化的科技工匠之手才能打磨出适应业务需求的数据产品。数据数据资产已经成为金矿,未来数据资产也会成为财富的资产表,列入计算。

将数据与业务连接起来、如何在数据变革中找到新的发展动力,已成为最重要的发展课题。从数据产生层到数据采集层之间建立数据采集平台,对不同的数据,不同的时效要求采用不同的数据采集技术,实现数据源的收集与数据处理加工。

通过对各类业务数据建立数据模型实现数据互联互通,打破数据烟囱与数据孤岛,建设数据分层应用体系,数据应用标签,让数据衍生出更多的符合业务的数据标签。通过开发API接口、H5等形式对外提供给业务部门,更好的应用数据。对于业务部门要掌握相应的数据分析与数据挖掘工具才能更好的用好数据价值链条上的数据。下图大数据平台数据演进价值流图如图1-5所示。

图1-5大数据平台数据的演进价值流图

0 人点赞