数据资源常识(3.3)数据简化(Data Simplification)

2020-04-21 16:16:58 浏览数 (1)

第二篇《数据资源概观》数据资源类型

A.数据资源(Data Resource)常识

三、行业数据资源概念(Industry Data Resources Concept)

3.1 数据管理(Data Management)

3.2 数据治理(Data Governance)

3.3 数据简化(Data Simplification)

3.3 数据简化(Data Simplification)

数据管理协会(DAMA)在数据管理知识体系(DMBOK)等书籍中提出复杂冗长的各种理念很难操作。数据简化社区(DSC)提出可操作性较强的数据简化技术(DST)方案,制定了内嵌具有数据类型层级关键词的源数据格式和决策树表示,对数据管理关系做出形式化描述和数据格式规定,实现各种数据相关的管理、治理行为;同时,多种数据类型划分兼容并存,方便数据溯源和归类,在人事物资等事务处理中提供了极大方便。在一些国际数据社区观点上,DST着重定义关键的框架、概念和格式,解决许多不同的理论(或理论家)描述的个人或企业数据/信息的管理以及治理如何运作的微观问题:数据如何表示和存储?如何界定数据资源和信息的边界?数据资源如何单独运作?如何协同工作?是“自下而上”还是“自上而下”方法更高效?如何数据建模?等等从宏观、中观到微观的问题。

3.3.1 数据简化(Data Simplification)理念

数据从文字、图像等媒体诞生以来就长期存在。人类文明推进,人类社会之数据、信息、知识、理论持续累积,面对各种消息、情报、文档、资料,人们应接不暇,除了有用信息外,也不乏重复冗余、虚假不实、无用垃圾、负面有害信息。大数据时代,数据的花样和增量更是迅猛增加,当信息多到无法检索、存储、使用的地步,人类社会就会发生“信息爆炸”、“知识爆炸”、“数据爆炸”、“数据泛滥”的情况。然而,我们每个人的时间、精力和能力有限,不论这些信息有用还是无用,信息和数据将远超个人认知学习的极限,并逐步超越自然和社会中物理设备和人类认知所能够表达、获取、传输、存储、处理、分析、加工的最大负荷,开始无法应付。

这些情况对人类和机器处理能力均提出了挑战,是极大的世界性问题,并随着信息化、自动化、数字化、智能化进程不断变大。未来这种情况还将加剧,不但关乎知识和信息的流通、文明的传承,更是涉及到每一个人的时间和精力、人类的发展能力。这些问题能不能解决?怎么解决?是不是在我们可控的能力范围之内?如何无情地剔除那些重复冗余、错误虚假、无用垃圾等数据,从而节约人和数据设备的时间、精力,做真正需要做的事,显得尤为重要。我们必须行动起来,寻找解决各级数据泛滥之道。数据爆炸涉及到人类社会生产生活的方方面面,并非独立单位、研究社区、技术方案可以彻底解决的,而是需要人类社会长期关注并努力解决。此外,即使对数据量、信息量的存量和增量都有了解决之道,使之适应了人类认知和精力范围,那么不统一的标准,如不同人群、设备、办事流程也会制造不可控的新问题,新增数据和信息将使得人类社会在分工情况下也无法有效应对海量知识和信息流。这就需要人类形成超越意识形态的、纯科学的世界观,大家都要有种良好的、科学有效的信息素养,使得人类可以应对海量知识和信息流的获取、学习、应用、存储等虚拟信息世界问题。(秦陇纪,2015)[23]

(1)数据简化的认知背景

面对信息社会出现的数据爆炸、信息爆炸、知识爆炸,需要采用类似大道至简、奥卡姆剃刀的思想,来做信息及其载体的简化。为什么要将复杂变简单呢?因为复杂容易使人迷失,只有简单化后才利于人们理解和操作。随着社会、经济的发展,时间和精力成为个人稀缺资源,管理者的时间更加有限,许多终日忙忙碌碌的管理者却鲜有成效,究其原因正是缺乏简单管理的思维和能力,分不清“普通的事”、“重要的事”与“紧迫的事”,结果成为了低绩效或失败的管理者。从这个意义上讲,管理之道就是简化之道,简化才意味着对事务真正的掌控。简单管理对于处于从大到强转型和成长时期的中国企业具有非凡的意义,简单管理本身却不简单。奥卡姆剃刀定律也认为把事情变复杂很简单,把事情变简单很复杂。一些人动辄以“无为而治”、“治大国若烹小鲜”来概括简单管理,又有几人能若庖丁般游刃有余?我们所知道的一流的企业家无不抱着异常谨慎的态度经营企业,如比尔盖茨“微软离破产只有18个月”的论断、张瑞敏“战战兢兢、如履薄冰”的心态以及任正非一直所担忧的“华为的冬天”。可见,简单管理作为一种古老而崭新的管理思维和能力,蕴涵着深刻的内涵。

(2)数据简化的专业领域

信息社会之数据、信息、资讯、知识、理论越来越多,超越个人认知和学习的精力、能力范围。我们必须行动起来,解决数据泛滥问题。最主要的方法是数据简化(Data Simplification),又叫数据精简(Data Reduction):为了应对大数据时代之数据爆炸、信息爆炸、知识爆炸等现象,和数据在人机处理能力、负荷、经济性等方面出现的问题,阐述信息化数据场景之重复冗余、错误虚假、无用垃圾等事务,和存在的各种数据现象和问题的准确承载及其解决之道;使用如载体管理、文件管理、数据库、计算框架、数据挖掘、自然语言处理、语义分析、知识工程等信息技术,简化或减少重复多余的媒体和语义数据,使信息、知识涉及到的数据越来越简单和确定。由此确定的专业领域相应的“数据简化技术”(Data Simplification Techniques)是通过溯源、去重、去伪、梳理、合并等方法,对各类数据从采集、处理、存储、阅读、分析、逻辑、形式化等方面做简化,应用于各种数据信息管理系统领域,简化减少知识、媒体、社交、设备等数据,最终使数据最简单,符合人与设备的负荷。(秦陇纪,2010)[24]数据简化专业领域建立在数据简化科学和数据简化技术等核心专业科目上,目前属于数据科学和技术学科下面的数据处理和分析专业方向。

3.3.2 数据简化技术(DataSimpTech)框架

数据虽然本质是承载、传递或储存信息、知识的,但数据不同于信息,数据有独立于信息、知识的存在边界。大道至简。我们在数据科学和技术这个认知维度和技术实现上,大部分类型的数据资源都可以归纳成为其对应的三级数据简化技术(DataSimpTech3Tier)框架:①顶层的领域概念设计;②中层的应用实体表示;③底层的数据元素实现。(秦陇纪,2010)[25]

图4:三级数据简化技术(DataSimpTech3Tier)框架

(1)顶层(领域概念设计)

在最顶层是设计数据资源所处领域概念体系,完成信息到数据资源、甚至数据资产的界定。同时,数据资源的主题域和数据拥有者的思路一致,可以直接运用于最终呈现的人机交互界面。例如,数据资源BI技术元数据的报表和分析,继而被映射到数据源元数据反映的源系统中。

(2)中层(应用实体表示)

承载具体数据的是技术应用实体,例如各种数据载体、纸质文件、电子文件、数据库、数据表、多维立方体和报表等。这种数据应用的实体表示或信息载体,表示、承载相关信息或观测结果的数据,既可以是源数据、数据集合,也可以是从可用的源表或数据表单直接获取信息。

(3)底层(数据元素实现)

最细微的微观底层,是数据技术类概念元素的实现。例如,最细节的元数据存在于字段、类别、值域等数据元素层。业务用户广泛使用的元数据业务中,业务术语映射到技术元数据的对应层,包括电子文件格式,或数据库、数据表、多维立方体和报表等的各种维度/度量。

无论已有的和未来的多么复杂的数据资源,都可以从这个技术框架的对应简化之道来实现快速接纳和管理。通过数据简化技术框架具有数据类型层级关键词的源数据格式和决策树表示,对数据载体、数据技术、数据资源、数据管理事务等做出形式化描述和和数据格式规定,实现各种数据相关的抽象、表示、存储、管理等行为。各领域数据类型对应的详细技术方案详情,请看秦陇纪《数据资源概观》文化知识科普相应的科技著作《数据简化技术》(亦200页30万字尚在创作)。

3.3.3 数据简化社区(DataSimpComm)

数据简化社区(DataSimplification Community, DSComm)包括科技媒体、门户网站、开源社区、学术审稿、出版物和网络群组等形式,致力于推动数据简化(数据精简)相关概念、技术、科学等的产学研应用和学术交流。数据简化社区网站(https://datasimp.org/尚在完善中)、社区科技媒体、学术审稿和出版物的专业科目分为:数据理论、数据简化、知识简化、信息简化等子领域。欢迎大家关注“数据简化DataSimp”公众号和网站,并给社区的学术会议和科普媒体投稿。希望所有论文应通过DataSimp论文投稿网站(https://easychair.org/cfp/DS2020),或DSC2020办公网站(http://cfp.datasimp.org/dsc2020/)提交电子版(最好是PDF DOCX格式)。科普文章邮送daatsimp@126.com,格式不限。

数据简化会议(Data Simplification Conference, DSConf)是聚焦数据简化技术等主题的学术交流。社区年度会议(DSConf2010-2020缺稿而空缺)聚焦“数据简化技术”(Data Simplification Techniques),主要是通过溯源、去重、去伪、梳理、合并等方法,对各类数据资源从采集、处理、存储、阅读、分析、逻辑、形式化等方面做简化处理,应用于信息管理系统、社交软件、自然语言处理、知识工程、数学统计、传统结构化数据库、机器学习技术、大数据、生物数据、物理空间表征与设计等领域,以精简或减少媒体、社交、知识、设备和系统等数据,最终使得各类数据最简单,符合人与设备的负荷。(秦陇纪,2010)[26]欢迎加入数据简化社区,就数据、信息、知识等相关简化实例的科学技术论文投稿、参加会议、出版论文或专著。

未完待续(To Be Cont.)

0 人点赞