参考链接: 一阶逻辑统一
研究证实,人类从一出生即开始累积庞大且复杂的数据库,包括各种文字、数字、符码、味道、食物、线条、颜色、公式、声音等,大脑惊人的储存能力使我们累积了海量的资料,这些资料构成了人类的认知知识基础。实验表明,将数据依据彼此间的关联性进行分层分类管理,使资料的储存、管理及应用更加系统化,可以提高大脑运作的效率。知识库是实现人工智能的基础元件,知识库是理解人类语言的背景知识,而如何构造这个知识库,找到一种合适的知识表示形式是人工智能发展的重要任务。面向人工智能的表示方法从上世纪五六十年代开始至今,已经陆续出现了多种知识表示方式,包括最开始的一阶谓词逻辑以及现在火热的知识图谱等等。本文是上一篇《事件、事件抽取与事理图谱》的姊妹篇,文章将以知识为中心,对知识、知识表示、知识图谱的历史情况进行介绍。
知识与表示知识
什么是知识,定义各有不同。Feigenbaum认为,知识是经过削减、塑造、解释和转换的信息;Bernstein提出,知识是由特定领域的描述、关系和过程组成的;Hayes-Roth认为知识是事实、信念和启发式规则;从知识库的角度上看,知识是某领域中所涉及的各有关方面的一种符号表示。而就知识本身而言,也分成多种类型,以面向计算机处理的知识而言,知识主要包括陈述性知识、过程性知识以及元知识,其中陈述性知识指用于描述领域内有关概念、事实、事物的属性和状态等信息,如雪是白的;过程性知识指具有动态时序性步骤的信息,如炒菜的一般步骤;元知识指使用陈述性和元知识的使用规则、解释规则、校验规则以及解释程序结构等。当然,为了充分表示这些知识类型,需要提出一种知识表示方法,而如何衡量一个知识表示方法的好坏,主要从知识表示的准则上来看,一个好的知识表示,首先应该适用于计算机处理,应该能够尽可能广泛地表示知识的范围,包括陈述性知识和动态性知识,确定性知识和不确定性知识等;其次,知识表示的方式是否自然、灵活,能否将知识和元知识采用统一的形式化表示方式,并且能够在同一层次以及不同层次上实现模块化。最后,该知识表示方式是否利于加入启发信息,是否具有高效的求解算法,是否适合推理。
知识表示方法
目前,为了刻画计算机所需要的知识,知识表示经历了不同时期与不同的表示方法。如图1所示,目前知识表示以及知识表示对应的技术方法经历了如下转变。
图1
细节上来说,知识表示主要经历了从一阶谓词逻辑表示、产生式规则、框架表示法、脚本表示法、语义网表示法、知识图谱表示法等几种表示,各种表示方式都有其优缺点,接下来,分别对其进行介绍。一阶谓词逻辑是最早出现的一种形式语言表示形式,是一种形式系统(Formal System),即形式符号推理系统,也叫一阶谓词演算、低阶谓词演算(Predicate Calculus)、限量词(Quantifier)理论,也有人称其为“谓词逻辑”,图2是其中的一个表示方式。是一种通过命题、逻辑联结词、个词体、谓词与量词等部件组成的表示方法,这种方法较为精确,表达自然,在形式上可接近于人类自然语言,但表示能力较差,只能表达确定性知识,对于过程性和非确定性知识表达有限,另外,由于知识之间是相互独立的,知识与知识之间缺乏关联,使得知识管理实施相对困难。
图2
产生式规则在一阶谓词逻辑表示的基础上,进一步解决了不确定性知识的表示,产生式规则以三元组(对象,属性,值)或者(关系,对象1,对象2),通过进一步加入置信度形成四元组(对象,属性,值,置信度)或者(关系,对象1,对象2,置信度)的形式来表示事实,并使用P->Q或者IF P THEN Q的形式用于表示规则,这种表示方法可以表示不确定性知识和过程性知识,具有一致性和模块化等优点,通过规则可以实现推理功能,广泛运用于上世纪70年代的专家系统当中,但这种方法不能表示结构性和层次性的知识。因此,为了表示结构化知识,一种以描述对象属性数据结构的框架Frame理论被提出,最早由Minsky明斯基在1975年首创。该框架将知识描述成一个由框架名、槽、侧面和值组成的数据结构,如图3所示,为表示地震信息的知识表示框架。框架表示法在框架这个层次上进一步引入类和实例的概念,加入subclass of , instance of等关系,实现了知识框架上的层次结构。这种框架知识表示法较先前两种方式具有结构化、继承性等优点,使得知识之间具有了嵌套式结构信息,其中框架内部表示知识结构,框架外部表示知识之间的外部关系;在继承性上,子类框架可以继承父类框架的属性和值,这样可以极大地减少建模空间。框架理论最早提出了”缺省”(default)的概念,成为常识知识表示的重要研究对象,但这种表示方式关注与知识内部与知识之间的关联,不能表示过程性知识,缺乏明确的推理机制。
图3
为了表示过程性知识,1975年由夏克从框架发展出”脚本”表示方法,这种表示方式可以描述事件及时间顺序,并成为基于示例的推理CBR(case-based reasoning)的基础之一。如图4所示,为一个典型的餐厅脚本表示方法。
图4
与框架表示法类似,脚本表示法的原理在于把人类生活中各类故事情节的基本概念抽取出来,构成一组原子概念,确定这些原子概念间的相互关系,然后把所有故事情节都用这组原子概念及依赖关系表示出来。从内部构成上来看,脚本用来表示特定领域内的事件发生序列,包含了紧密相关的动作以及状态改变的框架,在知识结构的表示上,引入进入条件、角色、道具、场景等组件作为整个事件的表示,可以细致的刻画出一个事件内的步骤和时序关系,但这种表示方式较为局限,不能对对象的基本属性进行描述和刻画,对于复杂的事件上描述能力也存在局限。同时期,Quillian于1968年提出了语义网络(Semantic Network)的概念,在研究人类联想记忆时提出,认为记忆是由概念之间的联系来实现的。Simmon于1970年正式提出语义网络,并论证了语义网络与一阶谓词逻辑的关系,认为语义网络是一种以网格格式表达人类知识构造的形式,使用相互连接的点和边来表示知识,节点表示对象、概念,边表示节点之间的关系,如图5所示:
图5
语义网络最早是作为人类联想记忆的一个明显公理模型提出,在人工智能的程序中,谓词及其边可以看作是语义网络中的结点;而格关系则相当于结点之间的连结形式。语义网络能够直接明确地表示概念之间的语义关系,是对人语义记忆和联想方式的一种模拟,结构中的关系可快速用于推理。与一阶谓词逻辑和产生式规则表示法中将事实和规则当作进行独立处理相比,语义网络从整体上对各种事实和规则进行表示,在演绎结构上,语义网络不具备特定的推理演绎结构,而是进行知识的深层次表示和推理,但就从知识表示的能力上来看,语义网络对于动态知识,过程性的知识还不能表示。此外,语义网络没有公认的形式表示体系,并且由于语义网络表示知识的手段多种多样,这种不一致的表示形式使得处理复杂度相对较高。随着互联网的发展,进入21世纪,语义网(semantic web)于2011年被提出,需要注意的是,语义网并不是要构建一个通用的、综合性的、基于internet的智能系统,而是要实现对web数据集间的互操作。语义网的概念来源于万维网,本质上是一个以web数据为核心,以机器理解和处理的方式进行链接形成的海量分布式数据库,严格上来说,不是一个知识表示方法,而是一种数据组织方式。如图6所示,语义网提供了一个用于描述领域知识内部概念、术语和关系共6层的语义网体系结构。第一层使用URI即通用资源标识对网络资源进行唯一表示;第二层使用XML格式来表示标示数据的表现形式;第三层是用RDF以及RDF-schema对网络资源的类型进行描述;第四层是用本体词汇层,用来描述资源之间的关系;第五层是逻辑层,主要提供基于资源知识库的公理和推理规则;第六层和第七层分别是证明层和信任层,主要用于对规则和数据交换时的正确性以及安全性进行规定。XMLRDF以及本体三层是整个语义网体系网络中的核心,其中XML提供了一种结构化文档的表层语法,RDF层简单地对网络资源以及资源之间的关系进行了简单的语义描述;RDFschema在RDF的基础上进一步引入了类和属性的概念,为资源引入了类和属性的层次结构语义,但不具备推理能力。为了进一步拓展RDFS的语义描述能力和推理能力,OWL引入本体,引入描述类和属性的建模原语,如目前统一的本体schema.org。
图6
2012年,Google推出基于知识图谱的搜索服务,首次提出知识图谱的概念,如图7所示。与语义网不同,知识图谱不太专注于对知识框架的定义,而是从工程的角度上去处理知识问题,着重处理从文本中自动抽取或者依靠众包方式获取知识三元组。狭义上,知识图谱指具有图结构的三元组知识库,内部包括实体,实体属性,以及实体之间的关系三类事实,知识图谱本身是一个有向图,实体作为知识图谱的节点,事实作为知识图谱的边,方向由头实体指向尾部实体,边是实体之间的关系。知识图谱真正的魅力在于其图谱中的图结构,这种结构为运行搜索,随机游走、网络流等算法提供了可能。
图7
知识图谱表示的思考
从以上的介绍中,我们可以看到,从最简单的逻辑符号表达系统到现在的知识图谱表示方式,整个知识表示方式已经逐步体系化,复杂化,所能表达的知识范围也在逐步扩大,对现实社会知识的建模能力也越来越强。知识图谱,其实并不是一个新的概念,从形式上,语义网络(semantic network)、语义网(semantic web)、知识图谱(knowledge graph)三者十分相关。语义网络提出得最早,这是为了描述人类知识而采用的一种图结构表示方法,这种表示方法与目前我们所谈到的知识图谱从展示形式上基本一致;语义网是与语义网络不同的概念,语义网络的出发点不是为了描述人类知识,而是为了表示web资源,属于web资源的一种描述框架,主要是面向计算机搜索而生的一种表示方法。知识图谱的概念,从提出的方式来看,也是为搜索而生,与语义网关系较为密切,我们可以认为知识图谱来源于语义网,也可以认为知识图谱来源于语义网络。与语义网中所描述的以网络资源作为唯一实体不同,知识图谱中的节点是以实体作为表示,在本体表示上是对语义网的一个简化版本;与语义网络相比,知识图谱进一步了引入了本体的概念,也继承了语义网中的万物互联的思想,对事实进行了概念性和结构性约束,相当于是语义网络的升级版,但更偏向工程性。就知识的表达能力而言,领域性是知识图谱的一大特性,领域性的图谱只能刻画领域性的知识。在描述知识的范围上,知识图谱可以刻画确定性的知识,也可以刻画不确定的知识(在关系边上标注置信度信息),这些知识组织可以表示整个领域知识全景。在领域知识结构的表示上,知识图谱借助本体表示框架,可以对领域的整个知识体系包括上下位概念体系,属性关系结构信息等进行描述,并对人类认知能力进行模拟。我们知道,抽象能力和概括能力是实现人类认知的两个必备能力之一。其中,抽象能力就是在思维活动中,通过对事物整体性的科学分析,把自己认为是事物的本质方面、主要方面提取出来,舍弃非本质、非主要的东西,从而形成概念和范畴的思维能力;美国心理学家贾德认为,概括是产生学习迁移的关键,学习者只有对他的经验进行了概括,获得了一般原理,才能实现从一个学习情景到另一个学习情景的迁移,才能“举一反三”、“闻一而知十”。概括能力是智能的基本功,儿童将知识概括化的过程就是将知识结构转化成认知结构的过程,就是将知识智能化的过程。知识图谱中的概念以及概念之间的上下位关系可以对应于抽象能力,知识图谱中事实之间的相关性可以为知识之间的概括和迁移能力提供帮助。然而,知识图谱在表达过程性知识上显得比较乏力,知识图谱主要描述的还是领域中一些静态本体知识,知识更多的还是分类形式下的静态类型知识。从上面的介绍中,我们可以看到,除了产生式规则表示法和脚本知识表示法能够对过程性动态知识进行表示之外,其他几种知识表示方法都集中于描绘静态知识。此外,知识图谱中所使用的本体建模,在实际的工程环节中带来了许多问题,如在同一领域中,不同的知识生成者都会根据自己的需求和理解去定义一些存在差异性的本体,这种直接就造成了在后期进行知识融合时需要在本体概念层进行融合的问题;本体扩充的问题,同一本体往往在后期的使用过程中需要不断进行扩充或更改,无法最开始就定义完全;此外,本体构建需要专家进行构建,这样的时间成本十分高昂。因此,需要寻求一种新的知识本体表示形式,将脚本表示方法和知识图谱表示方法进行融合,找到一种新型的、既能表示静态知识,又能表示动态过程性知识,能够对动态知识中的空间和时间信息进行描述,同时完成对元知识类型进行对接,将是未来知识表示发展的一个重要方向。
知识图谱与事理图谱
上一节提到,知识图谱表示方法和脚本表示方法的融合将是未来知识表示方法上的一个新的方向。目前,事理图谱可能是对这一方法的一种实践,与目前所熟知的抽象事件动态演化图谱不同,我们认为,事理图谱是新一代知识图谱未来方向的一个重要形态,我们将事理图谱定义为:“事理图谱是以“事件”为核心的新一代动态知识图谱,结构上具有抽象概念本体层和实例等多层结构;构成上包括静态实体图谱和动态事件逻辑图谱两部分;功能上注重描述事件及实体在时空域上的丰富逻辑事理关系(顺承、因果、反转、条件、上下位、组成等);应用上可通过抽象、泛化等技术实现类人脑的知识建模、推理与分析决策”。目前,我们基于事件关系抽取、事件融合等技术,构建起了规模400w的事理图谱,效果如图8所示:
图8
并以该图谱作为基本知识基础,探索事理图谱的知识表示体系框架,并不断需求事理图谱与实际应用场景的结合。事件预警是目前我们使用事理图谱的应用尝试,事件预警是一个面向商品领域的重要资讯预警产品。我们通过监控上千家全行业网站,实时采集相关资讯,通过抽取识别资讯中的事件,将事件与事理图谱中的事件进行链接,结合情感分析技术、文本标签技术、文本重要性判定技术对具有影响力的资讯进行过滤,最终为用户实现自定义标的的预警资讯筛选以及基于该预警资讯的影响寻迹探索。如图9所示,对于采集到的资讯,我们会对其进行判定,给出该资讯所能造成的影响,为了能够对最终结果给出影响的原因解释,我们给出了该影响所遵循的事理图谱链条,见页面右侧所示的事理图谱缩略图。在点击事理图谱缩略图后,可进入详情页,如图10所示,页面给出资讯全文,影响事件事理图谱(可支持全屏点击拓展查看),在页面的右侧,我们列举了与当前资讯具有事件影响相关的历史资讯,类似于kensho的做法,通过这种方式,我们尝试将历史事件影响应用于当前的资讯推荐与风险预警当中。
图9
图10
事件预警是其中的一个应用例子,此外我们还正在开展事理图谱在其他领域的尝试,如文本理解可视化系统等,欢迎持续关注我们的工作。
总结
面向人工智能的表示方法从上世纪五六十年代开始,已经陆续出现了多种知识表示方式,如最开始的一阶谓词逻辑到现在火热的知识图谱等,本文是上一篇《事件、事件抽取与事理图谱》的姊妹篇,文章以知识为中心,对知识、知识表示、知识图谱的历史情况进行了介绍,我们认为,将现有知识图谱表示方式和脚本表示方法进行融合,实现静态性确定性和非确定性知识和动态过程性知识、推理性元知识等的描述,将是未来知识表示方式的一个方向。目前,我们在开展深入研究事理图谱相关技术理论的同时,正在寻求事理图谱技术的落地应用,将事理图谱应用于资讯预警,取得了不错的效果,接下来,我们将尝试更多领域的应用。经过长期的技术研究和理论积累,我们在情感分析、信息抽取、文本结构化、知识图谱以及事理图谱等几个方向开展了一系列的工作,我们也在寻求运用这些技术实现的落地应用场景,欢迎订阅关注我们的公众号Datahorizon,持续关注我们的工作。我们的官网是www.datahorizon.cn。如有技术交流与商业合作,可与我们联系mkt@datahorizon.cn。
参考文献:
[1]石纯一等,人工智能原理,清华大学出版社,1993年10月[2]李恩著,领导思维能力漫谈,蓝天出版社,2001年04月第1版,第70页
[3]《数学辞海》编辑委员会.数学辞海·第六卷.北京:中国科学技术出版社,2002
[4]M Malhotra,Evolution of Knowledge Representation and Retrieval Techniques, International Journal of Intelligent Systems Technologies and Applications 7(7):18-28 · June 2015
[5]https://blogs.msdn.microsoft.com/willy-peter_schaub/2010/01/27/unisa-chatter-formal-logic-propositional-logic-summary/
[6]刘建炜等,知识表示比较研究,计算机系统应用,2010 年 第20卷 第 3 期