知识图谱还是数据图谱? | 清华AI Time

2019-11-08 09:54:33 浏览数 (1)

大数据文摘出品

作者:刘俊寰

10月31日,由北京智源人工智能研究院主办的2019北京智源大会在国家会议中心开幕,本次大会吸引到了国内外人工智能领域的顶级专家学者参与,他们围绕人工智能基础研究现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题,展开了深入研讨。

大会第一天下午,AI Time举行了第九期“认知图谱与推理”的主题辩论活动,国家“千人计划”特聘专家吴信东、中央研究院咨询科学所资深研究员苏克毅、阿里巴巴资深算法专家杨红霞、清华大学教授唐杰,一起论道了“认知图谱与推理”的相关问题。

知识图谱的五次历史变革

知识工程不是今天才有的,很多人讲知识图谱、认知图谱,感觉是一个新词,因为直到2012年谷歌才提出“知识图谱”(Knowledge Graph)的概念。

如果追溯一下,在1950年,包括之前,就出现了很多相关研究,50年代人工智能发展的时候就有好几个图灵奖获得者在做知识表示了。

问题更多来自于利用知识表示来求解通用问题,这个通用问题和现在说的通用问题差别很大,当时说的通用问题是从AI中抽象出的52个问题,这52个问题是定义完备下的求解问题,所以大部分是搜索问题。这就与现在的通用人工智能有了很大差别,这是第一个时代。

第二个时代以Feigenbaum为主,他在1968年发布了第一个知识库系统DENDRAL,并且他已经把一个领域的知识库描述出来了,这与现在的知识图谱关系就要密切一点了,但现在知识图谱更多是在往通用领域上走。这是第二个时代。

第三个时代以蒂姆·伯纳斯·李为主,他在1999年开始提出要把Web进行改版,做一个全新的Web,基本思路就是把现有的Web全部推翻,把无结构化的变成一个有结构化的Web,并用逻辑语言描述。当时蒂姆由于这个贡献,加上之前提出Web1.0,获得了图灵奖。

到第四个时代,工业界加入,包括谷歌、微软、FaceBook、雅虎,都做了大量关于的知识图谱的研究,尤其在搜索领域的应用。国内,阿里巴巴也做了大量知识图谱的研究,直接在产品上应用。这也推进了知识图谱的发展,尤其在群体智能和工程的知识图谱的发展方面。

最后一个时代就是目前,与之前相比最大的不同是放松了对知识图谱和知识库里逻辑性的要求,于是就能用统计学方法、机器学习做大量研究。还有一个进展就是工业界持续推进相关研究,比如QA系统,搜索系统等。

数据图谱?知识图谱?

吴信东首先对知识图谱的认识问题做出了纠正。图谱就是概念的关系的连接,这个说法是错误的,节点之间以边相连,这只是图谱,比如我给张三打电话,“打电话”连接我与张三,这叫图谱,但不叫知识图谱。

知识图谱必须要有知识支撑,要了解我是谁,我为什么给张三打电话,张三是我的领导还是我的下属,打电话过程中,我们说了什么等。大部分人说的其实是数据图谱,还没有到知识层面。

现在大部分知识图谱还停留在数据图谱上,是对个人了解以后生成的个性化推荐,知识图谱也可能有,也可能还没有认知这一层。这是对认知图谱、数据图谱和知识图谱的大致理解。

同时,吴信东指出,整个领域里信息被分成了三个层次,第一个是数据本身,第二个是知识库,知识库再往上就是解释知识的构造。

知识本身是假设只利用知识库的概念,推理就能得出正确的结论。比如,张三的一只手很长,另外一只手没有看见,如果是这样的描述,推理的时候就有可能认为张三是个残疾人。这需要把一个人有两只手的知识放进去,这是数据图谱,虽然在推理过程中用到了知识,完成了知识推理,但还是数据图谱。

杨红霞回应了吴信东的观点,她指出,阿里巴巴现在做的是有大量数据的知识图谱,具体而言就是怎样把需求和常识连接在一起。

唐杰根据知识工程70多年的发展历程指出,从最早期第一代AI的知识库,到第二代AI发展领域内的知识库。第三代与之前相比有两方面的不同,第一,原来的严谨性被去掉了,另一方面是针对现实而言。现在已经很难说清楚什么是entity,什么是concept,很多东西混在一起。它本身是一个图谱,这样也有好处,在应用时能直接利用,不排除有噪音的可能。利用这些数据可以做推荐等各个方面的应用。

吴信东认为,从技术本身上看,三年前和现在可能没有什么实质性的区别。他根据自己做线性推理的经验指出,从时间、复杂性、技术上看,现在做线性推理更快的话基本不太可能了。

实际上现在与三年前最实质的区别就是人机协同。像阿里等公司,还在摸索如何针对特定场景解决实际问题,所以还是要人机结合。

唐杰把与杨红霞的合作作为例子,指出人的认知有两个结构,一个是快速的直觉系统,一个是慢速的带分析的系统,前者用来做知识扩展,后者用来做决策,就能把两个系统结合起来。

苏克毅指出,在使用知识图谱的过程中存在不足,一个是在解答实际问题时,知识图谱的涵盖度不够,需要把固有的知识图谱和别的信息整合在一起;第二个,知识图谱是静态的,它不会传达动态信息,但很多应用是和动态信息密切相关的。

针对机器能否识别知识,杨红霞认为,现在已经出现了知识和商品搭配的广告推送,很有意思。同时,预训练对知识推理有很大帮助,除了文本之外,对于推荐图片的选择也很有裨益,否则就会出现上面写着彪形大汉,下面推荐理由是萌萌哒的情况。

吴信东认为,机器是能够识别知识的,早年逻辑程序机就是用已有定理证明新定理,新的定理就是新的知识,这是60年代的事情了。现在的智能系统里,把知识图谱放到图数据库里,机器用图数据库里的定义解析就是机器识别知识。

现在除了知识图谱以外还有一个新的概念叫事理图谱。比如发生火灾五分钟后火要么被灭了,要么火势加大,这里面有因果关系,根据因果关系可以画动态图谱。明略科技年底会做出动态知识图谱,这个图谱会根据内容变化,静态图谱中间形成的一帧一帧的图谱变化是有视觉模型的,也有时间和空间作为引导。

苏克毅对于机器能否识别新知识持比较悲观的态度,他指出,新知识一定要从旧知识边缘产生出来,如果说产生不出新知识,那是因为旧知识不够大,而机器从来没有找出数学家感兴趣的东西,它找的都是细枝末节的内容。

杨红霞对此比较乐观,她指出,第一有所见证,第二是alpha go,它有几步棋是人想不到的,最后它还赢了,当然要实现还是很难的。

唐杰举出COIC项目的例子,这个项目已经持续将近10年了,现在大家说到知识库就会提到COIC,这是非常成功的。

而苏克毅指出,COIC做数论的时候,不是没有找出来新的东西,可这些都是数学家没有兴趣或者没用的东西。为什么机器没有办法像数学家那样产生新的数学定理,因为这个过程必须大家在一起互相酝酿,机器是没有这个环境,也没有办法做成这个事情。

知识储备是十分重要的

吴信东指出,知识图谱不一定是必经之路,人工智能表示里面还有逻辑表示、结构化表示,主要在于问题场景是否适合用知识图谱。

现在大家支持使用知识图谱的原因就是图数据库,它的表示结构很灵活,比如演员的属性和教授的属性不一样,如果把二者放在一个表里面,很多空间就浪费掉了。

从技术上、可行性上、时空效率来讲,很多手段都支持知识图谱,当然也可以用其他方法,比如有些问题算法可以解决,就没必要用知识图谱,但如果算法解决不了,想用知识表示,同时有节点有连接,知识表示就会是非常好的方法。

说到工业应用,吴信东指出,公司在公安图谱方面用得非常多,一个省会城市就用了16亿个节点、40亿条边、140亿的事件,现在的图谱反应能做到秒级,核心还是用了底层图数据库。

唐杰则认为,对于未来真正的人工智能,知识图谱非常重要的,很有可能是必须的。如果未来的机器做得像人一样有自我意识,那么把人的记忆系统包括把知识存在里就显得非常有必要了。假设世界上有一个动态的常识知识库,如果所有人工智能系统都能利用这个知识库系统,这会是实现人工智能的一个重要节点。

杨红霞对此表示认同,她认为,就像人是基于自身足够的知识做出判断,做任何认知推理必须要有底料。当然大脑推断是很复杂的,现在的算法还没到那个层次,但不管怎么样,知识储备都是需要的。

说到认知图谱的业界成功案例,现在推荐算法是一个,另外,语音助手有比较大的潜在市场。一般情况下,语音助手或者认知推理,只需一步就结束了,但要实现真正的认知推理,比方谷歌Home、亚马逊echo、天猫精灵,都是存在多步推理和多轮对话的,这对认知推理来说,也是比较好的潜在出口。

而关于知识图谱有了常识再加上推理和动态是否就是认知图谱的疑问,唐杰指出,认知图谱就是带有推理能力和自我意识的知识图谱,在此知识图谱可以理解为一个静态的图数据库,带推理的知识图谱中每个节点都是一个模型,这些节点能生成一些新的概念。这也是跟传统知识图谱最大的区别能力。

吴信东则认为,“认知图谱”的叫法就存在问题。从人工智能或者IT技术本身来讲,首先是数据,然后是知识,再往上做推理,认知是推理过程,认知过程包括推理、优化、排序、程序核算,这是一个计算过程。所以认知是动态的,也就有了动态知识,这基本上可以描述出来。

相对来讲,方法是不唯一的,而知识是共认的,如果这个过程一定要叫认知图谱的话,那就是用于认知所建立的知识图谱,也是一种知识图谱。不过这只是把图谱和推理杂糅起来了,即使如此,认知图谱肯定是知识图谱,图谱被扩充了,常识性的知识和推理的模型也被加进去了。

唐杰指出,有一点不同,原来知识图谱相对静态,但是这几年知识变化速度特别快,很多知识已经老了。认知图谱应该是高度动态的,是计算和认知结合的,这与原来不大一样,原来存储和计算分离,现在要把计算加到认知过程。

吴信东说,这个过程是反AI的。AI区别于传统计算机科学的地方就是它把数据跟知识跟推理分开了,这样建立知识,然后解读知识、运用知识。认知图谱把现在的研究拉回到传统算法加数据结构的过程里了,这本身没错,但关键是,这种做法有没有泛化能力,能否应用到不同行业中去。

唐杰指出,这个问题也在探讨,最近发布了很多类脑芯片,利用的是计算和存储的融合。这也许是回去了,也许是另外一个迭代的开始,不知道谁对谁错。

苏克毅认为,这是一个新名词,怎么样定义都可以。不过每个人的认知在脑袋中形成的认识是不同的,认知比较像AI,意味着个性化,每一个人脑袋中的指示体系,就是认知图谱,而认知图谱定义成每一个人脑子中的知识体系可能更加契合这个名词。

要人机协同,也要动态调整

对于未来的发展,吴信东指出,他的答案是人类智能加上人工智能,其中包括创造知识。但先要把创造过程、知识积累这些知识库建好,推理出来的定理肯定是已经有的,人类才能用。

所以实际问题的求解肯定是人类知识图谱加上推理等,有些认知是经验型的,不一定能表示成算法和模型,以此实现人机协同。

苏克毅认为,知识图谱必须能够按照实时的情况做出动态调整,而不是根据静态固有的东西实现。现在的知识图谱还远远不足,解题目的时候知识图谱所能涵盖的知识可能只有30%-40%,很多知识不在里面,怎么样补进来,这是很大的问题。

杨红霞就阿里的发展指出,首先要建立跨领域的、以人为中心的知识图谱,这是底料,但也非常重要。其次,在认知推理之上也还有很多需要做,现在GNN的表达能力很强,但是GNN与其他东西结合,使得认知推理引擎更加强大,这是未来的发展核心。

唐杰认为,未来突破存在两个方面,一个是在应用场景上,要更广泛,要能落地。其次就是怎样把认知结合到图谱里面,还是应该分开,这个过程怎么做。这就需要把眼光放得更长远,或许下一个AI浪潮的起点,就是把知识图谱和认知结合在一起。

AI Time由一群关注人工智能发展的青年人创办,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,展开辩论,碰撞思想,打造人工智能知识分享的策源地和聚集地。大数据文摘作为合作媒体将长期合作报道。

0 人点赞