数字化协会理事顾问
广州佰聆数据顾问有限公司解决方案经理
大家好,我是中国数字化协会的理事顾问,郑午。今天与大家浅谈一下-知识图谱。
知识图谱最早是谷歌在2012年推出的一个知识库,谷歌用这个知识库支持它新一代的搜索引擎。简单来说,知识图谱是由一些相互连接的实体,和它们的属性共同构成的。其中每一条知识都可以表示为一个SPO三元组,SPO是英文(Subject, Predicate, Object)的首字母缩写,翻译成中文可以理解为:(实体一,谓词,实体二)。这个谓词定义了实体一与实体二之间的关系。举个例子,特朗普是美国总统。对于这么一条知识来说,若表示成SPO三元组的话,实体一就是特朗普,谓词是职位,实体二是美国总统。那么这个三元组就表示了特朗普与美国总统之间的关系。同样的,对另外一条知识,如特朗普的女儿是伊万卡来说,表示成三元组的话,实体一就是特朗普,谓词是女儿,实体二就是伊万卡,那么它就表示了特朗普和伊万卡之间的关系。
在一个领域内,会有许许多多的知识,可表示为许许多多的三元组,这些三元组互相连接起来,就形成了一个巨大的网络。如果用“图”这种数据结构来表示的话,那么“图”的顶点,就是这个领域内的实体,“图”的边则是谓词,也就是定义了两个实体之间的关系,这个就是知识图谱简单的数据模型。知识图谱对搜索引擎的提高作用巨大。在知识图谱出现以前,搜索引擎是将用户输入的关键词作为字符串来处理的。其基本做法是,从索引的网页中找出所有包含用户输入的关键词的网页,然后用PageRank算法进行排序,再将排序结果返回给用户。其实搜索引擎就是将字符串进行匹配,并没有真正的去解答用户关于某个实体的真正需求。
有了知识图谱之后,搜索引擎就可以尝试去解读用户输入的关键词背后的真正实体是什么。比如说,有一个人输入了一组关键词:美国总统女儿的老公。用知识图谱的话,搜索引擎就会在知识图谱中查找,知道现任的美国总统是特朗普,从特朗普这个实体节点出发,通过女儿这个谓词关系,就可以找出伊万卡,她是美国总统特朗普的女儿。再从伊万卡这个实体节点出发,顺着丈夫这条谓词关系,就可以找到库什纳。这时搜索引擎就会知道,用户输入的关键词背后,其实是想知道库什纳的信息。这样,搜索引擎就可以将关于库什纳的信息的网页反馈给用户,而不仅仅是做关键词的匹配。所以谷歌在推出知识图谱时,所用的广告语是:“Things not strings”,翻译成中文就是:事物而不是字符串。简单来说,谷歌认为有了知识图谱之后,搜索引擎处理的就不再是字符串的匹配了,而是真正的能够解答用户对于某个事物的信息需求。
知识图谱这个词是谷歌首先提出的,但是这个技术却不是新发明的技术。知识图谱的技术源头甚至可以追溯至20世纪50年代,在那个时候,计算机科学家就提出了“语义网络”-semantic network数据模型,这个数据模型就是用三元组去描述概念之间的关系,这就与现在的知识图谱所做的是非常类似的。
在21世纪初,互联网之父Tim Berners-Lee提出“语义网” (Semantic Web)的概念,这也是他认为的下一代互联网的模型。Semantic Web 语义网的一个重要的组成部分是对于资源的描述这部分,它使用的技术叫做本体(Ontology),这个本体也是使用三元组来描述概念之间的关系。针对本体这项技术,互联网的技术标准机构——万维网联盟,也就是W3C,发布了一个用于描述实体或者资源的标准数据模型-RDF(Resource Description Framework)。而现在,RDF也被用于记录知识图谱中-知识的数据模型。知识图谱实际上是对“本体”这种知识组织技术的丰富和扩充。
在进入2000年后的几年间,“本体”是一个非常火热的技术概念。在各个不同的领域,大家都在用“本体”来组建自己的知识库,比较著名的“本体”有:Freebase,YAGO,它们是从维基百科中提取信息组建的知识库。在生物领域,比较著名的“本体”是:Gene Ontology,它是关于基因的知识库,在生命科学领域有着至关重要的作用。比较有意思的是,Freebase、YAGO这两个知识库是跨越了“本体”火热的年代,而且一直留存至“知识图谱”火热的年代。在“本体”比较火的时候,它们将自己称为“本体”;而到了“知识图谱”火热的时候,它们又称自己为“知识图谱”。这也可以看出,在本质上“本体”与“知识图谱”是非常相似的。
那么知识图谱到底有什么用呢?其中一个最直接,也是目前最广泛的应用就是用于搜索,也就是前文的阐述,在这里不重复了。现在的绝大多数的搜索引擎,包括谷歌、百度等等,他们都是使用了知识图谱的技术。还有一个应用,跟搜索类似,是用于问答机器人,可以用知识图谱来组织问答机器人所使用的知识库,通过知识图谱可以做些简单的推理,能够使问答机器人变得更加智能。还有一些比较特别的应用,比如说可以做金融的反欺诈。一些有组织的诈骗团伙,他们会使用大量的虚假身份,再结合真实的信息去申请贷款,那么对于这样的有组织的欺诈行为,识别难度会比较大。但是呢,诈骗团伙申请贷款时,使用的信息是有重复的,那么用知识图谱来表示申请人的信息,就会比较容易发现,在使用虚假身份申请时共享的一些信息,从而发现潜在的欺诈风险。
由于时间有限,今天只为大家简单介绍了知识图谱,(它的)技术和一些潜在的应用,大家有兴趣可以留言交流,谢谢大家。