我似乎总是想以最节能的方式,用自然界里最平常的东西来造各种东西。—— 艾伦·麦席森·图灵
发展历程
知识图谱(Knowledge Graph)的历程发展可以追溯到20世纪70年代诞生的专家系统,专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题。
1984年,Douglas Lenat设立的Cyc是本体知识库。
1989年,Tim Berners-Lee发明了万维网,1998年再次提出语义网,语义网是能够根据语义进行判断的智能网络,实现人与电脑之间的无障碍沟通。它好比一个巨型的大脑,智能化程度极高,协调能力非常强大。
2006年,Tim Berners-Lee提出链接数据(Linked Data)的概念,数据不仅仅发布于语义网中,而要建立起数据之间的链接从而形成一张巨大的链接数据网。
2007年,DBpedia项目是目前已知的第一个大规模开放域链接数据。
2012年,Google提出了知识图谱的概念。
构建
随着感知智能的慢慢成熟,人工智能进入从感知智能(主要集中在图像、视频、语音方面)向认知智能(自然语言处理、知识推理、因果分析等)升级之路,而知识图谱是认知智能领域中最主要的技术之一。
在知识图谱构建技术挑战中,领域内知识表示建模、实体识别与实体链接、关系事件抽取、隐性关系发现等技术是当前研究的热点。
构建知识图谱流程包含信息抽取、知识表示、知识融合、知识推理四个阶段。从最原始的结构化、半结构化、非结构化数据出发,采用一系列自动或者半自动的技术手段,通过批式和流式进行构建。
结构化数据一般存在于关系性数据库中,但是也存在数据质量差,数据标准不统一,元数据缺少等问题。通过数据清洗,数据标准化,异构数据源的融合等过程来构造知识图谱。
非结构化需要用到实体识别和关系抽取等步骤。实体识别后需要进行实体链接,实体链接是将已识别出的实体与已有知识库中对应实体进行链接,有基于规则的算法和基于深度学习的方法。关系抽取更具挑战性,涉及指代消解等难点,比如,一段文本中有很多代词的指定,这些代词需要找到具体的实体,从中再抽取到关系,越来越多的人使用深度强化学习等技术应用于关系抽取,提高其抽取的效果。
构建隐性关系,显性关系指原始数据直接抽取出来的关系,隐性关系是通过数据挖掘、图计算等计算出来的关系。
应用
目前知识图谱在多个不同的领域得到了广泛应用,主要集中在社交网络、金融、人力资源与招聘、保险、广告、物流、零售、医疗、电子商务等领域。