领域综述 | 知识图谱概论(一)

2019-05-05 10:51:02 浏览数 (1)

本篇文章从知识图谱历史发展的角度向大家介绍知识图谱。

一. 什么是知识图谱

知识图谱属于人工智能的重要分支——知识工程的研究范畴,是利用知识工程理论建立大规模知识资源的一个杀手级应用。知识图谱给互联网语义搜索带来新的活力,在智能问答中也大显神威,已经成为知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,已经成为推动互联网和人工智能发展的核心驱动力之一。

1. 定义

知识图谱在学术界还没有统一的定义,根据维基百科,知识图谱2012年首先由谷歌公司提出,是一个提供智能搜索服务的大型知识库。因此,这里我们可以将知识图谱理解为,对语义知识的一种形式化描述框架

图一 谷歌知识图谱

2. 意义

知识图谱从语义角度出发,通过描述客观世界中概念、实体及其关系,从而让计算机具备更好地组织、管理和理解互联网上海量信息的能力。更具体的说,在人类与互联网世界交互的过程中,产生了繁杂庞大的信息,这些信息一般被图片声音文字视频这些数据载体保存。我们希望计算机可以分析阅读理解这些数据,精准挖掘找到数据背后隐藏的有价值的知识,在用户需要的时候提供知识服务。

3. 研究问题

知识图谱研究的主要问题有 如何在计算机中表示知识,将知识保存到合适的数据载体中(知识数据化),以及如何将大规模的互联网数据转化为我们定义好的知识数据的形式(数据知识化)等等。

知识图谱技术具体指知识图谱构建和应用的技术,涵盖内容包罗万象,是融合了知识表示与推理、信息检索与抽取、自然语言处理、语义网、认知计算、数据挖掘与机器学习等方向的交叉研究。

二. 知识图谱的发展历史

今天我们先从知识图谱历史发展的角度来初步了解知识图谱,揭开知识图谱的神秘面纱。知识图谱是人工智能重要分支知识工程在大数据环境中的成功应用。

1. 前知识工程时期(1956-1970)

知识图谱的发展伴随着人工智能技术的发展而发展。

1956年,马文・明斯基、约翰·麦卡锡、克劳德·香农、艾伦·纽厄尔等科学家在美国的一个小镇汉诺斯举办了一个会议,探讨着一个不食人间烟火的话题:如何用机器模拟智能,并为会议讨论的内容起了一个名字:人工智能。这是“人工智能”这一术语的首次提出,标志“人工智能”这门学科正式诞生,1956年也就成为了人工智能元年

之后几年,人工智能得到蓬勃发展。简单介绍一下人工智能的两大学派:连接主义和符号主义

图二 "智能"包含意识、思维、认知、本能等许多方面

连接主义学派受到神经科学的启发,认为"智能"是无数"非智能"的神经细胞互相作用的结果,人与机器之间其实没有本质的差别。如果我们能模拟神经细胞的行为,进而构造组织一张人工的"神经网络",那么理论上就能模拟出人的大脑,创造所谓的"智能"。

符号主义认为认为人的智能可以用数理逻辑表达。数理逻辑在20世纪30年代开始被用于描述智能行为,模拟人类智能活动。计算机出现后,该理论又被应用到计算机上,实现了逻辑演绎系统,从而又发展出后来的专家系统和知识工程理论等。

这一阶段具有代表性的工作是通用问题求解程序GPS(The General Problem Solver)。GPS旨在实现一个宏大的目标:给定问题的描述,可以解决任何问题的计算机程序。他是第一个将问题的解决策略从特定问题的知识中分离出来的程序,并且激励了很多在问题解决领域的研究。

这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这个时期学者研究的重点在于,如何设计出一个推理模型来求解通用问题,但是却忽视了知识在问题解决中扮演的重要角色。

2. 专家系统时期、(1970-1990)

早期学者注重通用问题的求解,试图模仿人的求解问题的逻辑思维能力构造智能系统,而忽略了知识(人的认知)对智能的支持

什么是认知?什么是知识?维基百科有云,认知或认识(cognition)在心理学中是指通过形成概念、知觉、判断或想象等心理活动来获取知识的过程,或者说信息加工的心理过程。知识即是经过加工的信息

1970年开始,科学家们提出各种知识表示技术,将领域专门知识表示成计算机可以识别的数据形式。人工智能开始转向建立基于知识的系统,通过 知识库 推理机 实现智能的专家系统。当时比较知名的专家系统有MYCIN 医疗诊断专家系统、识别分子结构的DENRAL 专家系统以及计算机故障诊断 XCON 专家系统等。

1977年,在第五届国际人工智能会议上,美国斯坦福大学计算机科学家费根鲍姆教授(E.A.Feigenbaum) 系统地阐述了“专家系统”的思想,并提出了“知识工程”的概念,正式确立知识在人工智能中的重要地位。

这一时期的知识表示方法主要有框架表示法、脚本表示语言等。同时期出现了许多用这些知识表示方法构建的知识库,如Cyc 常识知识库,它们都是通过人工添加知识构建而成

图三 知识工程发展历史

3. 万维网时期 (1990-现在)

如何高效的让计算机获得知识?万维网之父,Tim Berners-Lee 最初设计互联网的初衷就是希望通过网络把全世界的知识互联在一起,使得知识从封闭知识走向开放知识,从集中知识成为分布知识。他认为首先应该构造一个文档互联的网络,然后在这个基础上再构建一个具备可以被计算机识别的知识结构的知识互联的网络。第1个目标已经实现了,就是现在我们每天都接触的有互联网,那知识互联的网络是什么意思?

在web2.0中,互联网上的数据绝大部分以html的形式存在,这样的形式确实适合人机界面之间的信息传递,方便人类的阅读和理解,但是网页内容没有采用形式化的表示方式,缺乏明确的语义信息,Web内容对于计算机而言只是普通的二进制数据,对其符号背后隐藏的知识无法被计算机识别。所以,面对当今信息时代的海量信息,当人们希望借助计算机来获取自己需要的信息时,这种html网页表示形式的瓶颈就凸显出来了,这也正是基于关键字匹配的传统搜索引擎的壁垒所在。

于是,针对第二个目标,1998 年Tim Berners-Lee 首次提出语义网概念,也就是后来人们常常说到的web3.0。这是一个极具野心的宏大概念,目标是对现有web内容增加语义支持,使得计算机可以自动识别和理解互联网上的信息,完成智能化应用任务。针对语义网概念,一整套标准化的相关技术不断被提出以及完善,形成了语义网技术堆栈,主要包含了RDF(资源描述框架) 和 OWL(万维网本体描述语言)等内容,这里面包含了过去几十年逻辑推理和知识表示等知识工程理论方面的研究成果。

要实现这个目标是一个相当艰巨的任务————必须把互联网上海量庞大的内容信息转化为机器可以理解和计算的知识形式。早期专家系统中手工编辑知识库的方式面对这个任务显然捉襟见肘,没有用武之地。幸好,大规模维基百科类富结构知识资源的出现,加上许多从万维网上自动提取大规模知识的方法的提出,使得知识获取工作取得重大成果,相关代表性工作有比如 DBpedia, Freebase YAGO, DeepDive, NELL, Probase 等等。

图四 开放链接数据项目

正是在这样的大背景下,谷歌在收购Freebase后,于2012 年推出了基于语义网技术的一款威力强大的应用————知识图谱。

注:部分图片源自网络

0 人点赞