知识图谱是实现机器人之智能的基础,也是一门应用广泛的工程学科。其具体方法大都来自计算机或人工智能的其他领域,比如自然语言处理、机器学习、知识工程等。面对如此庞杂的知识,初学者应该如何着手?
日前,我们邀请复旦大学大数据学院与大数据研究院副院长、《知识图谱:概念与技术》作者之一的阳德青教授针对上述问题带来了一场精彩的分享——知识图谱起航。
点击阅读原文,即可观看分享回放。相关图书:《知识图谱:概念与技术》(即将上市)。
分享内容:
很荣幸能有机会向大家分享我对知识图谱的一些理解。我想今天到场的朋友肯定都对知识图谱感兴趣,并有基本的了解。在今天的分享中我会更多的讲一讲我们为什么写这本书,它的意义在哪里,研究与发展的方向在哪里。
正式开始讲前,我先向大家简单介绍一下这本书主要作者的团队——复旦大学知识工场实验室。复旦大学知识工场实验室的创始人是肖仰华老师,同样也是这本书的主要作者。我们知识工场这几年一直在做知识图谱的相关研究,也拥有自己核心的、已经建成的知识图谱。
图上为大家列举了一些代表,例如CN-DBpedia是我们建成的中文大百科知识图谱,其实体数已接近1700万,包含上亿的关系,并且数据对全球开放共享。如果大家在从事研究或者是工程实践中,需要调用哪些数据,我们都提供免费公开的API接口可以访问。可以说在知识图谱研究领域,无论国内外,我们的团队都处于领先地位,学术成果同样受到业内广泛认可。
一、关于《知识图谱》这本书
我们将它定位为一本教材,希望能够让它尽量系统全面的覆盖从知识图谱的入门到实战工具,再到研究综述等。知识图谱如今已得到教育部的认可,成为人工智能大学科下的一个新兴细分方向,自然而然会有很多人想要学习、研究和实践。我们需要培养人才,而人才培养离不开一本系统的教材,所这便是我们出版此书最主要的目的。
完成一本系统教材的工作量很大,因此我们需要组织写作团队,仔细地为本书进行准备、打磨与成型。本书主要面向教师、学生、研究人员和从业人员这四大群体。由于时间仓促,作者团队的十个成员多是高校教师,平时科研任务重,精力有限,只能挤出业余时间进行写作,所以难免会有一些经验、积累没能完整的表述出来,这离我们远大的目标还是有些距离。但我们也在努力地改善,马上出版的第一版教材,希望广大读者能够积极热情的反馈,向我们提出建议,一起让这本书不断的迭代、越来越好,收获更多人的认可,发挥其真正的作用。
接下来讲讲这本书的内容组织和特点。
现场各位们都拿到了本书的试读版了吧,预计不久后正式版会上市,大家看到正式版后会发现,这本书的特点还是比较明显的。目前市面上关于知识图谱的书只有赵军老师的,听说王昊奋老师的《知识图谱:方法、实践与应用》也快要出版了,如果大家拿到这几本书可以对比一下,你就会发现我们这本《知识图谱:概念与技术》注重的是关于知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。
大家可以看到图中展现的本书框架图,一共有16章。
因为知识图谱实际上是个图数据库,以图的形式存储,那么自然涉及到有关知识库的管理内容,而且可对比之前已有的书,会发现我们用了不少篇幅在讲应用。我们一直秉持一个观点,知识图谱相比机器学习和传统数据库而言,它更加偏向工程,涉及到工程实践,那么就需要解决实际的落地问题。这里融入了我们团队多年与企业合作过程中所收获的实际项目落地经验、实操和做法,这些内容在相关章节里都有详细的阐述。包括在本书的收尾章节,也对知识图谱的实践应用方向展开阐述,提到了很多开放性的问题,毕竟知识图谱是一个新概念、新技术,这个行业才刚刚兴起,有很实践多问题目前还没有很好地解决,书中对有些问题也没能给出最好的回答,甚至没有回答。但作为一个前沿领域,我们还是希望本书能够引起更多人的关注并加入这个行业,从事相关的研究,让我们这个知识体系、技术框架越加完善,从业队伍越加壮大。
本书另一大特点是重视对“过程”的阐述。大家也知道现在的教材,尤其是像数学、物理、化学这样的基础理科教材,他们强调的是知识,包括基本概念的传授,往往只给出一个公式、一个定义。但是你要知其然还要知其所以然,它为什么是这样,整个过程是怎么来的,为什么要设成这样的模型才有用,用了这个算法或模型可以解决什么问题,具体怎么解决,从算法的基本思想到具体的实现是怎样的,又如何在工程化实践中进行验证,针对这样的“过程”我们在书中会有比较多的阐述。大家拿到手上会发现这本书比较厚,它的厚不光是因为作者多,整合起来的内容多,还因为书里结合了很多案例用了很多文字尽可能的把“过程”讲清楚、讲详细。一会儿我会结合书里的例子来给大家讲一讲,希望大家有所体会。当然我们也会讲一些架构,毕竟在有限的篇幅内不可能把技术的每个环节都讲得面面俱到,那么整体的框架一定要讲。我们把本书定义为教材,读者群体也比较广泛,从刚入门的学生到资深的研究人员及教师,还包括业界的从业人员、工程师等,因此在内容安排上我们遵从循序渐进、由浅入深的原则。而且知识图谱是一个应用学科,我们需要用它来解决实际问题,可以说本书是“问题驱动、应用引领”。书中很多例子和模型都是结合一个实际的问题来讲,围绕这个问题讲怎么解决、解决的过程是什么、算法如何实现等。希望这种内容组织方式能让大家更好的吸收书本的内容,更有收获。
二、关于知识图谱的基本概念
可能在座的部分读者刚开始接触知识图谱,还不是太了解,下面我来向大家讲讲为什么知识图谱这么热门、这么吸引人。当然对于已经从事相关研究的读者会觉得我讲得还是相对浅显,不过我接下来还会结合实际例子,讲一些体会。
什么是知识图谱
先从概念说起,它之所以叫图谱,那么它的结构形式就应该是一个图的结构形式。它又是知识,那么就会涉及实体、概念,相信稍有了解的读者对这些名词都耳熟能详,知道什么Entity(实体),什么叫Concept(概念),还有各种Relation(关系)。2012年谷歌正式提出了知识图谱,在这7年的时间里,国内外已经又涌现出很多知识图谱,当然国外的还是起步的比较早,这里我们列出了一些有代表性的知识图谱。像我们知识工场也有CN-DBpedia,这是百科类知识图谱,还有CN-Probase,这是概念知识图谱,下面我们结合具体例子讲清楚知识图谱的基本概念。
一个实体既可以是一个人,也可以是一个国家、组织等,是具体的一个事物,也是概念的一个实例(instance)。
图中列出的是关于古希腊大名鼎鼎的哲学家柏拉图的相关知识,关于柏拉图他有哪些属性呢?你可以看到这里有他的出生地、姓名、出生时间,以及他所属的概念,就我们所谓的isA的这种关系。另外,这个实体(柏拉图)可能也跟另外的实体有关联,比如柏拉图的老师是苏格拉底,所以他们之间是师生关系。
其实这里面我列的不全,柏拉图还有学生,柏拉图的学生是谁你们想想看。我问大家,古希腊哲学三贤除了苏格拉底、柏拉图还有谁?(台下:亚里士多德)对,就是亚里士多德!大家可以看自己手上的试读本的封面,封面上我们画了三个人,就是这么来的。首先他们的例子很能说明知识图谱里到底什么是知识(实体与关系);其次,实体的概念最早就被几千年前古希腊的哲学先贤提出来,所以在这本书里,当我们需要一个贯穿全书的例子来讲清楚什么是知识图谱本质的时候,就拿柏拉图来做例子。
当然我们经常讲知识图谱的时候,一般也会把它认为是高级的语义网络(Semantic Web),语义网络十几年前就有人研究,很多在座读者也都了解。如果从传统的知识工程、传统的语义网络来讲,知识图谱并不是个新概念,但为什么我们现在这几年又开始热炒知识图谱呢?
那是因为,与传统的语义网络相比它有鲜明的特点:规模巨大、语义丰富、质量精良、结构友好。刚才我也提到,国外的知识图谱,包括我们自己的CN-DBpedia,包含的实体数都是上千万级的,关系数上亿甚至上10亿,这个规模远大于传统的语义网络。
什么是传统的语义网络呢?你们如果有过研究,都知道像WordNet、CYC这些就是传统的语义网络,它们都是人工专家构建的,人的精力有限因此不可能规模巨大。比如汉语字典再怎么完善,它收录的词条总归是有限的,这些传统的知识库都会有一个封闭且明确的边界。但是在大数据时代,我们面临太多的数据,有太多的实际应用任务的挑战,需要突破这样的边界,如果还是用传统的语义网络,是远远不能胜任的。那么要解决新的问题,就应该要像知识图谱这样拥有巨大的规模、包含海量的实体、概念和语义关系,才能解决实际问题。
可能我这一页讲的还只是狭义的概念,如果把眼光放得更宽广,或者从历史上回顾更远一点的话,实际上我们还可以从广义上去理解什么是Knowledge Graph。在这本书里我们强调,它可以被认为是相关技术的总和,并不光是指一个图,或者说一个知识库、数据库等,它是指所有相关的学科、技术体系,就像这几个圆,我们把其范围大小和各自隶属的关系通过这幅图展示了一下。
我们将知识图谱归于人工智能范畴,但大家不要因为人工智能这几年很热,提起人工智能,只想到说机器学习、深度学习,实际上人工智能这个概念,在半个多世纪以前就已提出,那时候神经网络等模型都还未出现,但却已经有了所谓的知识工程、专家系统等,它们都是人工智能领域中一个非常重要的组成部分。在知识工程里面,很重要的任务就是使用知识,使用之前得用合适的表示方法,因为完成人工智能任务最后都要靠计算机,而我们知道计算机中对数据是离散化的01表示,所以知识能被计算机接收的表示形式非常重要。一个知识往往是文本的非结构形式,那要如何让计算机去接收呢?这里自然而然需要合适、正确的知识表示形式,所以说知识表示也是几十年前知识工程里一个很重要的任务。而知识图谱就是知识表示的一种最重要的形式,或者说是能够迎合大数据与人工智能时代要求的知识表示形式 。
知识图谱的诞生
知识图谱的概念真正被Google提出是在2012年,标志性事件Google收购了这个Metaweb这个公司。
Metaweb是做什么的?也许大家听说过Freebase,它就是Metaweb公司做的,那时候它已经有5亿多实体,10亿多关系,这个规模是传统语义网络和知识库远远不能企及的。Google核心业务做搜索,如果没有一个支持在后面去支撑的话,Google的搜索不能直通答案,不能直接准确地捕获用户的搜索意图。想要让搜索更加智能准确地捕获搜索意图离不开知识图谱的支持,就像现在的谷歌搜索引擎,包括百度,你们发现如果搜“姚明的身高”已经能够直接得到满意的答案(2米26)了。
因为时间关系我不再展开讲述,我在《知识图谱》一书中“搜索与推荐”这一章,有一个具体的例子来解释怎样利用知识图谱,实现精准的智能搜索。正是因为传统搜索缺乏大规模的知识背景支撑,使得机器搜索引擎不能很好地理解人类的搜索语言与搜索要求,因而做不到搜索直达,搜索结果无法令人满意。
知识图谱的分类
实体、概念、属性等,都属于知识图谱里面的知识。一般来讲我们可以把知识可以分成这几类:一、事实知识,比如“柏拉图是希腊人”“柏拉图出生地在希腊”“柏拉图出生时间是xxxx”等这样关于事实的描述;二、概念知识,例如“柏拉图是一个哲学家”,“柏拉图是一个人”,“人是一种动物”等;三、词汇知识,如前面我们提到的WordNet中就包含了上位词、下位词、近义词、同义词等信息,其实就是词和词之间的关系,这也是知识,对我们后面做很多实际的人工智能应用都有帮助;四、常识知识,这个在实际应用当中很重要,之所以现在很多机器的智能化水平没能达到我们的预期,就因为它缺乏常识,它对人类语言的理解不准确,但现在很多知识库却往往忽略这一点,没有建常识。为什么?因为我们人类都觉得,常识是大家都知道的,比如爸爸是男人,妈妈是女人,所以没必要特意去保存常识。但问题来了,机器不是人,不显式的描述、不存下来,机器是不会知道的,从而达不到人类的认知水平,想好它精准地理解人类语言更不可能。
这里为大家列出了一些知识图谱的分类方式,我们可以从通用还是专用、构建方式、知识的类型、单语言还是多语言等角度进行分类。
三、关于知识图谱的发展历史
人工智能三大主义
这一页内容相信大家都有所了解“人工智能三大主义:符号主义,联结主义,行为主义”。至少前两个我们平常听的比较多。我们现在讲的人工智能,往往是联结主义占据主流,因为大家都在讲机器学习、讲算法,其实都是统计学习模型,包括深度学习、神经网络等等都属于这一类。但实际上,1956年专家们在达特茅斯学院刚提出“人工智能”术语的时候,包括在人工智能发展的起初二三十年,占主流的其实是秉持符号主义的逻辑学家,也称为计算机学派。
计算机学派的人开始做人工智能是都是聚焦做专家系统,很多都是用逻辑主义的推理、规则等。人们发现用机器可以去把一整套的公理、规则等推导出来,因为这些都是比较形式化、有边界的知识。所以当时这派学者们就过于乐观,觉得我们很多人类要做的事,包括设计机器人等,是不是都可以按照这种方式来设计好规则就能完成,但最后发现实际上是做不到的,也是因为到后面数据的发展会经常突破传统的边界。
人工智能三大主义里面还有一个行为主义,这个就是真正做自动化那一派的学者,他们研究的重点包括做机器人的行为控制、感知等,也叫控制论学派。人工智能这半个多世纪的发展其实是这三大主义的相互发展交织。
符 号 主 义
我们认为知识图谱是一种符号主义的体现,下面重点来讲符号主义这一派。
说到符号主义,我们必须提到这两个人——纽厄尔(Newell)和西蒙(Simon)。他们很早便获得图灵奖,符号主义的发展离不开他们的贡献。
他们的观点如PPT所示,那个时候说到计算可能讲的就是认知,什么叫认知?认知就是有知识,而知识是一种形式,经过严格的、规则的、形式化的表示与推理后,再去用,这就是专家系统做的事情,这就是人工智能,使得机器能够像人一样去做决策、支持、判断等,但那个时候这种观点过于乐观。但后来人工智能的发展发现远不止于此。那个时候他们认为所谓的AI系统、专家系统就是知识加推理(knowledge reasoning),但是后来很多人发现这样理解实际上还不够。因此,有人把这样理解的人工智能称之为“过时的”(good old fashioned),就是说很好,但是过时了。为什么过时?因为它不同于现在的深度学习,而是经典的老一派学说。
传统知识工程
现在带大家回顾一下,传统的经典人工智能系统是怎么样的,包括当时的代表性人物和他们的成就,大家可以了解下。这些系统在上世纪七八十年代就已经发展得很蓬勃,是他们推动了人工智能的第一次高潮。2010年以后,深度学习进一步推动了人工智能的发展,实际上这已经是第二波、第三波的人工智能高潮了,而真正的第一波高潮其实是知识工程引领出来的。
如今知识图谱的发展可以说是又让传统的知识工程重新兴起并有新的发展,让人工智能回归到大家最开始所关注的符号主义。那怎么用符号去解决我们数据驱动所不能解决的问题?接下来我讲讲为什么符号主义会有新一轮知识图谱的发展。
传统的专家系统是规则明确、边界清晰、应用封闭的,像图中所示的这个典型的专家系统MYCIN。
大家可以看到该系统整个框架的组成部分,它的知识规则是怎么来的、怎么解析、怎么解释,靠的又是谁?图右边的这个“工程师和领域专家”是人!所以该系统主要还是靠人!也就是说实际上最终怎么去构建知识体系、知识库,然后怎么去用,都需要人的参与和干预。因为以下几个原因,使得传统知识工程遇到了很大挑战。
首先,人的精力都有限的,而且隐性知识和过程知识是难以表达的。隐性知识包括直觉,经验等。现在很多人都在想人工智能的发展是不是可以让机器代替很多人类工作,比如推销员、快递员这种工作行为很规则的职业,甚至更复杂一点的法官判案。还有人在思考机器能不能在医疗领域代替人类?比如已有的IBM沃森机器人。我也经常和一些医务人员交流,他们对机器可以替代人类医生的观点嗤之以鼻,因为机器想要代替人、代替医生还早得很,先抛开伦理问题不谈,机器连基本的人类能力都达不到,为什么?你想一想看,医生们看病们难道真的只是听你的病症描述就能对症下药吗?大家都是感冒发烧的表征,为什么给你开这个药,给别人开另一种药。因为有经验的医生会根据其中一个细微的差别,结合自己的经验和判断来列不同的处方。这里就体现了隐性的知识。
二是知识表达还存在主观性和不一致性。什么叫知识表达主观性呢?中国人喜欢吃小龙虾,小龙虾对我们来说是一种美食,“小龙虾好吃”“小龙虾是美食”这是不是知识?但是我们问一个不吃小龙虾的西方人,他会怀疑“小龙虾好吃”“小龙虾是美食”这种观点?这就说明知识的表达是有主观性的,而且还有不一致性。我们来建一个知识库,到底是动态的,还是静态的?我们在书中也强调过,知识表达有时空、领域的范围,它不是固定不变,也不是静态的!
三是知识难以完备。我们前面讲到为什么传统知识库、传统知识工程在现在往往不胜任,因为传统的知识体系要求是完备的、规则是明确的。而现在的很多知识是难以完备的。
我们一会上台的嘉宾里面有做问答系统、聊天机器人的专家,他们也碰到过我说的知识难以完备的实际问题。比如,我们提出一个动物的名字,来让机器回答这个动物会不会飞。可以通过知识库的推理规则来让机器回答这个问题。首先看这个动物的属性里有没有翅膀,我们再根据“有翅膀->是鸟->鸟会飞”这样的推理规则来判断。这样设计的规则看似合理,但有不完备的问题。例如问企鹅会不会飞?鸵鸟会不会飞?这就说明我们设计规则的时候考虑得不够完备、不够准确的话,得到的回答是错误的。
四是知识的更新也比较困难,或是说很有挑战。因为很多知识是随着时间的推移而变化的。比如美国总统,对于美国这个实体,其总统属性的值是特朗普。但如果是在五年前,那这个值就应该是奥巴马。知识库如果靠人工来建,首先人要知道外界有这样的变化,然后要及时的去更新它。如果靠机器来完成,就需要机器随时监控新知识的变化。实际上我们在建知识图谱时就要做到这一点,随时要爬取一些数据,而且要理解数据,例如读懂新闻,从中抽取最新的信息,这也是为什么我们离不开自然语言处理的原因。然后将新信息及时更新到我们的库里。我们只是举了一个很有代表性的例子,可实际上库里面要更新的知识十分庞大,我们要怎么知道哪一个不能漏掉?哪一个需要更新的?所以知识更新有着很多挑战性的问题
另外还有一点是常识缺乏。时间关系我就不展开讲了。
大数据时代的知识工程的特点
当前互联网应用的特点是规模巨大、精度要求相对不高、知识推理有时候相对比较简单。不像传统的专家系统、规则库那样需要有复杂的推理,因为我们有时候并不需要这样复杂多阶的推理。比如一个人看过刘德华的电影,我们可以猜测他是刘德华的粉丝,那我们还可以向他推送刘德华的其他电影、歌曲、海报照片等。只要做一个简单的关联,应用就能完成任务了。所以有时候解决问题不需要那么复杂、精度也不需要那么高。
当今上网的人越来越多,无论是数据、模型算法,还是计算机的计算能力,这些软硬件的飞速发展,使得我们大规模知识自动获取成为可能。这就是为什么我们可以用机器代替人力,为什么机器可以很快能很及时的更新,大规模的数据也可以保证能够相对准确地获取和补充。
在我们书里有一章专门讲众包技术,因为众包能够推动知识的规模化验证。不管怎么样,我们的数据来源于网页,网页上的内容都是人提供的。以前传统的专家是少数几个人,现在我们有了维基百科,百度百科,包括微博博客,现在每个人都是自媒体,每个人都是写手,每个人都是内容(信息)的提供者。像我们今天参加这样的活动,很多图书的作者都是年轻人,都是普通人,并不是所谓的学术大牛、行业名家,为什么还能写书?这就是我们当今互联网时代的特点,我们可以用众人的智慧产生巨大的优势、这就是我们知识图谱的来源。而且就算一个人说的不够准确那也没关系,我们平常要查什么资料都相信百度百科,但百度百科又不全是专家写的,每个人都可以上去编辑。而我们仍然能够认可它,相信它,正是因为百科的内容经受过众人的审核检验,如果写的不对就会有人来把它改正,自然而然真正能留下的内容,便是相对准确的。也就是说,百科网页上的内容和一个真正领域专家写的东西不会有太大差别,所以说海量用户也能保证高质量内容的知识来源。
另外,互联网应用所需的知识太容易突破传统专家系统中由专家预设好的知识库的边界。所以我们要结合当前互联网应用发展的特点,用大数据产生的知识图谱才能更好的满足应用需求。
四、关于知识图谱的应用价值
我们认为知识图谱是认知智能的基石。
之前的人工智能大都是感知智能。比如图像识别,甚至是自动驾驶,它们都是感知周围客观物理世界的声音、图像等信号。但对机器而言,真正困难的是实现认知智能。图灵当年提出,能够迷惑30%提问者的机器便可以认为它具有智能,但如今图灵已经过世这么多年了,现在涌现了那么多的聊天机器人其实都还做不到这一点,那是因为现在的机器认知水平其实还是很低的。为什么很低?那因为它们缺少背景知识的支撑,所以我们才要建知识图谱,它能够让机器更好地去认知人类的语言,还能更好的实现可解释的人工智能,还能更好的去增强机器的学习能力。
大家可以看到PPT右边这张图提到了利用知识来使机器的学习能力更强,我们认为知识是引导问题解决的重要方式之一。
(利用知识增强机器学习的基本思路)
(数据驱动与知识引导的问题解决方式)
我们在书中也给了这样一个图 。对这个观点我特别有感受,今天早上,另外一本图书《知识图谱:方法、实践与应用》的作者之一王昊奋老师,他在视频上分享了他的一个观点,认为我们现在的深度学习,其实说白了都是数据驱动,很多模型都依靠海量的数据去训练,数据如果不够的话,是训练不好模型的。但数据毕竟有限,那么就有天花板的效应。但是,对于知识,我们也讲了知识往往没有边界,海量知识可以慢慢去积累,你现在可能觉得1亿、5亿的规模已经很大了,但是对很多应用可能还是不够,还可以继续增长,后面会是10亿甚至上百亿的规模,因此实际上知识的增长曲线至少目前是看不到边界的。有了知识以后,那最终机器能不能去认知,就不是靠已有的那些交易记录、已有的关联结果等数据来支持模型学出相关的规则,而是把相关知识存进去后,就能让模型知道其背后相关的规则。
我们为什么说知识能够让机器的语言认知变得更好?我还是举搜索的例子,如果用户在一个输入框里面输入两个词“手机壳 iPhone”。无论这两个词谁在前谁在后,你们觉得这个用户想搜索什么?iPhone的手机壳对不对?大家都不会理解错,但对于机器如果你没给它设计相关规则,它可能只会按照依据统计得到的搜索词重要程度来判断用户到底想搜什么,例如错以为用户要搜带有手机壳的iPhone手机。但如果搜集到的数据不够,统计结果不对又会怎样呢?这个时候,你发现如果我们根据基本常识或人的习惯,就知道这个用户想搜什么。还有其他例子,比如搜“Java工程师 上海”,你们说他在搜什么?他要去上海玩吗?不是,他其实是要找工作,他在找一个上海的Java工程师岗位。像这样的搜索意图理解问题,搜索词中出现两个实体,到底谁修饰谁?谁是核心词?谁是修饰语?要明确这些问题需要我们设计一个模版(template)来解决。模版设计好输入给机器,这就是一种对机器的知识引导,有了它,机器就不是靠已有的数据来引导学习规则,这样就能让机器更好的理解人类的语言。机器能准确捕获用户的搜索意图,人工智能才能准确地实现。通过这个例子希望大家能体会我们建设知识图谱的目的何在。
知识图谱的应用场景有哪些?在数据分析、智慧搜索、智能推荐、人机交互、决策支持等等,这些场景都有很多知识图谱可以应用和发挥的地方。
今天我分享的很多内容没能展开,大家如果意犹未尽的话,可以看看我们即将出版的这本《知识图谱:概念与技术》,今天我主要是简要的把第一章的内容和大家讲一讲。
五、知识图谱的入门建议
无论是一名学生还是一名从业人员,真正要了解所谓的“知识”,阅读是一个很重要途径,所以说要从读一本好书开始。之前我们认为知识图谱相关的书还不够多、不够完备,所以我们才想要一起努力写出更多更好的书,让更多的人能够很好地去入门
另外,要牢固掌握基础知识和技能。比如知识表示,另外因为知识图谱是属于图数据的一种存储方式,所以还有图数据库的管理技术;还有刚才讲的自然语言处理,怎么样去识别实体词的词性关系、语义的关联都跟NLP有关;很多涉及的模型都是深度学习(机器学习)的算法,也要掌握相关基础。这些都是要掌握的基本技能,有了这些基础以后,无论是深入学知识图谱,还是看书、理解模型,你都会比较顺,更能读懂、理解。
最后我再次强调,就像我一开始说的,因为知识图谱是一门偏应用、偏工程的学科,所以落地实践很重要。说的再多也是纸上谈兵,包括看书,如果不去实操不去实际运用的话,是很难体会我们书中的那些例子为什么有这样的问题?为什么要这样去解决?只有真正的去实践,并秉持数据驱动、应用导向的思想,真正的完成了一个实际的工程项目,碰到实际的问题真正去解决了以后,才能有更好的领悟体会,最终才能有更大的收获。
知识图谱才刚刚起步,还有很多挑战和问题没有解决,就像本书的前言也特别讲到,我们有一些内容比如知识图谱的推理,包括常识的获取、存储和积累,没有用专门的章节来阐述,是因为我们认为相关的研究还不多,技术还不成熟,还没看到真正成功的落地实践。知识图谱领域还有很多挑战,我们要以开放的心态去直面挑战,然后通过解决实际问题中获得的收获,逐渐形成体系,让我们知识的积累、书籍的积累越来越多,才能让我们的学科研究、从业队伍、及各项事业更好的向前发展。
今天,我的分享就到这里,谢谢大家。