专访肖仰华:知识图谱迅速“升温”下的学习方法与就业选择

2020-06-10 16:51:21 浏览数 (1)

肖仰华 博士

复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。

知识图谱自2012年提出至今,发展迅速,如今已经成为人工智能领域的热门问题之一,吸引了来自学术界和工业界的广泛关注,在一系列实际应用中取得了较好的落地效果,产生了巨大的社会与经济效益。

大量的应用实践需要有专业的图书作为参考和指导,大量的学术成果需要有图书进行系统的梳理,《知识图谱:概念与技术》一书应运而生。

《知识图谱:概念与技术》是一本系统介绍知识图谱概念、技术与实践的教材,能够帮助你建立知识图谱学科体系,健全大数据知识工程知识体系,为工业界知识图谱实践提供参考。

在新书上市之际,本书主要作者肖仰华教授接受了我们的专访,针对知识图谱学习方法、国内发展状况、就业等问题,聊了聊自己的看法。

(以下为访谈内容,经博文视点编辑整理)

▊ 读者们期待已久的《知识图谱》终于上市了,这本书是经历了怎样的打磨,让大家等待了这么久才与大家见面呢?

肖仰华 :本书编写团队投入巨大的资源与精力完成了本书。本书的内容体系基本成型于2018年8月,从2017年到2019年,其先后两次在复旦大学相关课程中进行讲授,2018年8月和12月其分别在上海财经大学和北京理工大学面向全国公开讲授,累计近千人次完成了课程的学习。从2018年年底至今,本书编写组完成了书稿,并经多轮修改,最终形成大家手中的这个版本。

▊ 知识图谱是什么?知识图谱中的“知识”是从哪来的?

肖仰华 : “知识图谱”一词在提出之初特指Google公司为了支撑其语义搜索而建立的知识库。随着知识图谱技术应用的深化,知识图谱已经成为大数据时代最重要的知识表示形式。作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体(Entity)、概念(Concept)及其之间的各种语义关系。理解知识图谱的概念,要掌握两个要点:第一,其是语义网络,这是知识图谱的本质;第二,其是大规模的,这是知识图谱与传统语义网络的根本区别。

知识图谱中的“知识”来源广泛,可以是专家经验,也可以来自互联网大数据或是已有领域知识库。主要分为事实知识、概念知识、词汇知识和常识知识等四类。事实知识是关于某个特定实体的基本事实,如(柏拉图,出生地,雅典)。概念知识分为两类:一类是实体与概念之间的类属关系(isA 关系),如(柏拉图 isA 哲学家);另一类是子概念与父概念之间的子类关系(subclassOf),如(唯心主义哲学家subclassOf 哲学家)。词汇知识主要包括实体与词汇之间的关系(比如,实体的命名、称谓、英文名等)以及词汇之间的关系(包括同义关系、反义关系、缩略词关系、上下位词关系等)。例如,(“Plato”,中文名,柏拉图)、(赵匡胤,谥号,宋太祖)、(妻子,同义,老婆)。常识是人类通过身体与世界交互而积累的经验与知识,是人们在交流时无须言明就能理解的知识。

▊ 目前国内知识图谱发展现状是怎样的?我们有哪些就业选择呢?

肖仰华 :目前国内知识图谱发展非常迅速,学术界和工业界的研究热情很高。在学术界,各大研究机构都推出了自己的知识图谱。在百科图谱方面,除了我们知识工场推出的CN-DBpedia外,还有上海交通大学推出、东南大学维护的Zhishi.me,以及北京大学的PKU-PIE。国内的概念图谱有哈尔滨工业大学的大词林(Bigcilin)和我们的CN-Probase。在多语言知识图谱方面,有清华大学的XLore,这是一个以汉语为中心的多语言知识图谱。在领域知识图谱方面,有清华大学的专注于学者图谱的Aminer,以及阿里巴巴的电商认知图谱等等。同时,国内的知识图谱研究社区还成立了开放知识图谱联盟OpenKG,以推动知识图谱开放、互联以及分享。在工业界,阿里、腾讯、百度、华为、小米、搜狗等互联网公司也都构建了自己的知识图谱来支撑自己的业务。

目前知识图谱研究者的就业前景都很好。在搜索、问答和推荐等方面都需要用到知识图谱。目前已经有很多针对性的知识图谱工程师岗位,年薪都非常高。除此之外,知识图谱从业者也适合自然语言处理岗位。

▊ 要以怎样的方式阅读学习《知识图谱》这本书?

肖仰华 :本书在内容编排上,力求每章均具备独立性,同时各章之间又能组成有机整体。这一编排方式旨在让每章能够独立地解决一类问题,而全书内容又不失系统性与完整性。除了第1章是基础,其他任何一章,读者都可以根据自身情况进行选择性阅读。比如,对于第2章,有相关基础的读者就可以直接跳过。“构建篇”的第3章和第4章是核心,而对于第5章和第6章,读者则可以根据需要进行选择性学习。书中的第7章、第8章、第12章、第16章是相对较新的专题,适合研究生、博士生层次的研讨性教学。这几章的内容很多都还只是一家之言,有着巨大的研究空间。

对于不同的读者群体,本书可以有不同的阅读方式。对于学生群体,高年级本科生可以选择第1~4章、第9章、第10章、第13章、第14章进行学习。对于硕士生或者博士生,则可以进一步阅读第5~8章、第12章、第16章。对于工业界从业人员,完全可以根据自己的业务需要选择感兴趣的内容阅读,比如可以跳过第9章、第10章的技术介绍,直接了解图数据管理系统的使用方法,也就是第11章的内容。知识图谱涉及企业与行业的智能化转型,这将是企业战略决策的重要内容。对于很多从事此类工作的人员而言,急需在尽可能短的时间内对知识图谱的全貌以及知识图谱能解决什么问题有所了解。此类人员可以选择第1章、第3~14章的概述,以及第15章、第16章进行学习。

▊ 通过这本书我能获得什么?

肖仰华 :通过这本书,读者们可以学到很多东西:

第一,可以学到知识图谱完整的知识体系。包括知识图谱的基本概念、历史沿革、研究意义、应用价值;知识图谱的构建方法;知识图谱的管理方法;知识图谱的应用技术;知识图谱的落地实践。

第二,可以学到多个领域的关键算法与模型。知识图谱是一个典型的应用学科,覆盖自然语言处理、数据库、语义网络等学科。构建知识图谱需要用到方方面面的知识,可以让读者对多个领域的知识融会贯通。

第三,可以学到典型的知识图谱架构。知识图谱的落地不仅需要解决具体问题的工程师,更需要能做出合理抉择与规划的管理性人才,需要熟知人工智能领域各分支技术并能熟练掌握和利用这些技术的综合性人才。知识图谱的知识体系不仅包含模型与算法,更涉及思想与方法、策略与过程。技术细节固然重要,但是对于知识图谱学科而言,对宏观架构的把握更是不可或缺。为此,本书单列出第15章介绍具体技术之外的流程、策略与过程。

第四,可以获得实际落地的经验与教训。本书针对知识图谱技术实践中的几个关键问题,包括知识图谱系统、知识图谱工程以及知识图谱应用与产业,做了初步探讨。随着知识图谱技术应用的深化,知识图谱产业日益成熟,对知识图谱工程实践将会提出更多的需求。

▊ 要掌握知识图谱,我还需要学习什么?

肖仰华 :要掌握知识图谱,需要了解一些与知识图谱密切相关知识,包括机器学习、深度学习、自然语言处理等。本书第二章对这些知识进行了简单介绍。如果读者需要了解更多,可以关注周志华老师的《机器学习》,Francois Chollet的《Python深度学习》以及公开课《CS224d: Deep Learning for Natural Language Processing》等。

  • 有深度有广度,力求涵盖知识图谱相关的基本概念与关键技术
  • 梳理前沿成果,总结了十多个知识图谱工程项目的落地经验
  • 写作团队成员均为国内知名高校和研究所AI相关专业教师和研究员
  • 内容历经一年打磨,并曾在多所高校试讲,根据听众反馈迭代改进

本书结构

全书共5篇,由16 章构成,力求涵盖知识图谱相关的基本概念与关键技术。

基础篇 介绍知识图谱的基本概念、内涵与外延、历史沿革、应用价值,以及相关的基础知识。

构建篇 重点介绍大规模高质量知识图谱的自动化构建技术,涵盖词汇挖掘、实体识别、关系抽取及概念图谱构建、百科图谱构建、众包构建与质量控制等专题。

管理篇 系统地阐述了知识图谱建模与存储、查询与检索,以及图数据管理系统。

应用篇 对于基于知识图谱的关键应用技术展开介绍,包括搜索与推荐、自然语言问答,以及基于知识图谱的自然语言理解。

实践篇 介绍知识图谱实践中的基本原则和有用实践,初步讨论了知识图谱实践中的开放性问题。

0 人点赞