论文摘要
知识是有价值的,即使是权限可控的单一机构内部,知识来源也是多样化的,必定存在知识的价值量化、确权、溯源、隐私及可信等多方面问题。要在知识生产和消费闭环中平衡知识的责、权、利,并有效的激励众包,一种方法就是让知识上链,并构建知识的区块链系统。OpenKG 作为新技术测试床,在相关方向努力做一些粗浅尝试,也希望为各企业机构建立知识图谱众包平台提供参考。在实践过程中,我们也发现很多问题和挑战,如细粒度知识确权带来的性能问题、细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题等,这些都需要更深入的研究和实践。
本文介绍了 OpenKG 在区块链方向的一些实践和尝试。OpenKG 初步完成了底层区块链平台测试,以及 OpenKG.CN 数据集、工具集和 OpenBase 细粒度知识众包的上链测试工作。在这个测试平台中,我们首次测试实现了 OpenKG.CN 和 OpenBase 平台的知识确权。通过 OpenKG.CN 发布的开放图谱和开源工具,以及通过 OpenBase 众包平台采集的三元组,OpenKG 都在链上进行存证操作,并计算和分配产生的荣誉值。OpenKG 希望通过这项工作为知识图谱社区提供更加可信、可溯源的知识众包平台。
知识图谱与区块链
知识是有价值的,知识的生产、交换和消费必定形成社区和群体的交易和协作。我们把通过社区和群体的联邦式协作构建的知识图谱称为联邦知识图谱(Federated Knowledge Graph)(图1)。联邦知识图谱因为需要构架在一个分散并可能去中心化的分布式网络上,必定面临激励、确权、溯责、信任和隐私等诸多问题。而现有集中式的知识图谱构建平台不考虑不同单位和部门的权力、责任和利益,也就无法激励知识的共享互联,也无法保证知识的真实性和时效性。完整的知识图谱构建和消费需要考虑知识生产、知识传播和知识消费三个层次(图2)。知识生产层对应传统的如知识建模、抽取、融合、校验等技术。知识的传播层则需考虑知识的价值量化、知识确权、知识溯责、知识的可信度量、知识众包的共享激励以及数据的隐私保护。知识消费层包含有搜索问答、推理分析、联邦知识学习,以及流程自动化如 RPA 等各种需要建立在分散式知识源的系列应用。
图1 知识图谱的价值联邦
图2 联邦知识图谱技术平台架构
与此同时,分布式账本是一个于多站点、多地区或多家机构所组成的网络上进行电子数据复制、共享及同步的共识,不存在中心管理员或集中的数据存储。交易记账由分布在不同地方的多个节点共同完成,而且每一个节点记录的是完整的账目,因此它们都可以参与监督交易合法性,同时也可以共同为其作证。区块链是分布式账本技术的一种。区块链每个节点都按照块链式结构存储完整的数据,并且每个节点的权利和义务相同。区块链是点对点通信、数字加密、多方协同共识算法等多个领域的融合技术,具有防篡改、链上数据可溯源(可确权)的特性。要解决知识生产和消费闭环中的价值量化、确权、溯源及可信度量等问题,就需要让知识上链,通过构建面向知识的区块链来解决诸多问题。