作者 | 吴睿 腾讯云知识图谱与图计算负责人 整理 | 计算广告生态
目录设定
一、知识图谱概述
二、腾讯云知识图谱平台
三、知识抽取
四、知识推理
五、总结
知识图谱概述
引用自:百度百科
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建 、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域 以及整体知识架构达到多学科融合目的的现代理论。知识图谱,它能为学科研究提供切实的、有价值的参考。
知识图谱是采取二元图网络,描述客观世界中的实体信息及其相互关系规律的知识化描述
其基本组成单位是【实体-关系-实体】,【实体-属性-属性值】的三元组(triplet)
实体之间通过关系相互联结,构成网状结构。
知识图谱的价值
我们为什么要使用知识图谱,他会带来怎么样的价值意义,看下面的几幅图片
知识获取、表示和推理的能力是人类心智区别于其它物种心智的重要特征,知识图谱已成为推动机器基于人类知识获取认知能力的重要途径,并将逐渐成为未来智能社会的重要生产资料
知识图谱-投入决策曲线
- 泛互联网信息服务:搜索, 推荐, 画像 价值点:信息关联 丰富知识先验,提升对内容理解能力, 语义
- 智慧产业:医疗,政务,能源 价值点: 信息沟通 知识沉淀提升社群沟通交流效率,提升工作 产出
- 风控稽查:征信,税务,公安 价值点: 信息隐藏 从宏观到个体信息理解与校验
泛互信息服务
- 应用模式
- 知识嵌入式
- 知识结构式
- 难点痛点
- 设计产品的难度
- 高维特征证明价值
- 设计使用知识图谱的图算法
认知智能:政务智能问答
- 应用模式
- 可视化沉淀经验知识库
- 知识搜索直达
- 深度知识推理
- 难点痛点
- 建设业务知识图谱的难度高
- 业务应用图谱推理的专业性强,操作难度高
风控:从群体到个体
应用模式
- 从全局看个体风险,个体欺诈难度高
- 从图推理实体隐藏关系,更加全面把握实体相关信息
- 从知识图谱挖掘实体社群,掌握系统结构
痛点难点
- 从图推理实体隐藏关系,更加全面把握实体相关信息
- 从知识图谱挖掘实体社群,掌握系统结构
腾讯云知识图谱平台
腾讯云知识图谱构建与应用流程【下载可放大查看】
知识图谱构建平台-降本增效
- 一站式知识图谱构建与应用平台
- 提供多领域知识抽取与知识推理能力
- 千亿图数据打磨的知识图谱图数据库
技术领先
- 腾讯AI平台部 topbase团队实体识别算法获得2017年知识图谱顶级赛 事KBP中EDL任务冠军,实体识别平 均准确率高达88%,其中人名识别准 确率为93%,地名识别准确率为88%。
- 22项国家专利支持,发表ACL,AAAI,ECML等顶级人工智能顶级会 议12篇
知识抽取
知识图谱构建平台-多来源数据构建知识图谱
知识图谱构建平台-医疗知识抽取
- 主要目标
- 根据上下文,对重点医疗实体进行多维度信息抽取
- 构建完蓄的、结构化的实体信息集合
- 主要维度包括:
- 修饰(否定关系程度形容词前缀词)
- 时间相关(起病时间持续时间频率)
- 病症诱因病程变化诊疗结果
- 相关身体部位
- 针对疾病症状体征……
知识图谱构建平台-超大规模预训练语料,多业务实战打磨的标准化平台
腾讯云AutoNLP
知识抽取
非结构化数据的知识抽取
非结构化数据的知识抽取——关系抽取
任务描述
关系抽取模块是在实体识别(NER)的结果基础上,抽取句子中实体之间的语义关系。
例如:
- 输入句子:2012年5月9日,刘德华的妻子朱丽倩生下一个女儿
- NER识别:2012年5月9日,<刘德华-人物>的妻子<朱丽倩-人物>生下一个女儿
- 关系抽取结果:配偶关系 (刘德华,朱丽倩)
非结构化数据的知识抽取——关系抽取
样本精选
对远监督回标的数据集进行清洗,选出真正(True Positive)样本
方案一:基于关键词的样本精选
- 利用关键词信息对远监督回标数据集中的样本进行过滤,删除噪声数据
- 关键词挖掘:
- 文档关键词角度:TF-IDF指标;
- 分类特征词角度:卡方检验值、信息增益等指标。
方案二:基于强化学习的样本精选
- 利用强化学习方法对远监督回标数据集中的样本进行筛选,找到假正(False Positive)样本放入负样本集。
非结构化数据的知识抽取——关系抽取
问题
- 少样本学习:对于某些关系仅有少量样本的情况。
- 开放域关系抽取:不预先定义关系类型的情况。
方案
- 增加基于无标注关系数据的预训练环节:使可能存在相关关系的关系表示尽可能接近
样本:
- 正样本-包含相同实体对的句子对。
- 负样本-包含完全不同的实体对或者仅一个实体相同的实体对的句子对。
Trick:一半样本句子中,实体对用[BLANK]替换。
知识推理
知识推理平台-构建多样上层应用
知识问答:自然语言交互知识推理架构
知识推理:推荐实践
知识图谱可以提高推荐的多样性和可解释性
知识图谱构建成本高,范围有限
运用知识表示推理的方法,对图谱 网络进行预测补全
深度知识推理:支持关系路径嵌入的PconvX
目前研究成果
- PCRA为实体之间不同路径增加权重 我们参考了PtransE中的PCRA计算方法来计算路径的可信程度,不同的路径在学习中得到的Loss将会与其对应“分数”相乘,改分数代表了路径的可信程度。在学习时,分数为常数,所以直接在权重更新时把分数与计算得到的梯度相乘就可以得到一样的学习效果。
- 百科类图谱,2阶路径分数更高 针对我们目前百科类知识图谱2阶(爸爸的爸爸是爷爷)通常出现频率较高,一对多、多对一情况较少的路径最终得分较高,在学习是对权重更新的影响也更大。一般而言,长度大于等于3的路径得分都很低。
- 路径嵌入比关系嵌入效果更好,引入Attention会进一步提升 路径上不同实体比如“实体的上位词的上位词的同类的下位的下位词”进行路径嵌入,从单关系嵌入改为路径嵌入,再针对实体的重要程度加Attention,PconvX算法目前发现在PCG视频的关系补全效果不佳,推测可能是娱乐类信息多阶关联推导,相反在药物知识图谱等逻辑严密的多层级知识体系树中效果更显著
知识推理应用:金融场景
知识推理应用:基于知识图谱金融搜索
企业图谱,行业图谱,事理图谱可以为搜索获取更精准更全面信息,助力监管投研
知识推理案例:基于知识图谱的实体风险预测
企业分类:
- 属于节点分类,企业或高管进行分类。
案例介绍:
- 企业投资风险评估
输入:
- 节点特征: 记录节点自身特征。这里包括了企业人员变动、贷款状况、业务状况、舆论情况等。
- 邻接矩阵: 记录节点(企业)之间的关联性,这里设置为企业之间的股权投资关系。
知识推理案例:挖掘隐藏实体关系,实现实体社群发现
- 从全局看个体风险,个体欺诈难度高
- 从图推理实体隐藏关系,更加全面把握实体相关信息
- 从知识图谱挖掘实体社群,掌握系统结构
知识图谱一站式平台底层:腾讯Plato高性能图计算引擎
总结
- 从信息关联,信息沟通,信息隐藏设计知识图谱商业应用
- 图谱构建可用预训练语言模型提高效果,用远监督回标降低成本。用云更降本增效。
- 知识推理可补全可能永远无法及时且完备知识图谱,挖掘隐藏于宏观图结构的人未知的信息
往期回顾
以下连接中都包含大量有价值的文件并且已经保存为PDF 方便查阅
算法工程师的成长路线
爱奇艺信息流广告的排序算法演进
CTR预估模型:DeepFMDeep&CrossxDeepFMAutoInt代码实战与讲解
对动态规划的理解还是差那么一点?这一篇帮你安排的明明白白!
数据科学家极力推荐核心计算工具-Numpy的前世今生(上)
数据科学家极力推荐核心计算工具-Numpy的前世今生(下)
作者:Johngo