每天给你送来NLP技术干货!
来自:中国中文信息学会
第八届中国健康信息处理大会(CHIP2022)是中国中文信息学会医疗健康与生物信息处理专业委员会开展的“以信息处理技术助力探索生命之奥秘、提高健康之质量、提升医疗之水平”为主旨的年度会议。CHIP是中国健康信息处理领域的重要会议,是世界各地学术界、企业界和政府部门的研究人员和从业人员分享创意,进一步推广领域研究成果和经验的重要平台。CHIP2022官网链接为:http://cips-chip.org.cn ,将于2022年10月22-24日,在浙江省杭州市召开。
中国健康信息处理大会自2018年以来每年都组织技术评测。本次CHIP2022技术评测公布了5项任务,围绕疾病主题,探索了信息数字化技术、基因关联信息、症状/体征/检查、诊疗决策树和诊断自动编码等研究内容。任务包括“面向基因-疾病的关联语义挖掘任务”,“医疗因果实体关系抽取任务”,“从医疗文本中抽取诊疗决策树任务”,“OCR识别医疗清单发票任务”,“临床诊断编码任务”。届时,在评测中取得优异成绩的队伍将被邀请在会议评测环节进行报告并颁奖。会议也会提供官方获奖证书,各个任务有一定额度的奖金奖励。此外,评测获奖团队也将受邀撰写技术论文,并由专委会指导发表在中文期刊。欢迎相关领域的研究者参与评测竞赛。
具体评测任务介绍如下:
任务一:面向基因-疾病的关联语义挖掘任务
任务网址:http://cips-chip.org.cn/2022/eval1
任务简介:在海量科学文献中,“基因-疾病”的关联机理通过突变、基因等系列分子对象及其触发词获得描述,自然语言处理为自动挖掘这一隐性知识条目提供了可能,亦为健康医学信息的自动化处理提供解决方案。本任务包括三个子任务:1、触发词实体识别;2、语义角色标注,3、“基因,调控类型,疾病”三元组抽取。所有数据取自AGAC语料库。子任务一是传统意义下的命名实体识别(Named Entity Recognition),用以识别十二类与“基因-疾病”有关的分子对象及其触发词实体,包括Var, MPA, Interaction, Pathway, CPA, Reg, PosReg, NegReg, Disease, Gene, Protein和Enzyme。子任务二是一个语义角色标注任务(Semantic Role Labeling,or Shallow Semantic Parsing),语义角色包括ThemeOf和CauseOf。该子任务捕捉实体之间的语义依赖关系,用以构建“基因-疾病”关联。子任务三是一个三元组抽取任务(Triplet Extraction),针对“基因-疾病”的关联机理的调控类型进行相关语义的抽取,可利用子任务一和子任务二所获得的触发词及其语义角色,挖掘其背后的深层语义。此处,调控类型包含4种对突变基因的语义描述:功能丧失(LOF)、功能获得(GOF)、功能调节(REG)、和功能的复合变化(COM)。该子任务提供了250篇训练文本的“基因,调控类型,疾病”三元组结果。参与者可以选择参加任何一个子任务,但是子任务一是基于子任务二的,子任务三可以独立执行或者基于子任务一或者子任务二的结果。
任务组织者:
夏静波、欧阳思卓,华中农业大学
任务二:医疗因果实体关系抽取任务
任务网址:http://cips-chip.org.cn/2022/eval2
任务简介:现代医疗很强调解释性,医生在诊断,治疗和评估上,都要求从患者为中心出发,突出医疗的因果关系。因此互联网上存在大量的医疗的问答和知识类的文本中存在大量的因果关系解释,在帮助患者的同时,对于医疗搜索和诊断业务来说也具有巨大的价值,从中可以挖掘抽取医疗因果关系构建因果关系解释网络,构建医疗因果知识图谱,提升对医疗结果的逻辑性和可解释性的判断能力。继在CHIP2021大会发布“医疗对话临床发现阴阳性判别任务”后,阿里巴巴夸克医疗团队今年发布了“医疗因果关系抽取任务”。
任务组织者:
童毅轩、尹康平、李子昊,阿里巴巴夸克
陈漠沙、谭传奇,阿里云天池、阿里巴巴达摩院
郎珍珍,阿里云智能互联(医学专家)
汤步洲,哈尔滨工业大学(深圳)、鹏城实验室
任务三:从医疗文本中抽取诊疗决策树任务
任务网址:http://cips-chip.org.cn/2022/eval3
任务简介:作为辅助诊疗系统、医疗教学等智慧医疗系统的核心,诊疗决策树的获取往往依赖医学专家的手工构建,需要大量的领域知识且费时费力,因此,探索如何从诊疗决策知识源(临床诊疗指南、医学教科书)中自动抽取诊疗决策树(后称Text2DT)是很有意义的。临床诊疗可以看作是一个根据不同的条件进行判断,然后做出不同决策的过程。这种临床诊疗过程可以被建模为临床诊疗决策树,临床诊疗决策树是一棵由条件节点和决策节点组成的树型结构,条件节点表示需要做出的条件判断,决策节点表示需要做出的诊疗决策。Text2DT的任务目标是从给定的医疗文本抽取出诊疗决策树。诊疗决策树表示简化的决策过程,即根据条件判断的不同结果做出下一个条件判断或决策。一旦做出决策,诊疗过程终止。因此,我们将诊疗决策树定义为由条件节点和决策节点组成的二叉树。本任务既要求模型能够将文本中的核心实体和关系挖掘出来,也需要将这些信息进行串联,形成一个完整的决策流程。
任务组织者:
王晓玲、李文锋、朱威、吴苑斌、纪文迪, 华东师范大学
汤步洲,哈尔滨工业大学(深圳)、鹏城实验室
任务四:OCR识别医疗清单发票任务
任务网址:http://cips-chip.org.cn/2022/eval4
任务简介:当前医院中使用的病历材料依然以纸质为主,其中信息包含:客户信息,诊断信息,用药信息,费用信息等。在医疗行业、保险行业中,这些信息具有很高的商业及科研价值,且提取难度较高,目前还多依赖人工录入。随着OCR与NLP等人工智能技术在生产生活中的应用的逐渐发展普及,与传统人工录入相比,利用OCR及NLP技术的应用可以有效提升工作效率,并降低业务人员的培养成本。利用OCR及NLP技术将这些纸质材料上的信息进行电子化、结构化逐渐成为当前行业中的热点。本次任务数据集中包括:出院小结、门诊发票、购药发票、住院发票这四类病历材料。主要针对需求:生活场景图片,提取数据,并生成电子结构化数据。
任务组织者:
刘利锋、钟晓斌、常德杰、赵晓龙、王铁虎、杨锦新,北京环球医疗救援
陈漠沙,中国中文信息学会医疗健康与生物信息处理专委会
汤步洲,哈尔滨工业大学(深圳)、鹏城实验室
任务五:临床诊断编码任务
任务网址:http://cips-chip.org.cn/2022/eval5
任务简介:疾病分类与手术操作分类编码是对患者疾病诊断和治疗信息的加工过程,是病案信息管理的重要环节。病案编码已成为医院科学化、信息化管理的重要依据之一,它在评估医疗质量与医疗效率、设计临床路径方案、重点学科评价、医院评审、疾病诊断分级、传染病报告、医疗付款、合理用药监测等方面的应用越来越广泛、越来越深入。在诸多的分类方案中,最有影响力且在世界上最为普及的当数国际疾病分类(International Classification of Diseases,ICD)。ICD是WHO制定的国际统一的疾病分类方法,是目前国际上通用的疾病分类方法。中国也推出了疾病分类与代码国家临床版2.0和手术操作分类代码国家临床版2.0,在部分医院中得到了应用。本次评测任务主要目标是针对中文电子病历中进行诊断编码。给定一次就诊的相关诊断信息(包括入院诊断、术前诊断、术后诊断、出院诊断),以及手术名称、药品名称、医嘱名称,要求给出其对应的国家临床版2.0标准词。所有就诊数据均来自于真实医疗数据,并以《疾病分类与代码国家临床版2.0》词表为标准进行了标注。
任务组织者:
康波,医渡云(北京)技术有限公司
汤步洲,哈尔滨工业大学(深圳)、鹏城实验室