《大数据+AI在大健康领域中最佳实践前瞻》 ---- 使用ElasticSearch 、数据库进行医疗基础数据标准化的方法

2021-12-06 16:23:06 浏览数 (1)

文章大纲

  • 问题分析(Challenges)
    • 目标用户
    • 核心概念
  • 系统前瞻
    • 样例图
  • 数据映射
  • 疾病库
    • 标准表
    • 别名表
    • 数据导入
    • 后端处理

问题分析(Challenges)

目前中国的医疗数据标准化程度低。由于各地方医疗信息化程度的差异和不同的HIS厂商执行标准上的差异,导致医疗数据在结构和内容上不统一。甚至在同地区的不同医院都有巨大差异。这样导致医疗数据在使用的时候出现各种信息偏差无法使用。

如何把某个地区医疗机构的业务数据转换为我们可用的数据就是问题的关键。转换的过程可以理解为把一系列的源数据对应到标准数据上,这个过程叫做数据映射。在完成这个转换的过程是需要用到数据字典,数据字典存储了标准数据。数据字典和数据映射相互配合完成数据标准化的治理,并标准化输出给保险公司。

标签是一种用来描述业务特征的数据形式。通过标签对业务进行刻画,从多角度反映业务的特征。我们围绕已经输出的标准数据建立对应的标签库,更多输出业务需要的多维度数据。

内部运营人员希望可以通过IT系统高效快捷的管理数据字典、数据映射、字典标签。需要保证数据质量的时候可以通过校验、复核等功能加以控制。 数据字典和数据映射随着服务客户的数量增加,积累的数据量也在不断的增加。沉淀的数据成为公司最重要的资产之一。

目标用户

医学专家:管理维护数据字典和数据映射 运营人员:管理维护数据字典和数据映射 核保产品经理:管理维护数据字典中的风险标签 风控专家:管理数据字典的设计和规则、管理维护数据字典中的风险标签

核心概念

数据字典:

根据业务需要建立字典数据库,为源数据转换为标准数据提供基础的服务。每种字典存储相对应的标准数据。数据字典允许扩展可以为每种字典根据业务需要建立字典标签。字典标签是在基于字典数据的基础上,添加更多维度的数据作为标签数据输出。

数据映射: 通过源数据与字典数据建立映射关系,就可以根据源数据找到字典数据对应的标准数据。数据映射和数据字典是一一对应的关系,有一种字典就有一种映射与之对应。数据映射管理的就是这些数据之间的关系。在业务数据导入到映射库时,使用智能匹配功能。精准匹配的自动建立映射关系。不能精准匹配的业务数据需要人工判断后手动建立映射关系。

术语

解释

记录/record

数据表中一行

标准表/标准库

知盛保所定义的标准码表。六大类:疾病、医院、诊疗、手术、材料、药品

别名表/别名库

与标准对应的别名,不是每一个标准都需要别名

非标表/非标库

源于医疗端、商保端或其他渠道,需要与标准表进行映射

映射表/映射库

其他码表与标准表的映射关系表

基础库

标准表和别名表构成基础库,六大基础库:疾病、医院、诊疗、手术、材料、药品

医保目录

诊疗、材料和药品,基于地区和版本(有效时间)

标签库

基础信息所关联的知识

规则库

核保核赔规则


系统前瞻

组织结构图

数据库逻辑结构

样例图

主功能与流程 标准库,别名库,医保目录和数据映射的主要流程分为创建和浏览

创建 创建库表或增加库表记录 主流程为: 1 导入已存在的库表文件或新增一条记录 2 经过自动化处理,录入临时库,自动化处理包括: 文件格式校验,内容format 如果是别名导入,匹配标准库中是否有对应的记录 如果是数据映射导入,筛选出完全匹配的记录 3 用户对导入的记录进行检查,可以对记录修改或删除,或撤销所有导入记录 4 提交确认后的记录,录入正式库中,并删除临时库中的记录。

数据映射

医疗:医疗端码表,完成医疗端的非标准码向标准码映射,原始码表无需记录入库,映射表可以是一张共享表。(医疗->标准) 保险:商保端码表,完成标准表向保险端的非标准码的映射,需要保存原始码表来源或原始码表。(标准->保险) 医保目录:来源是医保目录,即原始码表是医保目录表。需要建立医保目录表到标准表之间的映射关系。(医疗->标准) 实时:理赔核保等线上业务实际调用对码过程中,无法精确对码的情况下, 需要人工参与的对码实例。

逻辑关系

疾病库

功能逻辑图

原型图

标准表

标准表

1 通过关键字段查询 2 新增:新增单条记录 3 修改:修改单条记录内容和状态,状态有启用和失效。 修改会导致已有的功能如对码失效,修改后处理:检索映射表,将受影响的记录放入映射池再次映射。 4 没有删除功能,如果不需要该条记录,修改为失效状态

别名表

1 通过关键字段查询 2 新增:新增单条记录 3 修改单条记录。 4 删除单条记录。

数据导入

1 导入历史列表 2 过滤条件 1 根据导入类型:标准/别名 2 根据处理状态: 未处理/处理中/已处理过滤 3 导入,导入新文件 4 处理,进入处理页面, 导入状态未处理/处理中可见 5 撤销,撤销本次导入,导入状态未处理/处理中可见

后端处理

缓存层:保存运行时的精确对码,设置保存时间窗口和权重阈值,在窗口期低于权重阈值的被放弃。可使用Redis作为缓存

加速层:用于对码的标准表,映射表,医保目录等表提前合并,便于快速查找,存放在适合分词处理和全文搜索的Elasticssearch中。出发机制:当标准表,别名表,医保目录,映射表等发生增删改时,要同步修改加速层。

运行时对码: 1访问缓存层,能够命中直接返回,并将访问权重 1 2缓存层不能命中,访问加速层,如果精确匹配,返回结果,并保存结果到缓存层 3 如果不能精确匹配,则模糊匹配,返回匹配率最高的1个结果

数据映射: 1 访问加速层,如果精确匹配,返回结果 2 如果不能精确匹配,则模糊匹配,返回匹配率最高的n个结果

数据管理 针对前端管理功能、各业务模块所需的管理和数据访问API接口

审计 记录所有增删改操作

原始数据文件存入文件系统/对象存储系统

0 人点赞