闫峻:医疗大数据的挑战与智能应用

2020-05-13 16:51:51 浏览数 (1)

报告导读

本文报告介绍了医疗大数据的挑战及其应用,首先介绍了医疗大数据的集成、医疗大数据的可计算性处理、和医疗大数据的标准化存在的挑战,然后介绍了医疗大数据挖掘与计算的一些方法,最后对医疗大数据的行业应用进行了展望。

专家介绍

闫峻,医渡云首席AI科学家,中文信息学会语言与知识计算专业委员会委员、中文信息学会医疗健康与生物信息处理专业委员会委员。曾担任微软亚洲研究院任资深研究经理、微软北京大学联合实验室副主任、CCKS工业论坛主席、中山大学博士生导师、人民大学工程硕士导师及人工智能领域多个顶级国际会议程序委员会委员。主要从事大数据与人工智能等相关工作。

报告内容

在医疗这个领域,数据有几个比较重大的挑战,第一个就是数据的集成问题,接下来是数据的处理和应用问题。首先是一个数据集成的问题,在我们国内的三甲医院里面,每家医院都是不同厂商系统的结合,而这些厂商并没有很好的互联互通,如果没有一些基础的工程性工作的话,我们想落地我们的一些应用本身是不容易的,所以如何实现这一点,第一步仅仅是一些工程上的问题,接下来第二步的挑战会更大,我们认为医疗的信息化到今天为止已经做得很好了,我们去看一下,很多的医院医疗信息化之后产出的数据质量其实还远远达不到今天的实际需求。在很好的三甲医院里面都可以看到大量男性的卵巢癌患者,这是有些医学常识的人是不可接受的一件事。所以数据的一致性、数据的持续性等等各种各样的指标,这个依赖我们花很大的精力建立一种基于逻辑的医学常识的知识库,通过知识库排查数据质量的问题。

如果数据的集成做到了,数据质量提升了,这个数据是不是就是好的?其实这需要大量的自然语言处理的工作,这也是一个非常重要的研究领域。如果我们想做临床研究的话,用这种纯自然语言文本的方式,想做一些简单的统计分析都是不太现实的事,所以如何让我们的文本数据变得可计算就是一个很大的难题。接下来就是要解决文本的结构化问题。我们有很多的方法,但这里面还有个非常的大挑战,单纯的靠模型生成出来的结果远远达不到我们需要的指标,这里面需要大量的医学逻辑,需要大量的医学背景知识的嵌入。

下一个挑战就是数据标准化的问题,虽然国家有国家标准,各个省级市级学会有各种各样的标准,但到今天为为止我们的医疗数据远远没有达到标准化的层面,我们见到同一个手术,同一个检查检验的名称会有千奇百怪的说法,这也需要大量人来解决这些问题。

前面提到几个非常大的挑战还是基于自然语言处理,基于知识图谱,包括一些深度学习的相关技术。其实我们在医学这个领域里有大量的医学的背景知识,所以这些知识的使用是非常重要的,不能单纯的只是从数据里面学,因为有很多经验的东西已经积累下来了。那如何把这些积累下来的经验,这些知识型的东西跟我们今天数据驱动能够实现的智能完美融合在一起,这里面既包括了基于专家经验,基于历史支撑积累下来符号逻辑的东西。包括大量从数据里面深度学习出来的东西。

我们很多的模型训练依赖于大量医院把数据模型放在一起,如何实现它,我们依然用的是一个联邦学习的框架。医院之间并不交换任何的数据,但是可以整体优化一个统一的模型,来实现我们的AI模型的构建,比如说临床辅助学知识系统的构建等等。

从应用的角度来讲,一个最基础的应用,如果我们把数据质量提升了,做好了结构化和标准化的话,我们能做一个基础的功能,就有点像我们自己把它叫做在医疗大数据领域可以做复杂逻辑搜索的搜索引擎。我们可以非常便捷的搜索基于患者一些非常复杂的条件来找到我们相应的这些数据。另外这里面的应用场景非常多,基于刚才提到的专家知识构建的知识图谱,结合上我们数据补充的满足需求的模型,构建一个统一的模型,最终来实现一个辅助决策支持的目的,同时基于这样的数据,我们可以提供很多的科研的基础,因为医学本身就是一个研究的学科,是一个经验学科,通过这样的一些方法,这样的一些平台,可以帮助我们医院发展很好的文章,包括柳叶刀,包括Nature已经发表了大量的这种科研论文。我们也可以支持一些保险的场景,支持一些新药研发的场景。前一段时间有个电影大家都看过,就是《我不是药神》,这个电影描述了这样一个场景,因为很多的患者看不起病,因为药费非常的昂贵,最终导致很多不幸的发生,社会上就有多的声音,说药企可不可以降价,药企太黑了。但是大家不了解的是,在目前这个医药行业里面,药企做一个新药的研发费用最低差不多是10亿美金,花10%的时间,最终只有10%的成功率。在这样重成本的情况下,我们逼得药企降价并不是解决问题的根本办法。医保已经非常沉重了,如果真正实现我们的绿色医疗,让每个人看得起病、用得起药的话,最根本的解决方式就是降低药品研发的成本。成本怎么来降,归根到底,新药研发过程当中,就是临床实验的过程是花费时间和金钱非常重的环节,如果能通过数据智能的手段来解决这个环节的提效问题的话,这才是解决刚才我提到的社会问题的根本途径,这都是我们医疗大数据之前提到的困难,能够带来的一些收益和好处。

0 人点赞