编辑:木青
【新智元导读】在中国受人工智能影响最大的医疗健康行业中,数据已成为“AI 医疗”落地的最大阻碍之一——数据复杂且质量参差不齐。那么,基于人工智能、云计算和大数据三位一体的互联互通,是否有望打破医疗数据孤岛,助力应用落地?
中国哪一行业受人工智能影响最大?答案是:医疗健康行业。
这也致使智能医疗的战场已经涌入无数新老玩家,但比起数据标准化、信息化起步早的金融等行业,医疗领域面临更严重的数据孤岛问题——数据零散且质量参差不齐。
不少企业都因为技术门槛高而选择在“门外”张望,医疗健康行业到底需要怎样的AI方案?
将数据作为突破口,或许是一剂良药:
- 医疗数据复杂且分散,“对症下药”的前提是需要有效地建立起安全可信的多源数据协同方案;
- 基于云计算和大数据技术的互联互通,AI、云、大数据的“组合拳”成为消除医疗数据孤岛的利器;
- 智能医疗中最先落地的技术主要集中在计算机视觉领域,例如医学影像、医疗图像分割等,这些方面的数据量较大,而CPU凭借对大内存的支持,在高速、大容量数据承载和读写能力上的优势就格外突显,有望让相关AI推理速度得到较大提升;
在为大半个智慧医疗圈的企业做“后盾”的过程中,从芯片航母转型到数据中心的英特尔总结了一份《英特尔医疗健康行业AI实战手册》,用AI内功助力AI 医疗落地。
医疗健康行业AI渗透率达22%,市场潜力巨大但数据“水深”
在中国,医疗健康行业是被人工智能渗透最多的领域。
在中国各类垂直行业中,人工智能渗透较多领域的包括医疗健康、金融、商业、教育和安防等,其中医疗健康领域占比最大,达到22%。
相比安防、教育等行业,AI出现在医疗领域起到的更多是辅助作用,并非要直接取代人类的工作。例如,在医学影像中,AI技术作为一种工具,凭借在准确度与工作可持续性方面的优势,可以辅助医生提升诊断效率,有利于医生做出最终判断。
然而相对于数据标准化、信息化起步早、机械化工作方式占比高的金融行业,医疗健康业真正拥抱AI面对的限制更多,甚至目前还很难看到明确的未来。
数据就是一大难关,无论是数量还是质量。智慧医疗面临着诸多挑战:
- 数据量。模型越复杂,参数越多,所需要的训练样本量就越大。但是对许多复杂的临床场景而言,所需要的大量可靠数据却并不容易获得;
- 数据质量。一般而言,健康数据的组织化和标准化程度都不高,且数据分散、有噪声。在条件不好的诊所,还存在电子病历信息缺失或有误、多机构间分散存储等问题,同时接口数据可靠性也很差;
- 模型的可解释性。深度学习模型是个黑盒子,对如何得出结论没有明确的解释,其决策模式的权威性也尚待验证;
- 模型的通用性。首先是模型偏差,比如采用白种人患者数据进行训练的模型,可能在其他种族患者中效果不佳;还有就是模型互操作性差,也就是很难建立一个适用于两种不同电子病历系统中的深度学习模型;
已知前方“拦路虎”,亟需更对路的AI解决方案。
基于人工智能、云计算和大数据的互联互通,打破数据孤岛,建立医疗全连接
在AI三大支柱——算力、算法和数据中,数据更有望成为智慧医疗的突破口。
其中,医学影像则被认为是AI与医疗的融合中,最有可能率先实现商业化的领域。影像数据的标准性和大体量为AI在这一领域的应用提供了最重要前提。
通过较为成熟的算法和大数据应用,机器读片可以做到较为“客观、精准、高效”,也给机器在医学影像上与人工媲美,甚至代替人工增加了可能。
然而,过去很多医疗数据都是孤岛式的,一个设备产生一个孤岛式数据,一家医院产生一个孤岛式数据,当把这些“孤岛”全部连接在一起,才是真正的大数据。
而英特尔此前倡导要“深挖数据红利,释放数据价值”。同时,人工智能、云、大数据技术结合也是必然趋势,可围绕数据的每个环节创造价值。
如今在医学影像分析中,“云技术 大数据 AI”这套组合拳正逐渐打破医疗数据的孤岛:基于云计算和大数据技术的互联互通,各医疗机构之间可以建立无边界医疗全连接。
将医技设备链接和聚合起来的医真云
例如,西安盈谷的解决方案就是,先通过医真云的部置,利用物联网技术,将源自不同设备的海量医学影像数据链接起来,再通过其医学影像处理及分析云计算核心引擎iMAGES,来输出强劲的影像大数据在线处理能力。最后,构建 Cloud IDT 服务,将AI技术引入到医学影像处理和分析中。
在这一解决方案的过程中,盈谷在英特尔的支持下完成了 Cloud IDT 服务向英特尔架构平台的迁移,以及对于 Tensorflow等AI技术框架的部署和优化。
AI与云技术的搭配实现了实现了人工智能辅助医学诊疗的创新。例如,在筛查肺部疾病时,在 Cloud IDT 服务的辅助下,低剂量 CT 肺小结节智能化辅助诊断定量的监测敏感度(探测率)已达到 95%,筛查时间也由人工方式所需的10多分钟缩短到6秒以内。
CPU优势尽显,深度学习技术加速图像分割AI推理
事实上,入局AI 医疗,强大推理能力的尤为重要。
在AI推理市场,英特尔至强处理器的普及率非常高,为80%-90%的AI推理助力。
而作为计算机视觉技术的重要分支,图像分割已在医学影像处理领域获得广泛应用,例如肿瘤和其他病理位置定位、计算机辅助手术以及临床辅助诊断等细分领域。
随着计算机视觉技术飞速发展,与卷积神经网络(CNN)类似的模型,是目前基于AI的图像分割技术中常见的网络模型。这其中,全卷积网络、U-net 和 V-net 是常见的几种基于深度学习的图像分割方法。
基于AI的图像分割需要大规模推理,而AI应用不能对临床诊疗造成延迟,因此需要保持保证 AI 推理具备高吞吐、低延迟的特性,在这方面CPU优势明显。
西门子医疗与英特尔一起合作,优化了基于全新的第二代英特尔至强可扩展处理器平台构建的心腔检测和量化模型。
西门子医疗与英特尔一起构建心脏 MRI 的 AI 分析能力
处理器内置的英特尔深度学习加速技术,具有全新的矢量神经网络指令(VNNI),能够进一步加速深度学习中的各种计算密集型操作,让图像分类、图像分割、目标检测等 AI 应用在该处理器平台上的推理效率变得更高。
英特尔深度学习加速技术对 INT8 良好的支持能力,使其可以将 FP32 训练模型转化为 INT8,在保持准确性的同时大幅提升推理速度。
硬件如同土地,那么软件就像耕地的工具,选择适合的软件与硬件搭配,能实现事半功倍的效果。
图像分割的深度学习模型也需要软件进行优化。CT检查是现代医疗最常用的检查手段之一。以往通常依赖人类医生进行人工看片,通用电气医疗集团(GE医疗)正利用深度学习的方法,使 CT 切片图像能更便捷地进行分类和标记。
英特尔DLDT是 OpenVINOTM 工具套件中,专门用于深度学习模型的推理加速部件。可以对多种主流深度学习开源框架训练好的模型进行转换和优化,生成独立于深度学习框架的 bin 文件和 xml 文件。
利用英特尔DLDT 对模型进行转换和优化后,可将优化后的模型导入GE 医疗CT 边 缘 AI 增强应用中,该应用在硬件基础上构建了基于边缘的强大推理引擎。
多核心带来了推理性能的稳步扩展
GE 医疗希望在对模型实施优化后,能够在使用小于 4 个处理器核心的情况下,使推理引擎每秒可处理的图像数量达到 100 张。优化后的测试结果为:在使用了英特尔至强处理器上的4个核心时,优化后的模型每秒可处理的图像数量,提升到了596张,近6倍于上述的期望值。
AI介入药物研发进程,图像分析模型训练时间从11小时降至31分钟
医疗健康行业不仅限于临床医学,还包含药物研发与制造等细分领域。
AI技术如今也被运用于药物研发进程,基于细胞图像的高内涵筛选(HCS)是目前在该领域常用的自动化分析方法之一,也是AI技术在药物发现早期环节的重要应用。
利用深度学习方法、从数据中“自动”学习,并区分一种治疗与另一种治疗的相关图像特征,但细胞显微镜图像巨大的信息量使这一方法仍需耗费大量时间——其图像分析模型的训练时间约为 11 小时。
如今,英特尔和诺华的生物学家、数据科学家们通过基于优化的英特尔至强可扩展处理器平台上部署的 M-CNN 网络,来加快 HCS 分析,实现更佳的训练和推理效果。
诺华优化后方案的训练效果
优化方案部署了8 个基于英特尔至强可扩展处理器的节点,使用 Broad Bioimage Benchmark Collection* 021 (BBBC-021) dataset29 数据集,图像总量为 1 万张,尺寸为1024*1280*3。在超过20 次的训练后,如图上图所示,训练时间总长约为31分钟,准确率超过 99%。
在这一过程中,CPU在大内存方面的优势就格外突显。它在某些需要较大容量内存的(数十GB乃至上百GB)场合时要优于其他平台的表现。
事实上,医疗行业内,尽管数据质量参差不齐,但常常要处理大量需要大内存支持的影像数据,除了3D数据外,还有附带时序的核磁共振4D数据,它们更加依赖大容量内存。
用特定硬件“圈地”画边界,增强数据安全防护
尽管前景并非百分百明朗,但很多传统医疗机构还是一头扎进了AI战场。
人们对健康的追求是不会停止的,AI 医疗这一领域也更贴近人们对未来科技世界的美好期待——AI的出现对智能化医疗体系的构建起到了关键作用。
就数据方面,AI 医疗依然存在不少隐患,这需要政策与技术的双重努力。
2017年7月8日,国务院印发《新一代人工智能发展规划》,提出要发展智能医疗,推广应用人工智能治疗的新模式新手段,建立快速精准的智能医疗体系。
政策的支持促使人工智能在医疗领域的应用更上一层楼。然而,医疗行业大数据集中化确实是一大重要趋势,但在数据安全和主权问题尚未没解决前,不同医疗和健康机构的数据很难实现真正意义上的共享,或者共同的发掘和利用,这就要求技术方面要建立起真正实用且安全可信的多源数据协同方案。
在这方面,英特尔就凭借过“硬”技术,为平安科技联邦学习技术团队聚合多源数据实施 AI 模型训练的过程保驾护航。
英特尔SGX 技术以可信“飞地”来增强数据安全防护
英特尔SGX 技术可通过在特定硬件(例如内存)中构造出一个可信的“飞地”(Enclave),使数据和应用程序的安全边界仅限于“飞地”本身以及处理器,同时其运行过程也不依赖于其他软硬件设备。
这意味着数据的安全保护是独立于软件操作系统或硬件配置之外,即使硬件驱动程序、虚拟机乃至操作系统均受到攻击和破坏,也能更有效地防止数据泄露。
而多源数据,顾名思义,数据来源多样,来自不同机构。英特尔SGX 技术能解决另一痛点问题就是跨医疗机构、跨公司企业之间的数据利用问题——既可以推动跨不同机构的数据利用,又可以保障其安全。
中国医疗市场潜力巨大,AI 医疗仍处于起步阶段,英特尔在这方面的经验将为传统医疗企业转型提供高价值的借鉴作用。
在人工智能赋能各个领域中,落地已经成为绕不开的话题,所有AI都应该最终能做到解决实际问题,实现真正的落地。简化流程、对症下药,正是英特尔在中国医疗健康行业的AI实战经验。