2015年初,精准医学正式进入大众的视野,美国总统奥巴马在国情咨文中提出“精准医学”计划。自此,精准医学在全球掀起一股浪潮,个性化医学的大幕也正式拉开。
所谓精准医学,是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。无疑,精准医学跟数字化技术、数据有着紧密联系,实乃医学进入到数字化时代的发展必然阶段。
随着数据收集手段、数据存储技术的不断进步,精准医学这扇大门正在加速打开,惠泽更多群众。那么,中国精准医学发展状况如何?精准医学的数字化何特点?如何解决精准医学中遇到的典型数据存储挑战?近日,中山大学附属第六医院副研究员、计算肿瘤学博士高峰带来了他的深度思考。
1
为什么要数字化
精准医学为何愈发受到关注?
举个例子,A和B同时患有某肿瘤疾病,同样的药物对于A有效,但对于B却没有效果,反而会影响到B的病情;C和D患有不同肿瘤疾病,却通过同样的药物让病情得到极大缓解……肿瘤等疾病成因复杂,个体遗传因素、所处环境和生活方式的不同,使得肿瘤疾病的医治亟需个性化治疗。
“现行临床数据库不能很好的记录分子特征,像生物样本库的存储和组织等,例如血液、粪便等都面临着流通性、可访问性、可复用性等问题。”高峰博士在IDTC2021浪潮存储数据科技峰会广州站上如是说。如何有针对性的治疗,实现医疗方案的“量体裁衣”?无疑,建立在数字化基础之上的精准医学就是那把关键“钥匙”。
“通过真实世界样本剖析肿瘤的分子异质性是实现个体化治疗的必要手段,只有数字化才能成为真正的资源。”高峰博士表示道。中山大学附属第六医院在精准医学走在业界的前沿,为推动精准医学的进一步发展,中山六院构建起数字化生命资源库,推动大数据、人工智能技术在精准医学领域的应用,帮助肿瘤患者获得个性化治疗方案。
高峰博士以一个真实案例说明精准医疗数字化的重要性,“有一名年轻患者,他的直肠癌肿瘤位置非常接近肛门,如果按照过去常规做法,需切除肛门,这无疑会严重影响该患者今后的生活质量。”为此,中山六院利用“直肠癌新辅助治疗疗效深度学习预测人工智能(AI)模型”用于评估患者疗效,有针对性的强化术前新辅助治疗,术后病理如同术前预测,病人肿瘤疗效评估0级,达到了pCR(显微镜下未见肿瘤细胞残留),意味着术前的强化新辅助治疗效果显著。
无疑,精准医学即意味着整个治疗过程中高度依赖数据。当前,一个人全基因数据就高达400GB,加上病理数字化,带来庞大规模的影像大数据。高峰博士表示,他们研究项目目前物理存储的实装数据就已经超过2.5PB。如此大规模且增长迅速的数据,着实带来了一系列的数据存储挑战。
2
精准医学背后的大数据存储挑战
当前,众多领域都因数据而改变。
正所谓有“数”有“据”方能运筹帷幄,即便是想法再高明、算法模型再先进,缺乏数据的支持,再好的研究想法依然很难得到验证。而数据愈发丰富,研究人员就能基于海量数据间的相关性验证更多研究想法和理论,获得更多新知识和新发现。
具体到精准医学,当前各大精准医学机构普遍都在建立自动化生物样本库,数据量始终保持着极高的增长速度。以中山六院为例,基于浪潮分布式存储平台建立起数字化生命资源库,整合来自高通量检测手段的多组学数据和医疗信息系统中的结构化病历、数字病理、医学影像,初步实现临床资源数字化。
中山大学附属第六医院副研究员、计算肿瘤学博士高峰
目前,中山六院已经建成了全球最大单中心、完整配对、高质量随访的基因多组学肠癌队列。“精准医学数据相对较为单一,而且使用人群也较少,但并不意味着数据存储挑战就很少。”高峰如是说。在高峰看来,当前中山六院的精准医学研究工作主要面临着三个重要的数据存储趋势:
其一、快数据和海量数据并存,但不同场景、不同类型数据的数据处理需求差异大。例如,快数据的量达到了上百TB,这些数据往往跟AI模型紧密相关,对于性能、吞吐要求极高;而海量数据则往往达到PB级规模,对于安全性、连续读写性能要求更高。
其二、未来需要建立起数据基础设施,用户不用过多关注数据底层的操作、管理和运维等,数据基础设施可以灵活匹配上层应用的存储需求,让医疗专家将精力聚焦在专业的精准医学研究任务之中。
其三、中山六院致力于构建肠癌数字化生命资源库的建设,形成中国人群的肠癌数字图谱,把临床业务数字转化成可复用的资源,支撑起整个精准医学的长期研究,这意味着数据今后会越丰富、维度越全面、使用人群会更多。“肿瘤疾病成因复杂,有遗传、环境等多种因素,不光涉及医学采集到的数据,还包括各种环境数据。目前,应用跑的比技术、数据更快,我们希望会有越来越多的数据来支撑医学研究。”高峰坦言道。
浪潮存储产品线总经理李辉也表示,当前多学科、交叉研究的现象在医疗领域中很常见,并且绝大部分医疗机构都异常重视数据的采集与存储,精准医学的数据也非常符合新数据的各种特征,对于存储功能层面一直会产生新需求和新挑战,需要新存储来有效实现数据存好、管好和用好。
3
未来:场景共同体让精准医学有“数”有“据”
就像高峰博士所言,应用场景需求变化走的比技术更快。以新数据驱动为主导的新应用往往基于大数据和AI复杂运算,进一步让数据基础设施和解决方案层级关系走向复杂化。“我自身是学计算机出身,所以对数据基础设施底层很多细节比较了解;但希望未来数据基础设施能像用水用电一样简单。”高峰博士如是说。
为此,浪潮存储认为,面对未来各种数据存储挑战,需要构建‘以用户为中心、以应用为导向’的场景共同体来应对挑战。事实上,近年来浪潮存储在医疗领域实践丰富,像武汉大学中南医院、中山大学精准医学研究中心、中山大学附属第六医院等均为浪潮存储的客户,浪潮存储也在积极携手各方合作伙伴构建面向医疗领域的场景共同体。
浪潮存储产品线总经理李辉
在李辉看来,场景共同体是以“客户场景”为导向,汇聚各种力量来解决智慧场景建设所带来的挑战,具体到医疗场景,主要有三个几方面工作需要突破:
首先,不同病种的AI算法、模型可能差异性极大,需要浪潮存储与算法供应商、ISV等紧密合作,在数据存储层去匹配算法、数据集、数据IO模型等,有针对性的进行优化,从而更好地构建起场景共同体;
其次,像精准医学等课题研究上,一定会在数据存储上存在着一部分特定的应用场景,比如在影像数据上的一些特殊需求,这往往需要像浪潮存储这样的数据存储供应商能够深入了解用户场景,快速响应和匹配差异化需求,在通用产品基础上进行一定程度的定制化开发;
最后,医疗行业的场景共同体还处于探索的早期阶段,还未系统化,未来亟需用户代表、算法供应商、ISV、数据存储供应商共同努力,探索场景共同体在临床上的应用情况。
“场景共同体的目标是释放出用户的精力和资源,让用户不用管修路的事情,只管开好业务这辆车。”李辉最后表示道。