挑战赛背景
多组学联合分析是指对来自不同组学,如基因组学、转录组学、蛋白组学和代谢组学等的数据进行统一处理、比较分析,用以探究生物学问题。由于生物过程具有复杂性和整体性,多种物质共同影响生命系统的表型和性状,例如环境、基因、mRNA、调控因子、蛋白、代谢等,这些组学之间,既相互独立,又互相影响,既有很大的差别,又有相似之处。
多种多样的组学联合分析将不同层面之间信息进行整合,可从不同的组学角度共同探究生物体内潜在的调控网络机制,从而可以更深层次理解各个分子之间的调控及因果关系,更深入的认识生物进程和疾病过程中复杂性状的分子机理和遗传基础。
与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。Sentieon在多组学数据的联合分析应用中同样有着出色的表现。Sentieon 不断将机器学习和AI 应用到多组学分析中,以实现softPharma更广阔的视野。自2018年以来,Sentieon 参加并赢得了 **PrecisionFDA**的三项多组学 AI 建模挑战,展示了其解决这些问题的能力。
PrecisionFDA 2019: 脑肿瘤预测及标记物发现挑战赛
在PrecisionFDA 2019-2020年的脑肿瘤预后预测的挑战赛中,主办方提供了脑肿瘤病人样本的基因组与临床数据,记录了每个样本的CNV拷贝数变异(811位点),RNA基因表达(19335位点),临床表型(脑肿瘤类型,分级分期)以及预后状态数据;其中训练集里预后状态数据是公开的,建立训练模型后通过测试集评估模型的准确度。目的是通过不同组学数据之间的联合分析,预测样本的脑肿瘤预后情况。
Sentieon在本次挑战赛中对上一届的方法模型进行了改进,引入了改进的自适应加权欧几里得距离,开发了自适应距离度量K-NN算法,克服了现有的方法限制。经测试,通过新算法建立的预后模型可更好的区分临床数据与预后状态数据之间的关系。
在本次挑战赛中Sentieon共提交了2个模型,分别位列第一、第二名,模型准确性均达到80%以上,在方法学上也获得了FDA的四项奖牌。此外,相比与其他模型,Sentieon建立的机器学习模型除了准确度最高之外,也具备较高的可解析性,具有结果透明、运算量需求低的特点,可有效为脑肿瘤预后提供辅助诊断的依据。
PrecisionFDA 2019挑战赛链接
https://precision.fda.gov/challenges/8/results
Sentieon软件中文介绍
https://www.insvast.com/sentieon