作者 | 王建民
实验科学更像是一种将实体表征为人类可识别信息的一个过程,这个过程产生了海量高维复杂的数据,即数字化。统计学、机器学习和深度学习等从数据中寻找规律和发现知识。回顾从药学专业毕业,然后经历很多各种实验和实验数据的产生过程,再加上从事计算的经历,以及最近几年在数据挖掘和AI领域的深入,深知数据科学和AI在制药行业变革中的巨大潜力。通晓数据的产生以及数据挖掘是智能化的基石,药学教育也应该顺应时代和产业需求建立交叉学科人才的培养。
(深深感觉以往的每一段经历,对未来的每一步都有用。)
导读
生物医学研究越来越成为一门高维度的科学。在制药行业,支持药物发现和开发过程的数据生成成本越来越低,复杂性、多样性和数量也在快速增加。这是引进和发展新型技术的结果,这些技术使分子谱分析、成像和其他类型的高通量读数达到前所未有的规模。同样,由公司创建或由生物库汇编的临床数据也在以指数级的速度增长,不仅在样本规模方面,而且在被测量和捕获的(日益数字化的)终点的广度方面。
数据增加的同时,方法学的进步也推动了统计建模、机器学习和人工智能(AI)的重新发展。数据、计算能力和高级分析的结合,使数据科学成为制药研究中的关键核心学科,与更传统的生物学、化学和医学学科并驾齐驱。
实现数据科学的全部潜力需要调整组织的结构和文化。这种转变的迹象已经可以在整个制药行业看到,随着大型数据科学团队的建立,以及负责实施全公司数据科学战略的高管角色的设立。当发现变革性药物比以往任何时候都更具挑战性,需要更多的科学创造力的时候,我们为那些渴望在其组织中推动数字文化转变和数据科学转型的人提供战略建议。
Fig 1. A graphical representation of the ten simple rules to power dug discovery with data science.
规则1
将数据科学确立为药物发现的核心学科
生物学、化学和医学学科自诞生以来一直是药物发现研究的基础;相比之下,数据科学是最近才发展起来的。然而,人们普遍认识到公共和专有数据,以及从这些数据中提取知识的能力,是能够推动竞争优势的关键资产。在医药行业的背景下,数据科学可以被定义为统计学、计算机科学和药物发现的交叉学科。因此,它包括但不限于临床统计学家、计算化学家、生物统计学家和计算生物学家等角色,他们早在数据科学一词流行之前就已经通过对大型数据集的计算分析为药物发现和开发做出了贡献。最近,机器学习工程师和具有特定技能(如深度学习、图像处理或身体传感器分析)的专业数据科学家也加入了制药公司日益壮大的数据科学团队的行列。
虽然这些科学家在早期和晚期药物发现项目中产生的影响得到了认可,并且通常在一个组织内非常明显,但高级领导团队的组成并不一定反映这些技术和科学的最新发展。为了将数据科学确立为药物发现的核心学科,团队组成需要在各个层面上发展:从领导层到项目团队。在领导团队内部对数据科学在制药行业的潜力、应用、局限性和陷阱有更多的了解,是现在至关重要的。将数据科学领导者纳入决策机构,可以将数据科学家与关键业务问题联系起来,提高组织对计算方法和数据管理的认识,并进一步将以疾病为重点的部门与发现和临床平台联系起来。虽然数据科学的出现相对较晚,意味着其从业人员在医药研究领域的职业经验可能不如其他职能部门的同行丰富,但他们有可能提供新的视角,并对发现和开发新药的艰巨任务采取正交的方法。
传统的药物发现项目团队由关键的科学专家组成:生物学家、药理学家、化学家(或抗体工程师)和临床医生,他们合作将项目从靶标发现推向临床试验。为了使项目得到计算解释和预测的支持,数据科学家需要成为项目团队中不可或缺的成员,并以合作者的身份参与其中(而不是仅仅被视为一种支持功能)。这样才能制定针对项目的数据战略,部署项目中数据密集型阶段所需的资源,并应用最有效的计算方法来解决关键的项目问题。
规则2
让数据科学家在数据生成之前就参与进来
产生高质量的数据以支持药物发现活动至关重要。任何数据分析,无论其复杂程度如何,都无法从低质量的数据或设计不当的实验中提取有价值的见解。正如Ronald Fisher的名言。"在实验结束后去咨询统计学家,往往只是请他进行一次验尸。他或许可以说出实验的死因"。然而,数据分析往往是事后的想法,以为在实验结束后就可以轻松快速地插入,而不需要考虑太多。设计不佳的实验不仅导致生物医学见解有限,而且由于数据科学家试图纠正或找到混杂因素或其他可避免的问题的变通办法,因此需要更长的时间来分析。考虑到最佳实践和数据分析需求的实验设计会带来更准确、更可解释性的结果,因此,也是可操作的结果。它们还意味着更快的分析时间,从而为其他项目释放数据科学资源。
在一个希望充分发挥数据科学潜力的前瞻性组织中,数据生成和分析需要得到同等重视。实验科学家和计算科学家应从项目一开始就合作,以解决当前生物问题的方式设计实验。数据科学家和实验科学家应该相互理解对方的要求和期望的结果,这一点可以通过定期对话和信息交流来实现。
数据是一种资产:新技术、实验室设备、学术合作和商业合作都应该以这种心态来对待,并迅速辅以数据管理和分析策略。更紧密地整合数据生成、工程和分析功能,还可以建立共享的问责制,并提高支持药物发现计划的实验和计算工作的联合影响。
制药行业的数据科学家越来越多地承担着将内部数据与公共领域的大量数据进行整合的任务。组织必须考虑当前的外部数据标准,以兼容的格式对内部产生的数据进行建模,以实现内部知识与公共数据资产的无缝集成和增强。重要的是,项目往往不是从数据生成开始,而是从数据重用和整合开始,因此,新数据必须与现有数据原生和完全兼容。
规则3
实施公平竞争
生成数据是资源密集型的,工业界和学术界正在作出越来越多的努力,以支持对数据汇编的分析,以及为不同于最初生成数据的目的而重新使用现有数据集。这些努力体现在FAIR原则中,该原则为数据的 "FAIR "提供了指导方针:可查找、可获取、可互操作和可重用。对现有数据进行FAIR化的回顾性数据管理是非常耗费时间和成本的,特别是对于大型的、历史悠久的制药公司来说,这些公司积累了大量的遗留数据,这些数据通常是分散在整个组织中的。随着时间的推移,重要的信息会因为组织的变化和员工的流动而丢失,原因是数据没有得到很好的记录,或者是数据以非标准或非机器可读的格式存储。因此,从数据生成点开始就制定FAIR流程是至关重要的,包括明确的数据和元数据管理战略。
各组织必须为生成数据的科学家设定期望值并提供激励措施,使其包含丰富和统一的元数据,而且这样做的过程应该是简单和直接的。元数据采集工具需要直观、灵活、可配置,以便实时处理新的数据类型,同时遵守既定的受控词汇表和本体。元数据注册和策展工具应在单一的真实源系统中捕获识别性、描述性数据和关系,并将信息无缝传播到下游应用和服务中。用户友好的研究设计工具应与数据生产和分析整合在一起,为实验科学家和数据科学家提供一个平台,以便在运行研究之前,协同指定、迭代和商定实验参数、分析方法和统计能力。
重要的是,作为这个FAIR化过程的一部分,需要建立明确的数据访问规则。这些规则的目标应该是实现数据的民主化,即数据不再是少数人可以访问的,而是整个组织都可以访问的。这需要从 "我的数据 "向 "我们的数据 "的文化转变。这些访问政策应该明确规定哪些人和何时可以访问哪些数据,以减少官僚主义和加快科学见解。这在药物发现和开发过程中尤其有价值,在这一过程中,早期和广泛地获取临床前和临床数据可能会使新的假设得以产生,或将现有项目引向新的方向。总的来说,FAIR数据生态系统是数据科学家选择和整合不同数据集进行元分析所需的数据子集的基础。
规则4
在集成的数据存储之上构建分析和可视化
从数据中提取知识的能力是一个主要目标,也是一个关键的竞争优势。面临的挑战是如何找到感兴趣的数据,将它们与链接的元数据连接起来,并访问和分析数据,以获得新的见解。诺华公司正是基于这些目标开始了Nerve Live和数据项目,其他许多制药公司也在积极投资和开展类似的工作。
遵循FAIR原则是这一挑战的基石,但它本身还不够。充分实现数据的价值需要开发资源和工具,使数据科学家、实验科学家和临床医生能够探索、可视化和分析数据。理想的工具箱包含一个中央搜索引擎,它可以对所有数据进行索引,并列出关键实体的现有知识和它们之间的关系(如靶点、化合物、适应症、生物途径、实验、研究和组合项目),应用编程接口API以编程方式访问数据,以及交互式图形用户界面(GUI)以可视化数据集和结果。关键是合并数据和跨数据集查询的能力,条件是使用丰富的结构化元数据和创建克服历史数据孤岛的系统。需要在数据管理、数据库和FAIR过程中进行战略投资。还应考虑从新生成数据,以填补关键的数据空白。
对于大型组织来说,另一个关键的挑战是保持灵活的系统来暴露数据,同时通过多种图形和编程界面,实现各种需求和服务用户。虽然实验科学家和临床医生可能更喜欢使用Shiny、Spotfire或Tableau等平台实现的专用仪表盘和报告,但数据科学家将期望通过R、Python或SAS等脚本语言与数据进行编程交互。虽然SAS可能是临床统计学家的首选,而Python近年来也越来越受欢迎,但由于R与生物信息学社区的紧密联系,R可能仍然在制药行业占主导地位。R和Python都为数据整理、建模和可视化提供了高效的生态系统。R作为tidyverse的一部分,通过data.table、mlr和lattice等独立的软件包,Python则通过pandas、scikit-learn和matplotlib等软件包。将这些软件解决方案与其他特定领域的工具集成是处理"omics "读数、化学结构、图像、传感器数据、临床和真实世界数据的专家面临的共同挑战。无论使用何种不同的工具集,这种系统的一个指导原则应该是追求和执行可重复研究的最佳实践。充分认识到整个组织中数据科学家的各种需求和要求,对于确保集中式分析生态系统的成功设计和实施至关重要。
规则5
通过强大的社区连接分布式数据科学团队
过去几十年里,制药公司尝试了不同的模式,以实现数据科学家与其合作者之间的有效协同和整合。采用正确的模式对于最大限度地发挥数据科学小组在组织内的影响力至关重要,对于大型制药公司来说,这种模式尤其具有现实意义,因为在大型制药公司中,业务规模会成为有效协作的阻碍。
经典模式中,一个集中的数据科学小组为技术和平台小组以及以疾病和项目为中心的部门提供支持。这种模式允许很大程度的灵活性和有效的资源分配,因为数据科学能力可以有效地部署到不同的项目中,并迅速适应组织快速发展的需求和优先事项。然而,在这样的模式中,由于数据科学家对研究领域和项目细节的接触有限,完全和成功的参与变得更加困难。相比之下,分布式计算团队嵌入到每个部门的模式,可以确保生物医学数据科学家持续接触到一个明确定义的研究领域的项目,并促进长期专业关系的发展。从职业发展的角度来看,分布式模式为数据科学家提供了更多的机会,使他们在本部门内既能磨练自己的技术技能,又能了解药物发现的不同方面。这种模式的风险在于,这些嵌入式数据科学团队可能会在孤岛中运作,从而限制了思想的交叉融合和知识共享。这可能导致同一组织内不同部门之间不必要的重复工作。
连接分布式数据科学团队是有效支持各个部门需求的基础,同时实现数据科学资产和人才的企业范围管理。数据科学团队应该作为一个强大的数据科学社区的一部分,拥有共同的目标和责任。建立一个跨部门的数据科学家参与网络需要不同团队的承诺,可以通过定期的科学和社会活动来实现,这些活动可以促进知识共享,创造一个具有共同目标的多样化社区的感觉,并促进跨部门的合作。不同数据科学部门的领导可以通过组建一个管理机构来促进这一工作,该机构可以促进这种举措,并在跨部门合作、统一分析解决方案和合作投资人才发展的基础上实施共同战略。
规则6
在整个组织中推广一种精通数字的文化
药物发现是一门多方面的科学,数据科学家不可能孤立地实现数字化转型。正如成功的数据科学家必须对他们分析的数据背后的生物学和实验细节有很好的理解一样,实验科学家和临床医生必须通过培养一定程度的数字能力和对数据科学基础机制的基本理解来参与数字化转型。在全公司范围内启动教育工作,将使每个科学家能够更好地利用新型数据科学技术,并在其他内部或外部数据集的背景下利用自己的数据。
实验科学家不需要发展高级计算或统计技能,计算科学家也不需要学习如何在实验室中运行实验,相反,相互接触和了解对方的学科,最终将为更有效的合作环境铺平道路。重要的是,为了充分释放数据生成和挖掘工作的潜力,计算科学家和实验科学家应该专门花时间就实验设计的最佳实践达成一致,由数据科学家推动和引导基于问题的数据分析方法。最终目的是消除计算科学家和实验科学家之间的沟通障碍,培养能够有效利用数据连接两个学科的混合型科学家。
规则7
拥抱并部署人工智能,而不需要对其进行炒作
除了海量数据的产生量增加外,推动当前行业内生物医学数据科学转型的另一个因素是更先进的机器学习方法的广泛使用,包括深度神经网络。这些算法在医疗业务内产生的影响不容小觑,尤其是对于影像数据的应用。
虽然生物统计学家、计算生物学家和化学家几十年来一直在广泛使用机器学习方法,但几乎没有大张旗鼓的宣传,而深度学习方法在一些任务中的惊人表现已经引起了媒体的极大关注,这激发了专家和非专家对人工智能的空前兴趣。在很短的时间内,数据科学家成为了一个需求旺盛的时尚职业,人工智能有时被超卖的水平有可能造成不切实际的预期。
必须强调机器学习方法在整个药物发现中的影响,从疾病理解和靶标识别到生物标志物发现和患者分层策略。同时,我们必须同样有效地传达此类方法的注意事项、偏见和局限性,以及从大型、注释数据集中收获洞察力和将研究结果背景化仍然是限制性的步骤。最终,我们认为深度学习和人工智能并不是解决制药行业所有挑战的灵丹妙药。相反,我们认为机器学习是更广泛的计算和统计方法库中的工具之一,尽管是一个强大的工具,使数据科学家能够获得机制性的见解并推动制药行业的真正影响。
规则8
通过战略伙伴关系补充内部能力
创新正在全球范围内发生,并超越了任何单一机构的围墙。通过在制药行业、技术提供商和学术中心之间建立一个合作生态系统,开发一个系统地将内部能力与外部机会互补的组织模式至关重要。
通常情况下,针对当前问题的新型算法或计算方法是由外部社区开发并提供的。考虑到药物发现项目对数据科学家的密集需求,学术研究人员开发和发布的前沿方法可以快速应用,必要时可以采用工业规模的数据。事实上,制药数据科学家通常会采用快速跟随者的方式,通过投资外部创新技术或方法,引入高质量和成熟的工具和资源来填补空白。可重现、统一并与外部最佳实践保持一致的数据解决方案是将内部数据与丰富的公共数据进行关联的关键。免费开放源码软件有助于确保FAIR数据原则,因为它减少了由于无法继续运行闭源或限制性许可的软件而导致数据无法访问或无法使用的可能性。免费开源软件和资源的使用已经是当前许多药物发现和开发中数据解决方案的核心,但制药行业应该反过来通过发布和提供相关数据、工具和基准来回馈外部数据科学界。
创新药物计划(IMI)和加速药物合作计划(AMP)等公私合作项目为数据科学家提供了很好的合作平台,不仅是产业界和学术界之间的合作,也是参与这些项目的生物技术和制药公司之间的合作。在制药行业内,Pistoia联盟促进竞争前的合作项目,重点关注数据整理和分析,而欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)"行业计划 "则在药物发现和数据科学的界面上,为广泛的生物医学主题提供研讨会和培训机会。
规则9
为数据科学团队分配足够和适当的资源
虽然计算过程的自动化和代码的重用可以显著提高数据分析的周转时间,但没有两个项目是完全相同的,总是需要有针对性的方法。仔细、高质量的分析能够带来真正的业务影响需要时间。
因此,为了实现其目标,数据科学团队应获得适当的资源。组织应逐步增加计算科学家和实验科学家的比例,以便通过适当的分析来补充和增强数据生成的能力。在组织内部,最佳的平衡会因部门而异,与以疾病和项目为中心的部门相比,技术和平台部门可能需要更高比例的计算科学家。作为经验法则,建议在研究部门中至少雇佣10%的数据科学家,以实现生物医学数据科学的规模化,真正实现影响力的最大化。
虽然使用了最广义的 "数据科学家 "一词,但对于组织来说,充分接受药物发现数据的工程、整合、分析和挖掘所需的多样化角色至关重要。需要角色的专业化和互补性,以确保有才华的数据科学家以最佳的能力做出贡献,并反映设计、维护和从大型数据基础设施中获得洞察力的复杂性。数据工程师构建和维护数据存储和管理系统。数据管理员将数据和元数据采集和组织成适合交叉实验学习的标准格式。数据处理员将原始数据处理成可用的形式,并整合不同的数据源和模式。数据分析师与生物学家、化学家和临床医生密切合作,以解决特定的科学问题。大多数数据科学家将能够涵盖这些角色中的许多角色,但所有的人都会有专长。
最后,组织应该考虑到,除了雇佣多样化的数据科学家团队之外,对数字资源进行适当的财务投资也是战略的必要组成部分。如果不对数据集、软件许可证、外部合作、专业服务和执行工作所需的硬件进行额外投资,数据科学家就无法产生最大的影响。适当的资源配置和数据科学职能的差异化,对于引发制药行业的数字化转型至关重要,可以让数字技术随时为药物发现团队所用,整合各部门的非结构化和异构数据集,抓住外部数据机会,这些机会可能是特定项目的福音。
规则10
着力吸引和留住人才
归根结底,任何举措的成功都取决于领导和执行者,在制药行业充分发挥数据科学的潜力也不例外。数据是制药企业最宝贵的资产之一,而能够从中提取可操作知识的人也是如此。现代数据科学家将计算建模与领域知识和科学讲故事的技能结合在一起,在越来越多的行业,包括学术界和咨询、金融和技术公司,都非常受欢迎。此外,医疗的数字化转型不仅影响到医药行业,越来越多的科技公司正在投资健康部门,招聘具有生物医学专业知识和背景的数据科学家。
为了让制药公司在未来几十年内走在生物医学创新的前沿,他们必须注重吸引和留住数据科学领域的最佳人才。从历史上看,计算科学家在制药行业的招聘中往往使用与实验科学家相同的系统、指标和头衔。虽然从平等教育水平和年限的角度来看,这是有道理的,但它根本不能反映全球就业市场对数据科学家的更高需求(和更低的供应)。此外,计算生物学家、化学家和生物统计学家可以在其他领域利用他们的量化技能,比如科技和金融行业。由于数据科学家是一个相对较新的职业,因此,制药组织必须不断完善,并向全球数据科学市场的基准看齐。
同样重要的是,要为数据科学家提供发展和专业化的机会。特别是,数据科学家应该获得职业发展机会,增加他们对公司战略的影响范围。需要鼓励团队和部门之间的人才内部转移,因为这可以为数据从业者提供发展和学习的机会,同时技能和知识也可以保留在组织内部。
最后,虽然薪酬、福利、晋升等外在激励对吸引和留住人才至关重要,但内在激励的作用同样重要,甚至更大。领导者有责任为团队提供自主开发思路和推动项目的能力,让他们专研、磨练并最终掌握自己的核心技能,并激发出超越手头数据分析任务的目标感。这也是医药行业与其他领域相比具有不可否认的优势所在,作为数据科学家,有机会直接为药物的研发做出贡献,拯救生命,提高全世界人民的生活质量。
参考资料
Ferrero E, Brachat S, Jenkins JL, Marc P,Skewes-Cox P, Altshuler RC, et al. (2020) Ten simple rules to power drug discovery with data science. PLoS Comput Biol 16(8): e1008126.
https://doi.org/10.1371/journal.pcbi.1008126