2022年1月20日,来自皮斯托亚联盟、罗氏、阿斯利康的专家在Drug Discov Today杂志发表文章,介绍了 FAIR 方法的应用案例,以及如何将 FAIR 方法与数据质量评估方法一起部署,来最大限度地发挥生物医药数据的价值。
以下是全文内容。
要点
罗氏和阿斯利康的FAIR化(FAIRification)案例。
预计未来会有更多的前瞻性FAIR化。
数据质量评估(data quality assessment,DQA) 广泛适用。
通过实施 FAIR Q 可以从数据中获取最大价值。
摘要
近年来,学术界和工业界在生命科学领域的合作取得了令人兴奋的增长,这使得数据更加可查找、可访问、可互操作和可重用 (Findable, Accessible, Interoperable and Reusable, 简称FAIR),从而实现更大的价值。尽管取得了长足的进步,然而从以应用为中心到以数据为中心的变革性转变仍然是“FAIR 之旅”中正在进行的一项工作。在本文中,我们介绍了 FAIR 方法实施的案例。FAIR 方法可以与数据质量评估(DQA)方法一起部署,最大限度地发挥研究、临床试验和真实世界医疗保健数据产生的价值,这对于生物制药公司发现和开发新的医学治疗方法至关重要。
简介和背景
近年来,学术界和工业界在生命科学领域的合作取得了令人兴奋的增长,使数据更加 FAIR化,以实现超出最初收集意图的更大价值。高度复杂的大型跨国企业的重点已从 FAIR 的学术规范转向解决在生物制药公司中实施 FAIR 指导原则的实际问题。最近的进展包括来自数据研究联盟的 FAIR 数据成熟度指标规范,皮斯托亚联盟(Pistoia Alliance,倡导共享竞争前数据和知识的联盟,并为此实行技术试点) 的 FAIR Toolkit,来自 IMI FAIRplus 项目的 FAIR Cookbook。这些资源有助于推动研究和临床数据的管理方面的进步,对于实现机器学习和人工智能等高级分析至关重要。
尽管取得了长足的进步,但从以应用为中心到以数据为中心的变革性转变仍然是“FAIR 之旅”中正在进行的一项工作。在本文中,我们还考虑了如何在部署 FAIR 实施指标(成熟度指标)的同时评估数据质量(Quality)。FAIR和Quality的这种结合可能会最大限度地提高研究、临床试验和真实世界医疗保健数据产生的数据的价值,这对于发现和开发新的医学疗法至关重要。
生命科学行业正在进行的FAIR化工作仍有许多未解决的挑战需要解决。一个关键的挑战是大规模实施 FAIR不仅涉及构建技术基础设施,更重要的是,还需要协调多个不同利益相关者的需求。这包括对供应商、监管机构、利益相关者以及最终患者进行培训和管理的必要的文化变革,无论是在组织内部还是外部。
当前与 COVID-19 大流行有关的世界性事件表明,让消费者和政府机构参与新药发现和开发的规则发生了变化,新药必须更具创新性、更快和更便宜。这需要通过 FAIR 更好地大规模管理数据,同时满足监管要求。评估数据质量以满足治理合规性,可确保以数据为中心的文化是更具生产力、效率和适应性的生物制药企业的核心。
FAIR 在生物制药研发中的实施
大规模采用 FAIR 数据原则已推动生命科学行业(尤其是生物制药行业)的数据管理价值链发生重大转变。这推动了战略路线图的构建,以推动数字化、创建高度连接和分析完毕的数据集。许多生物制药公司已经实施了大量的项目,以展示FAIR化的可行性、实际影响和商业价值。以下是来自罗氏和阿斯利康的两个案例研究。
罗氏如何实施 FAIR
几十年来,罗氏在许多治疗领域收集了大量临床试验数据。2017 年,罗氏启动了一项协作的、跨职能(研究和产品开发)的计划,以改变公司的数据管理实践和企业文化,以通过 FAIR 和共享数据加速产生有意义的科学见解。此外,还对工具、技术和语义基础设施进行了大量投资来支持转型。尽管长期目标是将所有数据集FAIR化,但该公司采用了“边做边学”的方法,推出了一系列由科学家委员会优先考虑的案例,他们利用小块数据来回答特定的科学问题。通过这样做,确定了与数据FAIR化过程相关的问题和挑战。这些初始项目,让罗氏对如何改进和构建公司的生态系统以使数据大规模FAIR化有了更深入的了解。学习如何在组织内培养“数据公民”的心态至关重要。
FAIR化的案例
罗氏的目标是对选定的不同治疗领域的传统数据集进行 FAIR化,并为未来研究的前瞻性 FAIR 化设计流程。该方法包括以下步骤(图 1):
(i) 定义案例并确定其优先级并确定相关研究(要考虑的因素是数据集的年龄和相关性,或这些研究对推动转化研究的影响);
(ii) 定位数据集、相关文件和研究团队;
(iii) 根据研究知情同意书 (Informed Consent Forms, ICF) 和研究的内部状态确保数据隐私(内部数据访问和共享原则在 RDF 中公布);
(iv) 确定需要 FAIR 化的数据部分(是否需要清洗所有内容或仅清洗与项目推进相关的内容);
(v) 定义 FAIR 数据的流程和资源,应用参考数据,利用临床数据交换标准联盟(CDISC)和赞助商对研究数据进行协调和标准化。罗氏的参考数据完全符合 FAIR 原则,如使用 URI 进行数据和元数据表示,以及RDF词汇表的表示;在研究上运行映射和转换管道以生成 FAIR 表示;根据指南应用最终质量控制方法并评估FAIR指标;
(vi) 在数据目录(如DCAT)中发布FAIR化的数据集;
(vii) 通过与数据科学家的密切互动来评估价值。
图 1 罗氏可查找、可访问、可互操作和可重复使用 (FAIR) 的临床数据的管理框架
前瞻性研究的FAIR化设计
罗氏从回顾性 FAIR化研究中吸取了教训,并为前瞻性转型制定了内部指南,称为“FAIR 手册”。将 FAIR化整合到公司的完整研究和临床数据管理流程中包括以下步骤:
(i) 规划:相关团队接受培训,以便在研究开发的早期采用 FAIR 原则。这包括选择适当的数据标准和术语、评估供应商的能力、为患者和样本使用罗氏标识符,并在一开始就整体介绍数据访问政策;
(ii) 采集:使用官方支持的协议接收数据,在收到数据后执行一致性检查,并存储文档;
(iii) 处理:数据与标准和格式相协调。这允许在发布前改进内容、质量和价值;
(iv) 发布:将数据发布到数据集门户(如 DCAT),该门户支持版本控制、元数据注释和可重用的可访问性。
EDISON 项目是前瞻性FAIR化的一个例子,它是 Pistoia Alliance 的 FAIR 工具包中的一个案例。这种前瞻性方法通过展示 FAIR 数据管理的价值,为在罗氏建立“数据公民”文化做出了具体贡献。它旨在奖励最佳实践。
阿斯利康如何实施 FAIR
竞争情报、临床研究设计和转化医学工作一直是阿斯利康数据 FAIR 化工作的主要受益方面。在阿斯利康的肿瘤转化医学治疗领域内,FAIR 数据实施专注于科学案例,以此鼓励更大的数据管理和重用,同时解决关键的科学挑战。
FAIR化的案例
首先,需要建立一些基本构建块,包括实施持久标识符策略,将参考数据源确定为骨干,以及围绕少量领域词汇进行合并。这有助于建立可查找性和互操作性原则。
基本 URI 结构遵循 Backus-Naur 形式 (BNF) 中的模板:
SCHEME PURPOSE FUNCTION DOMAIN '/' ( SCHEMA '/' CONCEPT ( EXT )* | CATEGORY ('/' SOURCE )* ('/' TOKEN ) ( EXT ) )
该 URI 结构具有图2所示的术语和定义。例如,来自生物标志物数据挖掘(BDM)系统的短标题 CP200 的临床研究标识符将如图2所示构建。
图 2 阿斯利康符合临床可查找、可访问、可互操作和可重复使用 (FAIR) 的 URI 结构的术语和架构
有关阿斯利康 URI 策略的更多信息,请参阅 Pistoia Alliance 的 FAIR 工具包中的“标识符策略案例的采用和影响”。有了这个基础,就可以使用数据马拉松(datathon)或自带数据的方法来处理科学案例。
首先,案例被翻译成适合用途的应用本体或数据模型,它能够描述问题和可用数据,但在此内容之外不一定有用。接下来,该模型受到预先批准的数据的挑战,将其转换为 RDF 实例化。在此过程中,问题、模型和数据之间的差异变得清晰,需要对问题进行重构、细化和额外的数据收集。
一旦模型和转换后的数据适合解决案例,该模型就会与批准的科学概念模型保持一致,主要用于关键实体类型,例如临床研究、适应症和生物样本。这些本身在语义上与公共参考本体一致。对于某些模型,不存在适当的企业标准;因此,这个过程将推荐一个符合外部 FAIR 词汇表的备用方案。接下来,将数据转换为 FAIR的模型,并与公共主干参考数据源对齐。现在,模型和数据都已经 FAIRified 并且可用于 datathon 发布路径。
需要确定数据发布路径,因为它可以是文件、知识图、仪表板或外部发布。还必须确定对新 FAIR 数据集和 datathon 工件的访问权限,尤其是在共享敏感数据的情况下。创建符合 DCAT 的数据集记录并将其发布到目录应用程序控制谁有权访问新的 FAIR 数据和发布的工件。
最近完成的一次数据马拉松说明了这个过程。一个转化医学团队想要评估肺癌治疗耐药的机制。他们能够提供 RECIST 得分的临床结果数据以及研究对象的基因变异数据集。数据马拉松团队建立了一个与受试者、基因、变异、药物和结果相关的模型;将提供的数据转换为该模型;然后对模型和转换后的数据进行 FAIR。在这里,关键的改进是将结果数据与 NCIT 的 NCIT:C49164 分支对齐,将基因与 HGNC对齐,并将变体与序列变体命名标准对齐。对于发布路径,随后组装了一个可视化的交互式仪表板,但仅限于研究原始问题的经批准的转化医学团队。
在阿斯利康实施的 FAIR 化流程能够重新利用临床研究中的数据和相关元数据,例如基因和变异模型以及来自之前数据马拉松的仪表板组件。这些协同作用使这个过程可以重复处理额外的附加问题,并提供越来越多的已解决模型和数据集来构建,即所谓的“中间往外”数据集成(‘middle-out’ data integration)。
实施 FAIR 的共性
正如预期的那样,罗氏和阿斯利康的 FAIR 实施具有许多共同特征,例如为数据和元数据部署全局、唯一、持久和可解析标识符 (GUPRI)。FAIR 化的另一个共同点是选择有价值的数据集,由案例以迭代方式驱动。
FAIR 化作不仅可以作为一项回顾性工作,我们预计未来会看到更多的前瞻性 FAIR化,也就是说数据在设计上是“天生的 FAIR”。FAIR 实施中的融合一直是最近科学研讨会的一个主题,例如 2020 年 CODATA GO-FAIR 国际 FAIR 研讨会,其中提出了可重用的 FAIR 实施配置文件作为 FAIR 融合的加速器。
电子健康记录的数据质量评估
随着 FAIR 数据原则越来越被欢迎和接受,很容易假设 FAIR 的实施足以推动生命科学中的数据管理策略。例如,使用 FAIR 指标进行综合评估可以为提高罕见病登记的质量提供有价值的建议。但是,FAIR 原则仅在来源层面间接考虑数据质量,并满足整个数据集的社区标准。这些可能不足以衡量数据质量,尤其是在严格监管的环境中,例如制药公司向监管机构提交临床试验数据,或医院保存的电子医疗记录 (EHR)。因此,为重新利用来自 EHR 的临床数据而开发了质量评估的方法和维度也就不足为奇了。
如 Weiskopf 和 Weng 所述,EHR 的数据质量评估从分析 PubMed 中生物医学文献的相关摘要开始,以确定数据质量的维度和评估数据质量的常用方法。
数据质量的五个维度是:(i) 完整性;(ii) 正确性;(iii) 一致性;(iv) 合理性;(v) 通用性。与数据质量评估的七种方法相对应:(i) 黄金标准;(ii) 数据元素协议;(iii) 元素存在;(iv) 数据源协议;(v) 分布比较;(vi) 有效性检查;(vii) 日志审查。在(i)完整性和(ii)正确性这两个维度与(i)黄金标准、(iii)元素存在和(ii)数据元素一致的方法之间发现了这种映射的最有力证据(图3)
图 3 数据质量维度与数据质量评估方法的映射。左侧列出了维度,右侧列出了评估方法,均按频率从上到下的降序排列。连接维度和方法的边的权重表示该组合的相对频率。
相关工作协调了更多的数据质量术语,以设计一个更复杂的概念框架,用于定义 EHR 数据是否“适合”特定用途。该 DQA 框架包括三大类:(i) 符合指定标准或格式;(ii) 在不参考数据值的情况下评估数据集中数据属性频率的完整性;(iii) 数据值范围或分布的合理性。
这些类别中的每一个都包括以下七个子类别:(ia) 价值一致性;(ib) 关系一致性;(ic) 计算一致性;(ii) 完整性;(iiia) 独特的合理性;(iiib) 非时间合理性;(iii) 时间上的合理性。所有这些都适用于元数据元素和数据值,但计算一致性除外,它仅适用于数据值。对心力衰竭研究指南的审查推动确定了六类常用且具有临床意义的表型数据元素:(i)人口统计;(ii) 身体检查或基线观察;(iii) 诊断测试;(iv) 患者病史;(v) 临床诊断或表现;(vi) 药物。这些使数据元素的清单框架的组装成为可能,由六类表型组织。这是一个将 DQA 框架应用于心力衰竭研究的示例。
DQA 检查可以扩展为将完整性分为时间和非时间。对众多国家临床数据共享组织(CESR、OHDSI、Sentinel、PEDSnet、PHIS和 MURDOCH)进行比较,其中每个组织都映射到统一 DQA 术语的类别,揭示了 DQA 覆盖范围分布的差异。DQ 检查中的这种差异可以用 DQ 成熟度实施中的三个成熟度级别来描述。级别 1 是初始成熟度,定义为没有正式的 DQA 计划;级别 2是可重复的和定义的 DQA;级别 3是得到管理和优化的 DQA。这三个级别的 DQA 成熟度反映了不同类型的国家临床数据组织支持的资源和质量保证承诺。
Bian 和同事最近对三篇文献综述、20 个 DQA 框架和 226 个 DQA 研究的分析确认完整性、一致性、合理性和正确性是最常见的数据质量评估维度,而元素存在、数据源一致性和有效性检查是最常见的评估方法。14 个 DQA 维度和 10 个 DQA 方法用于评估国家以患者为中心的临床研究网络 (PCORnet) 部署的 DQA 检查。DQA 维度的数据检查数量最多(括号中的数量):通用性 (9)、合理性 (13)、完整性 (21) 和一致性 (14)。相比之下,DQ 评估方法数量最多的是:元素存在 (25)、有效性检查 (11)、一致性检查 (11) 和分布比较 (7)。这是 DQA 应用到 PCORnet 的另一个具体示例。
DQA 框架方法可以应用于其他类型的临床数据,例如在临床试验注册、健康声明数据库和健康信息交换中发现的数据。这种方法也可以通过汇编相关的统一术语(例如,来自现有词汇、本体或自然语言处理)作为确定数据质量和评估方法最相关维度的起点,从而更广泛地应用,其中许多是可能在临床领域内共享。有文献已经报道了一种基于规则的医疗保健数据数据质量方法,适用于 6000 多个数据质量规则的可扩展框架,事实证明,它可以扩展到超过 60 000 条规则。
FAIR 化与临床数据质量评估相结合
如上所述,FAIR使更好的数据管理实践能够为人类和机器大规模消费数据获得更大的价值。不幸的是,临床试验数据集的传统管理往往会产生无法访问的孤岛,这使得人们难以发现相关的数据,也难以获得访问权,而且它们的价值往往会迅速下降。此外,目前在临床数据生成、存储和格式方面的限制,限制了为评估药物相互作用、疗效和安全性而增加可能的相关信息(如有关人群、遗传学、农业实践、实验数据和参与者的饮食/营养信息)的能力。使此类临床数据 FAIR化将在未来增加其再次利用。
然而,尽管使临床数据FAIR化可能会释放出更多的价值,但这很可能是不够的,因为数据的质量只是通过未指明的出处和社区标准间接解决。质量评估对于提交给监管机构以证明新疗法的有效性和安全性的临床试验和医疗保健数据至关重要。因此,发现临床数据的质量评估,尤其是EHR中的数据,如上一节所述已经成熟,这并不令人惊讶。在此,我们认为,将FAIR数据指标(成熟度指标)和数据质量评估(FAIR Q)同时应用于临床试验和医疗卫生数据集,会产生更大的影响。在案例的指导下,FAIR Q评估的过程中,元数据的增强和高质量数据集的选择,可能会从临床数据中释放出最大的价值,同时满足监管部门提交的严格要求和医疗服务的重要决策。
另一种看待 FAIR Q 组合的方法是将 FAIR 数据转换视为由最佳科学实践驱动的“自下而上”方法。在此之上是数据质量评估,它非常适合“自上而下”的数据治理政策。数据管理方面的这些最佳实践层可能需要对统一基础设施进行投资,以在生物制药公司等大型企业中建立“以数据为中心”的文化。
推动生物制药业现代研发的数据运营,现在被视为一个统一的、集成的数据网(或结构),其目的是为企业中所有用户的分析引擎和需求提供支持。这给高级管理层,如首席数据官,提供了必要的理由来深入投资于技术基础设施、培训和必要的变革,以实施对以数据为中心的文化的有效管理,从而为企业推动生产力的发展。
结束语和未来方向
从管理良好、机器可读和高质量的大规模 FAIR 化数据和元数据中获取最大价值,对于提高数字医疗保健产品和服务的研发效率至关重要。在这种情况下,数据和元数据是支持和推动数字医疗保健的原材料。在这篇综述中,我们描述了生物制药公司最近实施 FAIR 的例子,这是通过他们自己的内部努力,并且通常得到知识服务和技术提供商的供应链的支持。
我们还描述了如何通过可以直接转移到临床试验的框架和方法来评估 EHR 的数据质量。这种方法可以更广泛地应用,连同 FAIR 作为一个统一过程实施,以从生物制药的研究和临床数据中获得最大价值。
FAIR Q 的统一流程预计将有利于数据消费方和数据服务提供商的生态系统,使生物制药能够作为以数据为中心的文化蓬勃发展,融合最佳技术并以更加可连接的方式扩展数据集。通过研讨会、培训、数据治理政策和强有力的文化价值观来支持员工的这一努力也是至关重要的,以便为新的生物医学疗法进行创新和提高生产力。
采用统一战略,在整个研究、开发、诊断和制造价值链中实施数据管理,将使生物医药受益。基于云的数据网状平台(而不是数据单体)也开始在受监管的金融领域强势崛起。我们预计,这种数据网状架构将成为以数据为中心的文化的一部分,为未来最成功的生物制药提供动力。
参考资料
Harrow I, Balakrishnan R, Kucuk McGinty H, Plasterer T, Romacker M. Maximizing data value for biopharma through FAIR and quality implementation: FAIR plus Q. Drug Discov Today. 2022 Jan 20:S1359-6446(22)00024-1. doi: 10.1016/j.drudis.2022.01.006.
--------- End ---------