编译 | 王建民
导读
现代有机化学的大多数实验都需要事先用文献中的程序来制备反应物。将最常见的此类程序自动化可以为研究界节省大量的时间,同时也有利于众包的优化。Rohrbach等人将100多个流行的协议翻译成可在合成机器上执行的格式,然后他们对其中的一半进行了实验验证。作者还建立了一个开放的数据库,新的可执行协议可以被添加到其中。
——JSY
尽管潜力巨大,但合成化学的自动化在过去几十年中才取得了渐进式的进步。研究人员提供了一个包含 100 个分子的自动可执行化学反应数据库,这些分子代表了当代有机合成中发现的反应范围。这些反应包括过渡金属催化的偶联反应、杂环形成、官能团相互转化和多组分反应。反应的化学反应代码或 χDLs 已存储在数据库中,用于版本控制、验证、协作和数据挖掘。这些合成中,已下载数据库中的 50 多个条目,并在七个模块化 ChemPU 中自动运行,其产率和纯度与专业化学家所达到的相当。
要复现一个已知的化学反应,必须从文献或数据库中获得协议,这样才能在实验室中手动运行它。然而,并不是所有的文献或数据库条目都能被轻易复现。这不仅是合成新分子的障碍,也是为机器学习积累高质量数据的障碍,而且由于没有公开的程序编码标准,也没有广泛报告和纠正失败实验的方法,这就更加严重了。一个能够明确捕捉和编码化学合成协议的方法,供一个自动化系统使用,并具有类似于软件的版本控制能力和记录失败的实验,将改变这个领域。目前,有机合成需要密集的、高度熟练的劳动力,一个典型的合成可能需要多个复杂的单元操作,这些操作很难明确编码。这是因为所需的隐性知识往往取决于上下文,导致发表的文献中存在模糊不清的地方,限制了可重复性、自动化或数据挖掘。这些限制在一些特定领域已经被克服,如寡肽、寡糖和寡核苷酸化学,近年来在更广泛的化学反应自动化方面也取得了很大进展。然而,大多数自动化合成化学平台仍然是针对特定任务的,或者是代表手工工作流程中的自动化岛屿,但即使这些平台也有定制的指令集,它们之间或与文献之间没有简单的语义联系。为了充分挖掘化学合成中自动化的潜力,确保程序的可重复性,需要在两个方面取得进展。首先,需要一个真正通用的自动化平台,可以执行所有的单元操作;其次,一个标准化的、精确的语法来描述这些化学过程,对于可靠地捕捉特定化学过程的所有关键细节至关重要。这样的代码也必须独立于自动化所采用的硬件类型,从而被编译成可以在任何兼容的硬件系统上完美地工作。
研究人员开发了一个工作流程的设计、构建和验证,该流程允许将化学合成文献从手工操作捕捉到完全描述的通用化学描述语言(χDL),并在化学处理单元或ChemPU中自动运行。在ChemPU上运行χDL的过程称之为chemputation(类似于计算),是将代码和试剂可靠地转换为产品。研究人员不仅展示了χDL可以被编译到许多不同的ChemPU配置上运行,而且还展示了χDL语言编码各种合成程序的能力,这些合成程序是有机化学工具箱的代表。总的来说,103个不同的化学反应已经从文献中转化为可靠的χDL代码,其中53个程序已经在硬件上得到验证,其产率和纯度与文献中的相当。这种合成产量的提高在早期版本的ChemPU中是不可能的,因为它不能使用χDL。这也标志着与χDL的原始论文相比,经过验证的χDL程序的数量有了很大的提高,也证明了本文所采用的硬件的可靠性提高了。研究人员为目前的103个条目设计并建立了一个名为Chemify的χDL数据库,预计这个数据库将迅速扩大;任何人都可以在合适的硬件上运行和验证该数据库。这些χDL词条不仅可以在其他自动合成平台上实现,而且可以根据需要生成材料,还可以收集统计数据,并在需要时提出新版本。除了直接重复验证过的程序外,每个χDL的底物范围可以通过改变底物和调整反应的关键参数--如温度或时间--而保持工艺的其他部分不变来逐步扩大。由于我们是根据流行程度来选择反应的,因此所产生的一套经过验证的χDL涵盖了大量的常见反应,构成了整个有机合成工具箱自动化的一个入口。此外,通过执行53个高度多样化的化学程序,ChemPU的硬件和软件被推向了极限,并展示了通向完全通用性的道路。为此,在硬件库中加入了一个支持χDL的闪蒸柱色谱系统,取得了关键的进展。这意味着ChemPU不仅可以进行反应、加工和浓缩,还可以对产物进行色谱分离,直接按要求提供纯化的化合物。为了实现这一目标,研究人员表明该平台可以以动态的方式做出反应,对产品的检测做出反应,收集适当的馏分。
图1说明了从文献程序到研究人员的Chemify数据库中的验证条目的工作流程。与早期的χDL工作相比,研究人员的重点不是将原始程序文本准确地翻译成χDL,而是实现一个提供目标分子的化学过程。遵循这种方法,不仅可以重现文献,而且还可以在一些情况下改进过程。化学反应可以在χDL中得到体现,它将合成步骤表现为物理过程的序列,如添加、溶解、蒸发等。χDL框架内目前有44个步骤,每个步骤都有一套完全可定制的参数。所有有机合成中常用的任务都有一个模板式的χDL步骤来表示,如EvacuateAndRefill用来建立惰性气氛,Separate用来进行液-液分离和提取。χDL步骤有助于对过程进行精确的描述,并消除任何含糊不清的地方,如排空和惰性气体再填充的周期数或过程关键的添加速度。为了实现这一目标,研究人员使用了基于网络的化学开发环境(ChemIDE),通过提供文本到χDL的翻译工具,帮助快速生成χDL程序。它通过使用一个包含所有可用χDL步骤的模板库和一个编辑器来工作,其中各个χDL步骤被表示为图形元素,可以根据需要进行编辑和安排。ChemIDE被用于生成本工作中详述的所有χDL程序。
用χDL表达一个化学过程并不能立即解决原始文献说明中存在的信息缺失或含糊不清的问题,但它确实提供了一个明确的途径来关闭它。要做到这一点,可能仍然需要一些工艺开发和迭代,以使产量和纯度最大化。在对来自ChemPU执行χDL代码的目标化合物进行适当的分析[NMR、LC-MS或GS-MS后,对产品的质量和纯度做出评估。如有必要,对χDL进行改进,以提高产率和纯度,然后再次执行。χDL的主要优点是,一旦一个成功的工艺被编码,所有后来的用户在兼容的硬件上执行该代码,都可以得到相同的结果,而不需要再进行工艺开发。在合格的硬件上执行流程所需的所有关键知识,包括有形的和无形的,现在都在χDL中了。在这个阶段,该协议可以作为一个经过验证的工艺添加到数据库中,并由目标产品的全部特征和工艺开发历史作支持。包含工艺发展历史是Chemify数据库的一个突出特点;通过显示不太成功的实验结果,并与最终的成功运行进行对比,工艺的关键方面被突出,并可以被量化。
Chemify数据库持久地保存了χDL程序、实验结果和相关分析的信息。它是一个本地托管的PostgreSQL数据库服务器,包含上述所有经过验证的χDL脚本,可以通过ChemIDE(基于网络的χDL开发环境)或使用基于Python 3的API进行自动数据库查询来访问。此外,为了满足终端用户的体验,ChemIDE配备了显示每个实验的特征参数,如产品规模、产率、状态(翻译、验证、失败)和过程持续时间。用户可以提交、搜索、下载和复制可信的合成。该数据库包含最终验证的合成脚本以及以前的开发版本,这些脚本可能在不同程度上起作用,提供的所需产品产量较低,纯度不足,或者由于对自动化的必要工艺参数描述不足或不正确而导致工艺失败。将失败的或产量较低的实验与某一特定反应或反应类别的成功尝试进行比较,可以揭示出工艺的关键方面。此外,数据库还包含已经翻译过但尚未在合适的自动化平台上执行的χDL条目。对未验证的χDL文件感兴趣的用户可以访问这些文件,并可以选择验证它们。这里报告的χDL程序已经在ChemPU上进行了验证,ChemPU是一个化学自动化平台,模拟台式化学家的手工操作。虽然操作上简单直观,但严格的实施意味着该平台作为一个有限状态机运行(图2)。它可以处于有限数量的状态之一,并根据明确定义的操作从一个状态过渡到另一个状态。这些操作由程序--χDL合成协议--以及传感器反馈[如温度、电导率、压力或紫外线(UV)吸收率]定义。χDL合成指令与状态转换或 "单元操作 "的直接映射,突出了χDL合成过程的严格抽象性。此外,χDL程序中对状态转换的明确定义对于确保χDL合成的可重复性至关重要,包括在ChemPU的不同布局和可能完全不同的合格硬件设置上。
ChemPU状态机由三个逻辑部分组成:物理输入或输出(I/O)、数字I/O和处理单元。处理单元可以根据ChemPU的初始条件或物理和数字I/O的组合,即由传感器定义的当前条件、过程变量和正在执行的χDL步骤,在几种状态中转换。根据调度器,χDL步骤的执行会产生一个新的状态,在以后的步骤中采取行动,并导致物理I/O的物理变化,例如,试剂位置的变化、温度的变化、液-液分离中的相界,或色谱过程中的洗脱峰。调度器求助于硬件的图形表示来解释χDL脚本并协调硬件的协同任务。抽象层定义了作为节点的硬件设备的位置和连接,并包含每个节点的具体信息,如有关设备的IP地址和温度限制。图文件连同χDL文件可以编译成一个执行文件,该文件是针对平台的。将化学过程的描述严格分离到χDL文件中,将硬件平台的描述严格分离到图形文件中,可以确保χDL文件保持与平台无关。这也使得平台的设计方式和具体的物理布局具有灵活性。这意味着每个χDL都可以被版本化和编译以在任何合适的平台上运行,而且ChemPU系统具有高度的模块化、灵活性和可扩展性(图3)。
通过反映批量合成化学的单元操作,ChemPU代表了一个通用的、可编程的硬件平台,用于执行之前展示的合成化学。由于该平台的模块化性质,它可以随时扩展,各个模块通过液体处理主干网连接,类似于传统计算机的总线。与液体处理主干网(由泵和阀门组成)的连接是通过单片柔性管进行的,这使得模块可以很容易地被拆卸下来进行维护或重新安排以优化操作。液体处理主干由一系列注射器泵和阀门组成。一个典型的主干系统由六台组成;然而,主干系统可以随时收缩或扩展,以适应所需化学过程的要求。阀门有六个位置,每个有七个端口。液体处理主干网中的每个阀门都与一个泵、其最近的相邻阀门和一个废物容器相连,并且可以与三到四个不同的试剂、溶剂或硬件模块相连。各个模块与主干网的连接以抽象的方式用上述图形来表示。主干网的清洁是通过自动清洁程序进行的,该程序可由用户定义,以说明不同程序后存在的不同类型的污染。除了液体处理主干,用于执行此处报告的合成的ChemPU系统还包括一个反应模块,由一个通过以太网-串行转换器控制的标准热板、一个用于液-液萃取的分离器,配备了一个用于搅拌的顶置搅拌器,以及一个用于相界检测的电导率传感器;它还包括一个用于产品沉淀和重结晶的夹套过滤器、一些试剂瓶、一个旋转蒸发器,以及一个可选的色谱系统。
ChemPU的文献程序进行验证
通过chemputation的抽象,χDL语言和ChemPU平台,研究人员着手翻译有机化学工具箱中的典型反应并使之自动化。有机化学包含了种类繁多的转化过程。尽管种类繁多,但大多数反应都可以用少于10个类别进行简明的分类。一些研究已经分析了不同领域的反应频率,如药物化学、工艺化学和全合成。在合成中使用的反应类别的分布有一些明显的差异,这取决于主要目标;例如,药物化学研究人员可能更喜欢过渡金属催化的C-C键形成反应,这可以方便地产生大量的相关化合物用于生物检测,而现代全合成更依赖于精心设计的成环反应,以尽可能少的步骤组装复杂的分子骨架。
此外,尽管保护基化学是某些合成领域的基石,如多肽合成或碳水化合物化学,但从事全合成的研究人员往往喜欢更优雅的无保护基方法。尽管有微小的差异,这些类别体现了现代有机化学的各种工具箱。为了用所有类型的反应的例子来表示这些类别,研究人员选择了翻译这些程序的χDLs,并用ChemPU进行验证(图4)。碳-碳键形成反应类别被进一步分为过渡金属催化反应和无过渡金属反应。此外,还引入了一个单独的多组分反应类别,因为这些反应通常在一次合成操作中完成多种化学转化。最初的反应是从《有机合成》杂志中被引用最多的论文中选出的。这本杂志在有机化学领域很有名,因为它发表了一些实用的方法,用于合成著名的化合物或执行重要的合成方法,而且提交的程序至少被独立于提交原始合成方法的化学专家重复过一次。尽管该杂志的程序一般都有很高的详细程度,但仍需要进行一些程序开发,这突出说明了用非结构化的散文格式捕捉所有必要信息的难度,而不是χDL。从《有机合成》中选择这些高引用率的论文涵盖了最主要的反应类别,但分布不均。因此,研究人员从著名的文献来源中手动选择了更多的例子,以使数据集对有机化学工具箱有更均衡的表述。
ChemPU上各种反应的自动化
该系统对湿气敏感或高活性的试剂具有耐受性,如铜介导的氨基甲酸酯的炔化反应中使用的双酰胺钾(KHMDS),甾体雌酮的Friedel-Crafts烷基化反应中使用的三氟化硼,或Fischer吲哚合成6中使用的Eaton试剂。此外,需要惰性气氛的反应也在该平台上成功执行,包括在钯催化下进行对映选择性卡罗尔重排。ChemPU平台上有效地执行了高达90毫摩尔规模的程序。方便的是,一旦产生了χDL脚本,一个特定的反应可以在可用的容器尺寸和化学过程的限制下放大或缩小。该平台上还成功执行了生成多组分和级联反应产生的更复杂产品的χDL程序。
扩大基底范围
通过使用ChemPU生成化合物库,可以扩大验证过的χDL程序的底物范围。一个特别有吸引力的前景是利用经过验证的χDL程序来构建用于生物筛选的大型化合物库。这样的化合物库可以很方便地通过改变起始材料来获得,而不需要对合成脚本进行重大修改;也就是说,一旦建立了一个程序,它就可以作为一个一般程序应用于许多不同的底物,只需要改变关键参数,如底物、反应溶剂和反应时间。为了做到这一点,研究人员在ChemPU上同时执行多个或 "多线程 "反应,使用来自两个不同的异氰酸酯和两个醛的反应物组合,得到四个结构相关的α-氨基酰胺产品。进一步扩大所使用的反应物集将迅速扩大生成的产品数量,并允许迅速生成更大的库。
ChemPU合成的可重复性
为了检查执行策划的χDL程序的一致性和可靠性,研究人员着手在ChemPU平台上多次重复相同的反应方案。丙二酸酯的烷基化被选为可重复性研究的合适反应,因为准确的温度控制和添加速率是该过程成功的关键。在最初的工艺开发后,获得了经过验证的χDL程序脚本,并在12次尝试运行中成功复制了10次反应协议。两次失败是由于在液-液分离过程中相界测定不正确造成的;产品本可以通过手动重启系统来恢复,但这里没有这样做。最重要的是,经过策划的χDL程序可靠地提供了产品,其产率和纯度都很一致。加上生成化合物库的能力,ChemPU可用于自动生成同一材料的多个批次或在初始协议建立后用不同底物重复同一反应的高度重复性工作。
ChemPU上进行全自动纯化
对反应中的产物化合物进行色谱分离是中小型有机合成的首选纯化方法。许多市售的色谱系统可以帮助实验室的化学家进行色谱分离。然而,这些系统仍然需要大量的用户互动。例如,粗制材料必须手工装入色谱柱,产品馏分必须手工识别,从馏分瓶中洗出,然后合并。此外,这些商业系统需要用户在几个不同的阶段进行互动,从而将化学家与实验室捆绑在一起,即使只是把样品装到柱子上这样的琐碎任务。为了将Buchi Pure C-815色谱系统与ChemPU整合在一起,研究人员建造了两个辅助硬件单元:一个允许在系统上预装不同色谱柱的色谱柱转盘和一个馏分托盘的扩展。后者允许ChemPU回收产品馏分。第一个具有挑战性的自动化操作是将样品加载到柱子上。基于实验室的化学家通常会在干式装载和液体注入样品之间做出选择。研究人员的目标是实施液体注射法,这与ChemPU的液体处理主干很好地结合在一起;此外,液体注射的样品装载方法需要很少的过程开发,只需要确定一个合适的溶剂混合物和体积来溶解粗制材料。正相色谱全自动化的第二个挑战是如何可靠地选择产品峰。通常情况下,化学家需要在色谱分离后通过薄层色谱、质谱或核磁共振分析各个馏分。对于ChemPU集成的模块,我们考虑了几个备选方案。我们发现,考虑洗脱馏分的紫外/可见光反应或弹性光散射检测器的信号,并在指定的信号轨迹下选择具有最大曲线下面积的峰,是可靠性和灵活性的最佳权衡;对于一个给定的性能良好的反应,可以正确识别产物峰,而不考虑确切的保留时间。此外,这种方法不依赖于更复杂的产物鉴定,如质谱或核磁共振。
然后ChemPU控制器进行峰值检测并触发色谱机的馏分收集机制。控制器还跟踪馏分瓶的填充水平和各种运行参数,如背压积聚、溶剂蒸汽水平、梯度溶剂和溶剂废液桶的溶剂水平。如果这些参数中的任何一个超过了规定的阈值,就会启动一个适当的错误处理程序,以可控的方式暂停色谱分离。当分离运行完成后,产品峰被识别并转移到下一个模块。粗制材料通常从旋转蒸发仪转移到色谱模块,然后将纯化的产品从色谱模块转移回旋转蒸发仪,因此旋转蒸发仪烧瓶需要在两者之间进行清洗。因此,已经实现了对纯化产品的目标容器的可选清洗程序,并且可以在色谱分离过程中进行。综合色谱分离法被用于三个反应。这些色谱分离的过程已经被χDL记录下来,以简明易懂的方式说明了每一个细微的关键细节。因此,在另一个ChemPU或同等的系统上,甚至用市面上的色谱机手动复制色谱分离是很容易的。
Outlook
研究人员已经展示了如何将化学合成文献轻松转换为通用的化学代码,可以在任何能够进行化学合成的机器人上运行;这方面的唯一要求是一个批量反应器、一个分离器、蒸发器和纯化系统。这意味着,潜在的许多不同的机器人方法将能够使用相同的χDL代码,产生相同的结果。χDL Chemify数据库的使用不仅有助于复制已发表的程序,而且还为社区提供了丰富的验证数据,可用于最先进的机器学习,以实现反应优化、合成路线规划、提高安全性和减少合成的环境影响,同时大大减少化学家重复著名程序的劳动。
参考资料
Authors:Simon Rohrbach; Mindaugas Siauciulis; Greig Chisholm; Petrisor-Alin Pirvan; Michael Saleeb; S. Hessam M. Mehr; Ekaterina Trushina; Artem I. Leonov; Graham Keenan; Aamir Khan; Alexander Hammer; Leroy Cronin
DOI:10.1126/science.abo0058