编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Andrew D. White发表的一篇讨论语言模型应用的论文。诸如GPT-4这样的大型语言模型在许多专业领域中已经接近人类水平的能力。GPT-4可以仅通过英文指令在化学领域完成复杂任务,这可能会改变化学的未来。
大型语言模型(LLMs)可以从输入序列预测输出序列。与任何机器学习模型一样,LLMs经过大量数据集的经验拟合,通常是互联网的大型子集。虽然最初用于自然语言处理任务,如将英语翻译成法语,现在它们也可以用于图像中对象的识别、蛋白质结构的预测和反应产率的估计,并且它们是ChatGPT背后的关键技术。GPT-4的发布重新引起了人们对LLMs在化学中的应用的兴趣。作者一会在使用GPT-4,并认为它们代表了化学领域的未来,但并非通过取代现有的计算或实验方法。相反,LLMs将改变我们连接数据、计算机程序和科学文献的方式,以及我们进行实验计划的方式。
图 1
与化学中的任何新兴理念一样,我们需要时间来看LLMs将在哪些领域发挥作用。它们已经广泛应用于大多数现代反应合成规划工具,并开始在解释分子性质方面发挥作用。但LLMs接下来可能走向何方呢?作者相信LLMs即将成为化学中的每一个工具的基石。类似于互联网的创建,它是一种基础技术,将加快化学家学习和使用计算工具的速度。就像难以预测互联网的影响一样,今天很难看到这一点,但LLMs正迅速证明其在许多不同领域中都非常有用,因为我们已经围绕自然语言构建了大量的软件、数据和科学。LLMs可以回答问题、总结文本、在文件之间改变格式、学习使用程序以及规划和执行多步计划。LLMs还可以用于“语义”搜索——根据含义而不是准确匹配单词来搜索信息。例如,LLMs可以学习一篇或多篇论文,并根据这些具体信息回答问题。这意味着您可以让LLM阅读一个1,000页的法规PDF,并向其询问有关内容的技术问题。在提供正确工具的情况下,它甚至会注明其来源,如图1所示。即使对科学没有直接影响,LLMs也可以根据自然语言编写电子邮件、总结会议、从转录中创建行动项和查询数据库。
这些功能在化学领域特别有价值。LLMs可以充当一个解释器,将黑盒模型的预测转化为自然语言解释。我们还可以使用LLMs来生成IUPAC命名,甚至是通用名称,作为分子预测任务的输入。您可以问:“2-乙酰氧基苯甲酸的溶解度是多少?”然后得到一个数值上正确的答案。LLMs还可以编写计算化学代码,降低编写密度泛函理论(DFT)输入文件或分析蛋白质结构的门槛。这消除了通过阅读文档来学习新的软件库或应用程序的需要;用户只需与LLM进行对话即可编写代码。
值得注意的是,LLMs并非取代DFT或代替您寻找最佳催化剂做出的努力。LLMs是用来包装方法的输入和输出,以便语言成为人与工具之间信息交流的媒介。LLMs甚至可以应对自身的错误,例如读取错误消息或用户告诉它修复错误。想象一下,如果我们的所有工具、数据和结果都可以轻松互操作,不是因为某种普遍标准,而是通过自然语言。人类已经不断改进自然语言,以反映我们与环境和工具的互动方式。类似地,我们已经围绕化学塑造了自然语言。现在,由于LLMs的存在,使用自然语言进行双向对话将改善化学工具的输入和输出。
Haullucination问题是LLMs面临的一个关键挑战之一。ChatGPT和类似模型似乎会捏造事实、函数或引文,这反映出回答问题的时间限制短,几乎没有外部资源的访问的问题。一个解决方案是让LLMs能够访问互联网、维基百科或经过策划的文档集合(例如您的研究小组的Slack历史记录),这有助于让LLMs将答案基于证据。另一个策略是简单地告诉LLMs放慢速度并展示它们的推理过程——所谓的思维链。阅读和撰写关于如何更好地向AI提问的研究论文是一种奇特的感觉,这是一种称为提示工程的新的研究领域。
超连接工具是LLMs的下一步发展。许多之前看起来像是需要几年时间才能完成的前沿领域,现在突然变得更具可行性。例如,解锁历史化学数据——通常被锁在表格或图像中——可能很快可以通过LLMs在化学领域获得访问。当我们让LLMs访问计算机程序时,我们也看到了一些新兴的行为,正如在GPT-4发布信息中所展示的那样,可以设计出新颖的化合物。
我们如何适应并利用LLMs呢?是时候重新思考我们的工具和实验了。我们并不需要更好的文件格式、输入数据的新接口、更好的模式或更多关于专业工具的训练。相反,我们可以开始使用富有表达力的自然语言,让LLMs帮助我们将意图与化学工具之间的鸿沟缩小。同时,LLMs以惊人的速度不断改进,可能会出现新的能力,进一步提高我们在化学技术互动中的便利性。在进入化学的这个新阶段,清晰的自然语言沟通将成为最有价值的技术技能。
参考资料
White, A.D. The future of chemistry is language. Nat Rev Chem (2023).
https://doi.org/10.1038/s41570-023-00502-0