Nature Review Chemistry | 化学的未来在于语言

编译 | 曾全晨审稿 | 王建民

今天为大家介绍的是来自Andrew D. White发表的一篇讨论语言模型应用的论文。诸如GPT-4这样的大型语言模型在许多专业领域中已经接近人类水平的能力。GPT-4可以仅通过英文指令在化学领域完成复杂任务，这可能会改变化学的未来。

大型语言模型（LLMs）可以从输入序列预测输出序列。与任何机器学习模型一样，LLMs经过大量数据集的经验拟合，通常是互联网的大型子集。虽然最初用于自然语言处理任务，如将英语翻译成法语，现在它们也可以用于图像中对象的识别、蛋白质结构的预测和反应产率的估计，并且它们是ChatGPT背后的关键技术。GPT-4的发布重新引起了人们对LLMs在化学中的应用的兴趣。作者一会在使用GPT-4，并认为它们代表了化学领域的未来，但并非通过取代现有的计算或实验方法。相反，LLMs将改变我们连接数据、计算机程序和科学文献的方式，以及我们进行实验计划的方式。

图 1

与化学中的任何新兴理念一样，我们需要时间来看LLMs将在哪些领域发挥作用。它们已经广泛应用于大多数现代反应合成规划工具，并开始在解释分子性质方面发挥作用。但LLMs接下来可能走向何方呢？作者相信LLMs即将成为化学中的每一个工具的基石。类似于互联网的创建，它是一种基础技术，将加快化学家学习和使用计算工具的速度。就像难以预测互联网的影响一样，今天很难看到这一点，但LLMs正迅速证明其在许多不同领域中都非常有用，因为我们已经围绕自然语言构建了大量的软件、数据和科学。LLMs可以回答问题、总结文本、在文件之间改变格式、学习使用程序以及规划和执行多步计划。LLMs还可以用于“语义”搜索——根据含义而不是准确匹配单词来搜索信息。例如，LLMs可以学习一篇或多篇论文，并根据这些具体信息回答问题。这意味着您可以让LLM阅读一个1,000页的法规PDF，并向其询问有关内容的技术问题。在提供正确工具的情况下，它甚至会注明其来源，如图1所示。即使对科学没有直接影响，LLMs也可以根据自然语言编写电子邮件、总结会议、从转录中创建行动项和查询数据库。

这些功能在化学领域特别有价值。LLMs可以充当一个解释器，将黑盒模型的预测转化为自然语言解释。我们还可以使用LLMs来生成IUPAC命名，甚至是通用名称，作为分子预测任务的输入。您可以问：“2-乙酰氧基苯甲酸的溶解度是多少？”然后得到一个数值上正确的答案。LLMs还可以编写计算化学代码，降低编写密度泛函理论（DFT）输入文件或分析蛋白质结构的门槛。这消除了通过阅读文档来学习新的软件库或应用程序的需要；用户只需与LLM进行对话即可编写代码。

值得注意的是，LLMs并非取代DFT或代替您寻找最佳催化剂做出的努力。LLMs是用来包装方法的输入和输出，以便语言成为人与工具之间信息交流的媒介。LLMs甚至可以应对自身的错误，例如读取错误消息或用户告诉它修复错误。想象一下，如果我们的所有工具、数据和结果都可以轻松互操作，不是因为某种普遍标准，而是通过自然语言。人类已经不断改进自然语言，以反映我们与环境和工具的互动方式。类似地，我们已经围绕化学塑造了自然语言。现在，由于LLMs的存在，使用自然语言进行双向对话将改善化学工具的输入和输出。

Haullucination问题是LLMs面临的一个关键挑战之一。ChatGPT和类似模型似乎会捏造事实、函数或引文,这反映出回答问题的时间限制短，几乎没有外部资源的访问的问题。一个解决方案是让LLMs能够访问互联网、维基百科或经过策划的文档集合（例如您的研究小组的Slack历史记录），这有助于让LLMs将答案基于证据。另一个策略是简单地告诉LLMs放慢速度并展示它们的推理过程——所谓的思维链。阅读和撰写关于如何更好地向AI提问的研究论文是一种奇特的感觉，这是一种称为提示工程的新的研究领域。

超连接工具是LLMs的下一步发展。许多之前看起来像是需要几年时间才能完成的前沿领域，现在突然变得更具可行性。例如，解锁历史化学数据——通常被锁在表格或图像中——可能很快可以通过LLMs在化学领域获得访问。当我们让LLMs访问计算机程序时，我们也看到了一些新兴的行为，正如在GPT-4发布信息中所展示的那样，可以设计出新颖的化合物。

我们如何适应并利用LLMs呢？是时候重新思考我们的工具和实验了。我们并不需要更好的文件格式、输入数据的新接口、更好的模式或更多关于专业工具的训练。相反，我们可以开始使用富有表达力的自然语言，让LLMs帮助我们将意图与化学工具之间的鸿沟缩小。同时，LLMs以惊人的速度不断改进，可能会出现新的能力，进一步提高我们在化学技术互动中的便利性。在进入化学的这个新阶段，清晰的自然语言沟通将成为最有价值的技术技能。

参考资料

White, A.D. The future of chemistry is language. Nat Rev Chem (2023).

https://doi.org/10.1038/s41570-023-00502-0

工具互联网论文模型数据

0 人点赞