编译 | 禾木木
出品 | AI科技大本营
近年来对于 AI 语言模型的有一个争议就是 —— 越大越好。
DeepMind 正在质疑这个理由,并表示给 AI 一个记忆可以帮助与它 25倍大小的模型竞争。
去年 6 月,OpenAI 发布 GPT-3 模型时,就重写了语言 AI 的规则手册。该实验室的研究人员标明,简单地扩大神经网络的规模和训练数据可以显著提高各种语言任务的性能。
RETRO 模型
自 GPT-3 发布以后,许多其他科技公司也加入了这一潮流,开发了自己的大型语言模型并实现了类似的性能提升。但研究人员还是对这种方法提出了担忧,尤其是前谷歌研究员 Timnit Gebru。
在一份公司的文件中,Gebru 和他的同事强调说,这些模型及其数据集的庞大规模使他们比普通的神经网络更加难以理解,而这些神经网络以「黑匣子」而闻名。这可能会使检测和减轻这些模型中的偏差变得更加困难。
他们发现了一个更大的问题,依靠越来越多的计算能力在 AI 领域取得进展意味着该领域的尖端技术对于除了资源丰富的商业实验室外的所有人来说都是遥不可及的。扩大模型就可以带来持续的进步,也意味着有前景的替代方案的资源更少。
但在新的研究中,DeepMind 表明可能还有另一种方式。在一系列论文中,该团队解释了他们首先是如何构建自己的大型语言模型 Gopher,该模型比 GPT-3 大 60% 以上。然后,他们展示了一个更小的模型,该模型能够在数据库中查找信息,可以与Gopher和其他大型语言模型进行面对面的交流。
研究人员将这个较小的模型称为 RETRO,代表 Retrieval-Enhanced Transformer。Transformers 是大多数大型语言模型中使用的特定类型的神经网络;他们对大量数据进行训练,以预测如何回答人类用户的问题或提示。
RETRO 也依赖于变压器,但它被赋予了一个重要的增强。除了根据训练预测接下来应该出现什么文本外,该模型还可以搜索包含 2 万亿个文本块的数据库,以查找使用类似语言的段落,从而改进预测。
研究人员发现,只有 70 亿个参数的 RETRO 模型在各种语言任务上都可以胜过 AI21 Labs 制作的 1780 亿个参数的 Jurassic-1 转换器,甚至在大多数方面都优于 2800 亿个参数的 Gopher 模型。
除了减少所需的训练量外,研究人员还指出,能够查看模型在进行预测时参考了哪些文本块,可以更容易地解释它是如何得出结论的。对数据库的依赖也为更新模型知识提供了机会,无需重新训练,甚至无需修改语料库以消除偏差来源。
结语
有趣的是,研究人员表明,他们可以利用现有的变压器,通过重新训练其网络的一小部分,对其进行改造,使其能够与数据库一起工作。这些模型很容易超越原始模型,甚至接近从头开始训练的 RETRO 模型的性能。
不过,重要的是要记住,按照大多数标准,RETRO 仍然是一个大型模型。它几乎是 GPT-3 的前身 GPT-2 的五倍。人们似乎很可能希望看到更大的 RETRO 模型和更大的数据库有什么可能。
DeepMind 当然认为进一步扩展是一个很有前途的途径。在 Gopher 的论文中,他们发现虽然增加模型大小并没有显著提高逻辑推理和常识任务的性能,但在阅读理解和事实核查等方面的好处是显而易见的。
也许 RETRO 最重要的教训是,扩展模型并不是获得更好性能的唯一途径,甚至不是最快的途径。虽然规模确实很重要,但人工智能模型的创新也至关重要。
所以说,语言模型真的是越大越好吗?对此,你怎么看呢?
参考链接:
https://singularityhub.com/2021/12/20/biggers-not-always-better-deepminds-new-language-ai-is-small-but-mighty/