「麻省理工在Nature发表最新成果」!颠覆传统神经网络!19个神经元驾驶一辆车!

2022-12-06 15:33:24 浏览数 (1)

去年,麻省理工学院的研究人员宣布,他们已经建立了“液体”神经网络,灵感主要来自小型物种的大脑(文章连接在后面)。它是一种灵活、健壮的机器学习模型,它能够在工作中学习适应不断变化的条件,可以应用于安全且关键的场景,如驾驶和飞行。这些“液体”神经网络的灵活性意味着增强我们与世界之间的连接,可以为时间序列相关的任务提供更好的决策,如大脑/心脏监测、天气预报和股票定价等。

但随着神经元和突触数量的增加,这些模型的计算成本变得非常昂贵,并且需要笨重的计算机程序来解决其潜在的复杂数学问题。所有这些数问题学,类似于许多物理现象,随着模型规模的增长将变得更难解决,这意味着需要计算很多小步骤才能得出解决方案。

现在,同一组科学家发现了解决这一瓶颈的方法,即「通过突触求解两个神经元相互作用背后的微分方程,从而解锁一种新型快速高效的人工智能算法」。这些模式具有与液体神经网络相同的特征——灵活、因果性、鲁棒性和可解释性——但速度要快几个数量级,而且可扩展。因此,这种类型的神经网络可以用于任何需要长期洞察数据的任务,因为它们即使在训练之后也很紧凑且适应性强——而许多传统模型是固定的。

这些模型被称为“封闭式连续时间”(closed-form continuous-time:CfC)神经网络,在一系列任务中优于最先进的同类模型,在从运动传感器识别人类活动、物理建模模拟步行机器人的动力学和基于事件的时序图像处理。例如,「在一项医学预测任务中,新模型对8,000名患者的抽样速度提高了220倍」

一篇关于这项工作的新论文今天发表在 Nature Machine Intelligence 上,「文章连接在最后」

麻省理工学院计算机科学和人工智能实验室(CSAIL)主任、这篇新论文的资深作者Daniela Rus教授说:“「我们称之为‘CfC’的新机器学习模型,用一个封闭的近似形式取代了定义神经元计算的微分方程,保留了液体网络的优秀属性,而不需要数值积分」。”“CfC模型是因果的、紧凑的、可解释的,训练和预测是有效的。它们为安全关键应用打开了可信赖的机器学习之路。”

保持流动性

微分方程使我们能够计算世界的状态或一种现象的演变,但不是整个时间的全部——只是一步一步的。为了建模自然现象,了解过去和未来的行为,比如人类活动识别或机器人的路径,该团队从一堆数学技巧找到了答案:一个“封闭形式”的解决方案,在一个单一的计算步骤中建模整个系统的描述。

根据他们的模型,「人们可以在未来的任何时候计算这个方程,也可以在过去的任何时候计算这个方程。不仅如此,计算速度也快得多因为你不需要一步一步地解微分方程」

想象一下,一个端到端神经网络可以从安装在汽车上的摄像头接收驾驶信息。这个网络经过训练,可以产生输出,比如汽车的转向角度。2020年,该团队通过使用19个节点的液体神经网络解决了这一问题,因此19个神经元加上一个小型感知模块可以驾驶一辆汽车。微分方程描述了系统的每个节点。对于封闭形式的解,如果你把它替换到这个网络中,它会给出精确的行为,因为它很好地近似了系统的实际动力学。因此,他们可以用更少的神经元数量来解决这个问题,这意味着它将更快,计算成本更低。

这些模型可以接收时间序列(时间中发生的事件)的输入,「可用于分类、控制汽车、移动人形机器人或预测金融和医疗事件」。使用所有这些不同的模式,它还可以提高准确性、鲁棒性和性能,重要的是,还可以提高计算速度——这有时是一种权衡。

解决这个方程对推进自然和人工智能系统的研究都有深远的意义。麻省理工学院新论文的第一作者说:“当我们对神经元和突触的通信有了一个封闭的描述时,我们就可以建立具有数十亿细胞的大脑计算模型,由于神经科学模型的高度计算复杂性,这一能力在今天是不可能实现的。封闭形式的方程可以促进这种大层次的模拟,这为我们理解AI打开了新的研究途径。”

嵌入式应用

此外,早期的证据表明,Liquid CfC模型可以在一个环境中从视觉输入学习任务,并将它们学到的技能转移到一个全新的环境中,而无需额外的训练。这就是所谓的分布外泛化,这是人工智能研究中最基本的开放挑战之一。

“基于微分方程的神经网络系统很难求解,也很难扩展到数百万和数十亿个参数。获得神经元如何相互作用的描述,不仅仅是阈值,而是解决细胞之间的物理动力学,能够让我们建立更大规模的神经网络,”哈萨尼说。“「这个框架可以帮助解决更复杂的机器学习任务——实现更好的表示学习——并且应该成为任何未来嵌入式智能系统的基本构建块」。”

“最近的神经网络架构,例如神经 ODE 和液体神经网络,具有由代表无限潜在状态的特定动态系统组成的隐藏层,而不是显式堆叠的层,”Aurora Flight Sciences 的人工智能和机器学习小组负责人Sildomar Monteiro说, “这些隐式定义的模型展示了最先进的性能,同时比传统架构需要的参数少得多。其中传统网络架构由于训练和推理需要的高额计算成本,它们在实际应用受到了很大的限制。”他补充说,这篇论文“表明这类神经网络的计算效率有了显着提高,有可能实现与安全关键型商业和国防系统相关的更广泛的实际应用。”

相关论文

Paper:https://www.nature.com/articles/s42256-022-00556-7

Code:https://arxiv.org/pdf/2006.04439.pdf

0 人点赞