预测编码: 超越反向传播的深度学习?

2023-09-13 20:35:02 浏览数 (1)

paper:PREDICTIVE CODING: TOWARDS A FUTURE OF DEEP LEARNING BEYOND BACKPROPAGATION?

摘要:

用于训练深度神经网络的误差算法的反向传播是深度学习成功的基础。然而, 它需要顺序向后更新和非本地计算, 这使得大规模并行化具有挑战性, 并且与大脑中的学习方式不同。然而, 受神经科学启发的学习算法, 例如利用局部学习的预测编码, 有可能克服这些限制并超越当前的深度学习技术。虽然预测编码起源于理论神经科学, 作为皮层中信息处理的模型, 但最近的工作已将这一想法发展成为一种通用算法, 能够仅使用本地计算来训练神经网络。在本次调查中, 我们回顾了对这一观点做出贡献的工作, 并展示了预测编码和反向传播之间的密切理论联系, 以及强调使用预测编码模型相对于反向传播训练的神经网络的多重优势的工作。具体来说, 我们展示了预测编码网络相对于等效深度神经网络的更大灵活性, 它可以同时充当分类器、 生成器和关联存储器, 并且可以在任意图拓扑上定义。最后, 我们回顾了预测编码网络在机器学习分类任务上的直接基准, 以及它与机器人控制理论和应用的密切联系

1 简介

经典反向传播 (BP)(Rumelhart、 Hinton 和 Williams, 1986 年) 是 AI 和机器学习中用于训练深度神经网络的最成功的算法。然而, 最近, BP 的局限性使人们重新关注神经科学启发的学习。特别是, 通过 BP 训练的神经架构是否能够达到与人脑相当的智能、 认知灵活性和能量消耗水平, 目 前还不得而知。这可以使用依赖于本地可用信息的替代学习方法来解决, 就像大脑中的学习一样。具有极其有前途的特性的算法是预测编码 (PC), 这是一种具有局部更新的错误驱动学习算法

PC已成为计算神经科学中的一个有影响力的理论, 它具有作为变分推理的重要数学基础, 将其与规范理论紧密联系在一起⻉叶斯大脑 (Knill & Pouget, 2004), 它提供了一个单一的机制来解释许多不同的感知和神经生理学效应 (Auksztulewicz & Friston, 2016; Hohwy, Roepstorff, & Friston, 2008; Lotter, Kreiman, & Cox, 2016 ), 同时还假设了生物学上合理的神经动力学和突触更新规则。

PC 的基本思想是将大脑皮层视为对分层概率生成模型进行同步推理和学习, 该模型在无监督环境中进行训练以预测传入的感官信号(Clark, 2015 年; K. Friston, 2005 年; Rao 和 Ballard, 1999).在这样的架构中, 在层次结构的每一层, 自 上而下来自较高层的预测与来自 较低层的传入感官数据或预测错误相匹配并抵消。感官数据的无法解释的方面, 以预测误差的形式, 然后向上传输以供层次结构的更高层进行解释。仅错误信息的传输在信息论中具有坚实的基础, 在已知信息源模型的情况下, 这是一种最大化每比特信息传输的方法(Bradbury, 2000; Spratling, 2017), 这是大脑的一个重要考虑因素, 通过进化进行大量优化以满足对能源使用和电线长度的严格限制, 因此必须传输和处理尽可能少的信息(Barlow, 2001)。

从历史上看, PC 最初是针对视网膜提出的(Srinivasan 等人, 1982 年), 其中神经回路已经减去了视觉刺激中的大部分冗余信息。 Rao 和 Ballard (1999)随后将相同的原理用作皮层处理的一般模型, 他们表明该模型可以复制早期视觉皮层中神经元的几种众所周知的反应。 K. Friston (2003) 和 K. Friston (2005) 提出了执行变分推理的算法的数学解释。

PC 还与理论神经科学中更普遍的自 由能原理密切相关(K. Friston、 Kilner 和Harrison, 2006 年), 该原理指出大脑的基本驱动力是通过感知(推理) 最小化变分自 由能和学习) 和行动。假设高斯生成模型并执行推理和学习, PC 网络 (PCN) 可以作为自 由能原理的特例(“过程理论”) 导出。

PC 在机器人技术中的应用及其与经典控制理论的关系取决于自 由能原理的第三种解释, 其中自 由能通过行动最小化, 与主动推理的思想密切相关。

尽管起源于神经科学, 但大量文献研究了 PC 如何与现有的深度学习文献相关联并应用。在本次调查中, 我们回顾了过去几年发展起来的文献, 首先关注最近发现的 PCN 参数更新与 BP 训练的人工神经网络 (ANN) 之间的关系, 其次关注性能和优越性PCN 在大规模深度学习任务上的灵活性。与 ANN 相比, 这种卓越的灵活性与仅使用本地计算相结合最终使 PCN 具有更高的并行性, 尤其是在神经形态硬件上。这种更大的可扩展性意味着, 随着 ANN 继续扩展(Kaplan 等人, 2020 年), 当前 GPU 提供的有限内存带宽可能越来越成为训练的限制因素, 而神经形态硬件的并行性和内存带宽更高, 其中计算和内存位于同一位置, 可能会导致采用类似 PCN 的架构, 可以在此类硬件上进行有效训练, 最终导致未来无需 BP 即可训练 PCN

2.2 Predictive Coding as Variational Inference

3 Predictive Coding and Backpropagation

超BP 增量预测编码: 并行且全自动学习算法

4 Performance of Predictive Coding

5 Associative Memories

6 Learning on Arbitrary Graph Topologies

在任意图拓扑上学习

7 Predictive Coding for Control and Robotics

完整内容请参考原论文。

0 人点赞