通用智能框架 part1

全文约6000字

paper：Generalized Simultaneous Localization and Mapping (G-SLAM) as unification framework for natural and artificial intelligences: towards reverse engineering the hippocampal/entorhinal system and principles of high-level cognition

通用slam是智能的统一框架：逆向海马內嗅及高级认知原则

摘要：

1、同步定位和映射(SLAM)是自主具身系统的一个基本问题，hippocampal/entorhinal system (H/E-S) 海马/内嗅系统(H/E-S)的适应性在进化过程中得到了优化。

2、我们在自由能原理和主动推理(FEP-AI)框架内开发了一个基于潜在变量生成模型的生物启发SLAM体系结构，它提供了移动机器人的灵活导航和规划。

3、我们主要集中于试图对H/E-S的“设计”属性进行逆向工程，但在这里，我们考虑机器人学中的SLAM原理可以帮助我们更好地理解神经系统和思维的产生。

4、在回顾了LatentSLAM 这种控制架构的显著特征之后，我们考虑H/E-S如何不仅在物理导航方面，而且在被理解为广义同步定位和映射(G-SLAM)的高级认知方面实现这些功能属性。

5、我们将循环闭合、图松弛和节点复制（ loop closure, graph relaxation, and node duplication）作为特别有影响力的架构特征，

6、表明这些计算现象可能有助于理解认知洞察力(作为原始因果推理)、适应(作为对现有模式的整合)和同化(作为类别形成)。

7、所有这些操作都可以类似地用在多个抽象层次上的结构/类别学习来描述。

8、在这里我们采用了生态合理性的观点，将H/E-S功能框定为在具体和抽象的假设空间中编排SLAM过程。

9、在这个导航/搜索过程中，同化和适应之间的适应性认知平衡涉及探索和利用之间的权衡；这种动态平衡可以在FEP人工智能代理中接近最优地实现，其中由期望自由能目标函数支配的控制系统自然地平衡模型的简单性和准确性。

10、关于结构学习，这种平衡将涉及构建既不太包容也不太排斥的模型和类别。

我们认为这些(广义的)SLAM现象可能代表了个体内部和个体之间认知变化的一些最具影响力的来源，表明这些神经调质对H/E-S功能的影响可能潜在地阐明了这些信号通路作为基本控制论控制参数的适应性意义。

11、最后，我们讨论了理解H/E-S对G-SLAM的贡献如何为高级认知及其在人工智能中的潜在实现提供一个统一的框架。

正文：

12、自治生命系统面临着一个基本的挑战，即当它们在世界上移动时，需要了解它们的位置。为此，机器人专家广泛研究了同步定位和地图绘制(SLAM)问题的解决方案，系统必须在空间导航时推断其周围环境和相对位置的地图(Cadena等人，2016年)。考虑到任何自由移动的控制论系统都面临这些相同的挑战，自然选择在这个方向上同样发挥了广泛的目的论(即，虚幻的目的性)优化(Dennett，2017；Safron，2019b)，从而产生机制，使生物能够在参与多种适应性觅食的环境中进行寻路和定位。也许所有生物SLAM机制中最复杂的是海马-内嗅系统(H/E-S ),脊椎动物通过该系统能够记住它们去过哪里，推断它们在哪里，并预测它们下一步可能去哪里。

13、在这里，我们认为，H/E-S的发展代表了进化中的一个重大转变，因此使得各种形式的目的论(即，实际目标导向)出现(Safron，2021b)，

范围从预期行动-结果关联的治理到显式表示和自反性建模的因果序列，包括扩展的自我过程。

我们关注通过H/E-S的SLAM能力的含义，以及这种功能可能被重新用于看似非空间领域的智能行为和认知的证据。

我们认为，所有认知和目标导向的行为(广义地解释为包括精神行为)都是基于通过空间化(再)表征的导航，从抽象任务结构的建模到时间序列，甚至是通过多模态身体图的SLAM的复杂运动控制。

事实上，我们甚至认为，语言中隐性和显性空间隐喻的普遍存在强烈地指向这样一种观点，即认知是以具体和抽象特征空间内现象的定位和映射为中心的(Lakoff和Johnson，1999；卑尔根，2012；Tversky，2019)。

14、在这些方面，我们认为广义同步定位和制图(G-SLAM)可以在生态合理性原则的范围内为认知科学提供行动基础(Todd和Gigerenzer，2012)。

也就是说，我们采用了一种观点，在这种观点中，认知可以追溯到它的最终起源，合理性被理解为以促进进化适应性的方式塑造动物行为的适应性。

虽然有些类似的智力模型已经被提出，但我们认为这些观点可能有些误导，忽略了H/E-S在实现G-SLAM中的核心作用。

除了提供一个准确的观点，将认知建立在进化和发展过程中形成的控制论功能基础上，G-SLAM还将进一步允许认知科学和人工智能之间丰富的交叉融合。

考虑到H/E-S所实现的特殊功能，我们建议这个逆向工程项目应该成为认知科学和机器学习的中心焦点，有可能构成了实现具有“系统2”能力的人工智能的最可行的前进道路(Bengio，2017)。

15、对这些问题的彻底讨论超出了一篇手稿的范围。然而，下面我们试图提供一个概述，为什么我们相信G-SLAM视角可以为认知科学提供一个统一的框架。

首先，我们回顾了我们在机器人的生物启发SLAM架构方面的工作。

然后，我们考虑H/E-S的特性，包括它在物理和抽象领域中的定位和映射功能。

最后，我们讨论了SLAM的特征和认知功能的核心方面之间的对应关系。

我们希望解释共同原则如何不仅适用于在物理空间中找到想要的位置的基本任务，而且适用于通过抽象空间导航的思维(Hawkins，2021)。虽然接下来的许多内容必然是不详细的和推测性的，但在随后的出版物中，我们(希望其他人)将更详细地探索这些问题，因为我们试图解释神经科学和人工智能的基本原理，同时通过建立这些领域之间的概念映射来寻求协同理解(Hassabis等人，2017)。

16、接下来(第2节),我们将提供LatentSLAM的高级概述，在(catal等人，2021a)和(catal等人，2021b)中也有更详细的论述。虽然我们认为这些技术细节中的许多可能与解释高级认知的基本方面有关，但对这一内容更定性的理解应该足以考虑我们在这篇手稿中(开始)探索的概念映射(表1)。第3节总结了当前对H/E-S及其与空间建模和更一般的认知相关的功能的看法。最后，第4节在机器理解(使用潜在SLAM)和人类理解(在H/E-S中)之间进行了比较，并提出G-SLAM作为认知科学和人工智能的统一框架。

chap 2 LatentSLAM, a bio-inspired SLAM algorithm

17、同步定位和测绘(SLAM)一直是机器人界的一个长期挑战(Cadena等人，2016年)。对于自主功能，机器人必须尝试绘制其环境地图，同时尝试在它正在构建的地图中定位自己(即SLAM)。这种设置产生了一个先有鸡还是先有蛋的问题，因为精确定位需要一个完善的地图，但是要知道如何开发该地图并根据该地图来估计位置，还需要精确的位置估计。这一挑战变得更加困难，因为不仅系统必须处理刚刚描述的看似不适定的问题，而且来自传感器和致动器的不确定性来源使得环境的固有模糊性变得更加困难。

定位和映射的一个基本挑战(和机会)是检测环路闭合，即知道机器人何时再次遇到它已经访问过的位置。

挑战是由于刚才描述的循环推理问题，而机会是由于具有可靠空间参考点的系统所提供的特别有价值的更新机会。

18、SLAM传统上通过度量图内传感器信息的贝叶斯整合来解决，通常用绝对距离和角度来表示。在过去，这相当于跟踪机器人和环境中各种地标之间的距离。距离测量通常通过贝叶斯过滤进行组合，这是一种通过贝叶斯推理组合异构信息源的原则方法。然而，现代成功的度量SLAM解决方案通过卡尔曼滤波(卡尔曼和布西，1961年)将激光雷达扫描与机器人内部里程计估计结合到2D或3D占用网格地图中(穆尔-阿塔尔等人，2015年；赫斯等人，2016)。这些占用地图(图1B和图1C)通过将空间光栅化，然后将某些网格位置标记为不可访问(由于被物理障碍物占用),来跟踪物体在环境中的位置，从而创建类似于建筑师绘制房间图的地图(图1A

19、这种方案的变体很流行，差别很大，要么替换集成算法，要么替换度量图的类型。公制地图类似于具有规则间距的笛卡尔网格。然而，这种空间图并不说明感兴趣空间内的对象身份，也不说明这些对象之间的特定关系。

因此，使用度量图的一个缺点是，通过扩展，所有的机器人推理也必须发生在度量水平上，

任何语义信息，即特定网格单元激活集群的含义，都需要在以后添加。

此外，这种度量空间代表了偏离自然设计的实例，因为海马/内嗅系统(H/E-S)映射并不独立于这些空间内包含的对象，而是导致空间关系的重整(例如，扩展和压缩)，有趣的是，这似乎也作为这些实体对于有机体生命/代理的显著性的函数而被调节(Bellmund等人，2019；博卡拉等人，2019；巴特勒等人，2019)。

20、这种时空建模的流行方法使用粒子滤波器或扩展卡尔曼滤波器作为贝叶斯集成方法(Thrun等人，2005)。卡尔曼滤波器值得注意的是，它们允许基于概率数据源的精确加权组合进行估计，因此允许推理和更新中的协同能力，这在理论上也是利用所有可用数据(通过相对确定性加权)的最佳选择。如下面将更详细讨论的，

这种整合可以在H/E-S中通过支持高度循环处理的区域中的会聚激活来实现，例如海马体的CA3子场。

然而，H/E-S不仅促进综合估计，而且通过CA1等其他子区域促进模式分离/区分，因此允许吸引子采取稀疏连接图的形式——参见。基于Forney因子图的混合连续/离散架构和基于独立可控因子的代理设计(Friston等人，2017b托马斯等人，2017，2018)。下面我们还将描述这种类似图形的表示方式不仅有助于解决在物理空间中导航的问题，还可能形成神经符号人工智能领域中寻求的高级认知类型的基础(Bengio，2017)。

21、我们并不在公制地图中代表内部世界。例如，我们的任何感官都不能自然地给我们一个精确的距离测量。我们在遵循路径的度量描述方面也不是很有效。

因此，对于像我们这样的人(以及潜在的人工智能体)来说，将地图直观地表示为类似图形的结构(图1D)更有意义，其中后续的图形节点可以表示环境的后续高级部分，例如，节点可以表示环境的一部分，该部分包含在某个粗略位置的门。

然后，地图遍历变得等同于更直观的图遍历。然后，轨迹可以用连续的语义上有意义的方向来表示。例如，度量路径“向前移动2米，顺时针转动90度并继续2米”可以变成“穿过门后向右走向桌子”

22、在LatentSLAM(catal等人，2021a)中，我们提出了一种受生物启发的SLAM算法，试图模仿这种直观的映射。通过这种架构，我们在世界预测模型的基础上构建了基于图形的拓扑地图。

允许机器人的低级度量动作和高级显著路径的分离。

LatentSLAM不是直接使用原始的感觉数据或其固定特征(Milford等人，2004a)作为节点表示，而是学习以机器人动作为条件的紧凑状态表示，然后将其用作节点。

这种潜在的表示产生了一个概率的信念空间，允许对环境状态进行贝叶斯推理。图节点由信念分布形成的流形上的轨迹形成。

也就是说，我们的代理人不是利用静态地图，而是通过在地标之间移动来导航空间，这是基于对哪些状态转换可能与这些种类的感知相关联的预期。

作为一个底层基础，LatentSLAM采用自由能原理和主动推理(FEP-人工智能)框架来统一感知(即定位)、学习(即地图构建)和行动(即导航)，作为代理优化一个唯一目标的结果:最小化其(预期)自由能(Friston，2010；弗里斯顿等人，2017年a)。正如下面将更详细描述的那样，我们相信这是对思维的恰当描述，它是意识流的展开，随着主体感知和想象自己在空间和时间中移动，各种状态以各种组合产生。

2.1 Representing the world in a graph

23、图形形成了一种自然的方式，以一种稀疏且易于理解的方式来表示各种信息源之间的关系。在LatentSLAM中，这种结构用于根据代理的经验构建高级地图。该体验图包含由姿势(即主体的本体感受信息)和从感觉输入中提取的视图组成的节点。一个主体的姿态和视角共同决定了它的独特体验:同一姿态下的不同视角会带来新的体验；同样，不同姿势的相同视角也构成了一种新奇的体验。

视图通常位于某个习得的紧凑流形上，作为一个或多个感官输入的压缩版本，随着时间的推移进行整合和更新。图中体验之间的联系表明了从一种体验到另一种体验的可能转变。

24、将图嵌入与环境特征相关的参考系中以极大地增强推理能力的方式组织观察，因为这避免了关于欠约束假设空间的组合爆炸。也就是说，给定的感官印象可以对应于无限数量的世界状态(例如，是大而远的东西，还是小而近的东西)，但是连贯的透视参考系允许通过相关的上下文因素来推断可能的原因。

2.1.1 Experience map

25、经验图(或图形)提供了环境的高级概述。地图上的每一个节点都代表了机器人在现实世界中遇到一些有趣或新奇经历的地方。这些位置被编码成空间参考系(例如，2D笛卡尔空间)中的姿势，而体验本身被表达为相应的感官观察的隐含表示。当视图表示根据到已知地标的距离而改变时，这种设置类似于经典graphSLAM算法(Thrun and Montemerlo，2006)中描述的方法。请注意，基于图形的经验地图的开创性工作(Milford等人，2004a)也使用了将感官观察嵌入到低维空间中。然而，与我们的方法相反，这些映射是确定性的，并且对于所有观测都是固定的

26、

该图嵌入在时空参考系中，而不是在时空参考系中表示，这意味着随着时间的推移，地图上存储的(或推断的)姿态很可能随着它们被逐步更新而表现出与其初始记录值的偏差。

环路闭合事件触发图松弛阶段，其中当前图节点被重新定位以考虑伴随环路闭合的独特机会(即，通过姿势/视图和经验轨迹信息的汇聚来知道一个人的位置)。这种放松不仅为地图细化提供了机会，而且由于里程计漂移造成的姿态误差的累积，这也是必要的。车轮打滑、致动器编码器误差以及其他类似的影响导致姿态估计的不确定性不断增加。这些误差/噪声源通常是使环路闭合成为一个难题的部分原因。然而，姿态信息在图中的松散嵌入(结合相关视图)允许地图构建变得对传感器和致动器漂移鲁棒，从而保持环境的一致地图。

2.1.2 Views

27、LatentSLAM通过整合生成视图的动作轨迹，从感官观察中概率性地学习视图，这将我们的架构与类似的算法区分开来(Milford等人，2004a)。代理跟踪状态上当前信念分布的样本，该样本通过变分推理在每个时间步更新为新的信念。该样本构成了当前的代理视图，或者是从代理的生成模型的潜在空间中对环境进行的感官分离(或想象)估计。在每个时间步，代理将当前动作、样本和当前观察的结合输入到其生成模型中。该世界模型然后基于当前状态样本生成新的状态信念分布，其用作预测编码感知架构的预测源。在训练时，生成模型的任务是基于通过环境的轨迹的先前记录来预测未来的观察。

2.1.3 Proprioception

28、代理需要一种有原则的方法来跟踪它在本地环境中的估计姿态。也就是说，一个代理需要一种连贯的方式来根据某个局部参考系了解其局部姿态的变化。在这种形式的本体感受中，代理可以估计特定动作对相对于其环境的相邻部分的局部姿势信息的影响。具身的这一方面对于在具有挑战性的地形中实现一致的绘图和定位是必不可少的。

29、在LatentSLAM中，这一方面通过低级生成模型处理，另一方面通过姿势连续吸引子网络(CAN)处理。生成模型允许根据动作如何影响视图进行推理，即，它将姿态简化为潜在状态表示的隐含部分。然而，CAN将姿态估计作为更大潜在SLAM模型的显式部分。它在一个多维网格中整合了随时间推移的连续姿态估计，以内部可测量的量来表示代理。在地面移动机器人的情况下，这些量将是机器人在z轴上的

机器人编程算法访问管理数据分析神经网络

0 人点赞