摘要:
自由能原理(FEP)提供了一个基于变分法的描述,说明生物如何通过与其环境的相互作用而持续存在。主动推理(AI)是FEP的一个推论,它指出生物的行为是为了实现关于首选未来观察的先验信念(目标先验)。然后,有目的的行为由相对于包含目标先验的环境的生成模型的变化自由能最小化产生。然而,对定制动态模型的自由能最小化算法的手动推导会变得繁琐且容易出错。虽然概率编程(PP)技术能够在自由形式的模型上自动推导推理算法,但人工智能的完全自动化需要在动态模型上进行推理的专门工具,以及控制代理与其模拟环境之间交互的实验协议的描述。本文的贡献是双重的。
首先,我们用ForneyLab来说明人工智能推理是如何自动化的,forney lab是一个最近的PP工具箱,专门研究灵活定义的动态模型上的变分推理。更具体地说,我们将动态环境中的人工智能主体描述为概率状态空间模型(SSM ),并通过在SSM的因子图表示上传递消息来对这些主体中的感知和控制进行推理。
其次,我们提出了一个模拟人工智能的形式化实验协议。在两个经典的RL例子中,即贝叶斯恒温器和山地汽车停车问题中,我们举例说明了该协议如何导致可灵活定义的AI代理的目标导向行为。
1.介绍
自由能原理(FEP)为生物如何感知和与环境相互作用提供了一个雄心勃勃的理论(弗里斯顿,2009年,2010年)。FEP假设,为了使一个主体在时变的环境条件下存在(并持续),它必须在主体的内部(“生成”)环境观察模型下最小化自由能泛函(Friston等人,2006)。
主动推理是自由能原理的一个推论,它声称自然主体的行为是为了实现关于偏好观察的先验信念(Friston,2010)。这些关于未来观察的先验信念是主体内部模型规范的一部分,因此自由能最小化确保主体避免意外状态。
目前,在自由形式的动态模型上推导主动推理算法仍然需要人工操作。主动推理过程的自动化可能使从业者能够建立更有效、灵活和可扩展的代理(de Vries和Friston,2017)。此外,自动化主动推理过程的执行还需要定义一个正式的实验协议,该协议控制着主体与其环境之间的交互。
自由能最小化算法的推导可以通过使用概率规划(PP)技术来自动化(Tran等人,2016;卡彭特等人,2017;闵卡等人,2018)。虽然大多数PP工具箱提供自由形式的建模工具和灵活推理算法的自动推导,但它们的通用性通常是以增加计算负荷为代价的。相比之下,动态模型包含特定于模型的结构,可以用来提高算法性能。这里,生成模型的因子图描述上的消息传递特别适合于灵活定义的动态模型中的推理(Loeliger等人,2007;考克斯等人,2019)。
本文详细介绍了一个实验协议和模拟环境,用于在动态环境中自动推导和执行在线主动推理过程。至关重要的是,我们说明了消息传递方法和提出的实验协议如何合作,在可灵活定义的生成动态模型上自动执行结构化主动推理算法。我们解决以下问题:
1.如何用实验协议描述在线主动推理过程?
2.如何在给定的协议中自动导出主动推理过程?
关于第一个问题,我们描述了一个协议,它正式地捕获(主动推理)代理和它的环境之间的交互。该协议支持情境条件下的在线模拟。
关于第二个问题,目前的论文提供了一个完整的基于信息传递的主动推理的解释,用一个内部模型的福尼式因子图(FFG)表示(福尼,2001)。FFG公式通过基于消息传递的自由能最小化支持灵活的模型定义和自动(主动)推理执行。至关重要的是,这种自动化免除了手动推导变分法问题的需要,并且原则上可以扩展到复杂的分层和相互依赖的模型,使得该方法适合工业规模的应用。
本文的结构如下。第2节和第3节分别为主动推理和FFGs提供了一个简短的技术预演。实验方案详见第节4.在第5节中,我们通过模拟两个经典的主动推理应用,即贝叶斯恒温器和山地汽车,来测试我们提出的协议。这些模拟使用ForneyLab执行,这是一个免费提供的工具箱,用于我们在研究实验室开发的FFGs中的自动自由能最小化(Cox等人,2019)。最后,我们在第六节讨论相关的工作,并在第七节总结。
2. 主动推理
。。。
因为主动推理从对控制的观察进行推理,推理过程需要定义一个“逆”概率模型,该模型有时被称为识别模型qt。pt的完全贝叶斯反演通常是难以处理的,因此代理通过最小化由下式定义的变分自由能泛函来求助于近似贝叶斯推理:
为了使这个优化过程易于处理,识别模型通常因式分解(Attias,1999),其中完全因式分解的识别模型被称为“平均场”假设。
为了给代理人提供“目标导向”或“目的”的感觉,内部模型扩展到未来状态,并纳入了关于预期未来结果的反事实信念,也称为目标先验(Parr和Friston,2018)。这些目标先验导致在代理人偏好下不太可能观察到的高度惊奇。然后,自由能最小化产生(近似的)后验置信,超过(被代理人)相信的控制,以避免这些不希望的(令人惊讶的)观察。在本文中,我们自己设置目标先验,但更一般地,这些先验可能由上下文过程设置,如其他代理或更高级别的时间层。这些想法将在第7节中进一步讨论。
先前对主动推理的解释引入了一种预期自由能,这种预期自由能通过先前的过度控制来引导目标导向行为(Friston et al .,2015;Friston K.J .等人,2017年)。相反,我们将采用帕尔和弗里斯顿(2018)的内部模型公式,其中明确包括反事实的先验对未来观察的信念来引导行为。这导致了统一的模型规范,允许我们优化单个自由能泛函(另见de Vries和Friston,2017)。通过消息传递来最小化这种功能,同时捕获对当前状态(感知)以及未来控制(行动/策略规划)的推断。
适合工业应用的主动推理的实用模型可能是复杂的、分层的并且嵌入在不稳定的环境中。手动推导主动推理算法的自由能最小化算法将变得极其繁琐且容易出错。内部模型的图形表示将有助于复杂模型的可视化,并允许自动推导消息传递算法。下一节介绍福尼式因子图作为自动推导主动推理算法的图形框架。
3通过福尼式因子图上的消息传递进行推理
关于FFGs的精彩而详细的介绍可参见(Loeliger,2004;Korl,2005年)。而相关的图形形式,如贝叶斯网络,马尔可夫随机场和二分因子图提供了基本上等效的公式(Forney,2001;洛里杰,2004),FFG形式主义特别适合代表动态模型(洛里杰等人,2007)。具体来说,FFG表示只需要一个节点和消息类型,同时保留了通过因子节点的变量关系的显式表示。
作为因式分解的一个例子,在本节中,我们考虑等式(2)的函数,它分成四个因子:
在本文中,我们假设函数f是一个概率分布。图2(中)画出了这种因子分解的FFG,以及用于比较的等价二分因子图表示(左)。在FFG中,变量
我们经常在边缘画箭头,以确定信息的方向。正向消息→与边缘箭头对齐,反向消息←与边缘方向对齐。
至关重要的是,推理的消息传递方法允许对特定的消息更新重用预先导出的解决方案多个模型中的基本因素。执行这些查找表中的解决方案允许我们自动推导和执行消息传递算法。
众所周知的算法,如(loopy)信念传播(Forney,2001年)、变分消息传递(Dauwels,2007年)、期望最大化(Dauwels等人,2005年)和期望传播(Cox,2018年)都被公式化为FFG上的消息传递过程。
3.1. 示例:相等节点
3.2. 处理非线性因素
消息传递方法的模块化允许局部近似。通过局部线性化,我们可以通过编码非线性约束的节点传递消息。这里我们考虑等式(6)的因子,其中g(x)是非线性可微函数:
4. 因子图中的在线主动推理
在第2节中,我们提到了主体的内部模型pt,它表达了主体对环境过程如何从行动中产生观察的先验信念。在本节中,我们提出了一个由代理执行在线主动推理的模拟协议。
6. 相关著作
在以概率编程(PP)为标签的研究文献中,用于自动概率推理的语言和工具箱越来越多地被研究。最新的PP工具箱,如Stan (Carpenter等人,2017年)、Edward (Tran等人,2016年)和Infer.NET(Minka等人,2018年),支持广泛的模型和算法。然而,动态模型结合了可用于提高算法效率的特定结构。SPM工具箱(Friston,2014)包括模拟主动推理过程的专门例程,但提供有限的建模灵活性。ForneyLab将灵活的模型设计与动态模型上的高效结构化推理算法(Cox等人,2019)。此外,因为ForneyLab以独立(Julia)程序的形式生成推理算法,所以这些算法可以在执行前进行手动优化。
7. 讨论和结论
本文描述了一种自动模拟在线主动推理过程的消息传递方法,以及一个控制主体与其环境之间交互的实验协议。我们已经在两个合成应用程序上测试了我们的协议,即贝叶斯恒温器和山地汽车停车任务。通过这些例子,我们解决了第1节中提出的问题,并说明了如何:
1.所提出的实验协议定义了如何模拟主动推理代理与其环境之间的交互(第4节);
2.ForneyLab工具箱允许自动调度主动推理代理中的变分自由能最小化(第5节)的消息传递算法。
FFG形式主义提供了内部模型定义的模块化分解,允许灵活的模型适应和复杂模型的直观可视化。此外,用于自由能最小化的消息传递算法可以根据代理内部模型的FFG公式自动导出。使用ForneyLab的自动推导将推理算法作为Julia程序返回,该程序可以在实验协议的上下文中定制和执行。
所提出的实验协议在每个时间步将主动推理过程公式化为用动作和结果更新内部(生成)模型(“动作-执行-观察”)之间的相互作用,随后用生成模型中变化的(统计)结果更新识别模型(“推断”)。至关重要的是,主体和它的环境仅仅通过行动和结果的交换来相互作用。
ForneyLab主动推理目前的一个局限是高维模型可能导致数值不稳定。Loeliger等人(2016)描述了具有改进的数值稳定性的消息传递。此外,由调度规定的特定消息更新顺序可能对算法收敛有影响。然而,关于最优调度策略的理论仍然很少。de Vries和Friston (2017)提到了一个有趣的想法,其中建议将调度问题作为一个推理过程来处理,该推理过程本身服从自由能原理。
所提出的主动推理方法完全依赖于自动推理方法。这种方法原则上可以扩展到工业界可能感兴趣的更复杂的应用。例如,示例中的状态空间模型可以容易地扩展到分层生成模型(Kiebel等人,2009;Senoz和de Vries,2018),它们已经被证明在模拟真实世界动力学方面相当强大(例如,Turner和Sahani,2008;Mathys等人,2014年)。
为了构建分层模型,策略先验可以可选地依赖于更高阶的状态,例如p(uk|s(1)),这提供了对控制的先验约束依赖于上下文。类似地,也可以建立目标先验
依赖于上下文,例如p(xk|s(1))。因此,情境过程可以通过修改先验统计来影响主体的行为,这允许模型设计工程师提出
分层和上下文感知模型。例如,当更高阶的状态在更长的时间跨度上进化时,分层嵌套导致深度时态模型(de Vries和Friston,2017;Friston K .等人,2017年)。
更高阶的动力学也可以通过自由能最小化来学习(Ramstead等人,2018)。例如,当前的模拟将环境动态的固定模型内在化。通过在内部模型中包含对动态的先验信念,代理人可以从数据中学习环境动态(ueltzhffer,2018)。这种自适应智能体随后表现出认知行为,并将采取行动以降低环境动态的不确定性(Friston等人,2016;卡伦等人,2018)。此外,FFG范式支持通过局部梯度或基于采样的方法计算的信息(Dauwels,2007),甚至允许使用摊销技术从数据中学习复杂的更新(Stuhlmüller等人,2013;格什曼和古德曼,2014)。有了这些技术,一个自适应的代理可以学习丰富和准确的环境模型,导致更有效的行为。
总之,本文提出了一种可扩展的自动推导主动推理算法的方法,并给出了实现模拟主动推理系统的实用观点。我们相信合成主动推理在未来的工程应用中有着巨大的前景。