生物躯体稳态控制的第一原理

paper: Interoception as modeling, allostasis as control

节选内容约7000字

Abstract

The brain regulates the body by anticipating its needs and attempting to meet them before they arise – a process called allostasis. Allostasis requires a model of the changing sensory conditions within the body, a process called interoception. In this paper, we examine how interoception may provide performance feedback for allostasis. We suggest studying allostasis in terms of control theory, reviewing control theory’s applications to related issues in physiology, motor control, and decision making. We synthesize these by relating them to the important properties of allostatic regulation as a control problem. We then sketch a novel formalism for how the brain might perform allostatic control of the viscera by analogy to skeletomotor control, including a mathematical view on how interoception acts as performance feedback for allostasis. Finally, we suggest ways to test implications of our hypotheses.

Keywords: Interoception, Allostasis, Predictive processing

3. Control theory: A unifying lens for physiology, motor control, and decision making

3.1. Control theory for physiology: A reliable body built from unreliable parts

3.2. Moving the body: The referent control hypothesis

3.3. Making decisions: constructing future reference trajectories

3.4. Allostatic control: Motivating movements with an interoceptive model

4. Allostasis as trajectory-tracking stochastic optimal control

4.1. Transforming capacity curves into objective functions

4.2. Optimal foraging theory suggests a functional form for allostatic control

4.3 Feedforward control with generative action concepts

4.4 Feedback control with generative action concepts

1. 简介:大脑在身体中的功能假设你是一个初学者,正在学习玩躲避球。你和其他玩家站在一起, 分成两队,当游戏开始时,你需要从中间的一堆球中捡起一个大的充气球,并用它击中另一队的成员。当你奔跑、投掷、躲避、追赶和伸手时, 你的肌肉细胞需要氧气和葡萄糖等分子形式的代谢燃料,这些燃料必须通过血液输送到这些肌肉细胞。你的血管系统必须快速输送和分配血液,带来营养物质并清除代谢物。尽管快速的肌肉运动会产生废热,但你的体温必须保持在一个狭窄可行的范围内。随着血液在全身循环的加快,你的肺也必须加快吸入氧气和排出二氧化碳的速度。

玩一个简单的躲避球游戏,需要你的大脑不断协调你身体的各个系统。与此同时,你的身体将有关内部事件的感觉信息通过脊髓和迷走神经传到大脑。神经科学的标准做法是区分大脑的“身体状况的生理感觉”(interoception[1,2,3])来自向大脑告知身体外部世界的感觉形态的集合(exteroception).

内感受包括但不限于大脑对来自受神经支配的内脏器官的感觉信号的建模。伤害性感受、温度和皮肤上的 C-触觉传入介导的(情感)接触也被认为是内感受性方式,因为它们通过第 1 层脊髓丘脑束中无髓鞘或轻度有髓鞘的上行纤维向大脑传递感觉输入 1,4,2].内感受的广义观点还包括从身体内部模拟化学感觉,如内分泌系统的变化[5],免疫系统的变化[6],以及消化系统和肠道的变化[7,8].然而,为了简单起见,本文将把所有这些系统视为“内脏感受。

心理学家用许多术语来指代内部模型，包括interoception，包括记忆[10]，信念[11]，知觉推理[12]，无意识推理[13]，具身模拟[14]，概念和类别[15]，受控幻觉[16]，预测[17，18]。不管它被称为什么，大脑被假设为在世界中构建一个其身体的动态模型

建立和完善基于内脏信号的内部模型的过程本身并不能完成大脑最基本的任务。这项任务是最大限度地提高身体机能的能量效率,以“预测不断变化的需求,评估优先事项,并使机体做好准备,在它们导致错误之前满足它们”(第 4 页,Sterling [21]),这个过程称为 allostasis(关于应变稳态的进一步讨论,见斯特林和拉夫林[22]、舒尔金和斯特林[23]).并行进化[24]和神经解剖学[19,25,15 有证据表明,外部感受的感觉信号,以及预测这些信号的内部模型,将运动控制置于特定的环境中,并支持运动控制 9].以类似的方式,内脏感觉信号为应变稳态提供在线反馈,而内感受性内部模型为应变稳态内脏运动控制提供子服务 19,25,26,15].许多证据表明了同样的结论:大脑正在预测性地调节身体,这是一个运动控制的问题,而不是感知世界的问题。这是一个沿着期望的轨迹调节身体以实现效率的问题。

建立和完善基于视觉信号的内部模型的过程本身并不能完成大脑最基本的任务。这项任务是最大限度地提高身体机能的能量效率,以“预测不断变化的需求,评估优先事项,并使机体做好准备,在它们导致错误之前满足它们”(第 4 页,Sterling [21]),这个过程称为 allostasis(关于异质结的进一步讨论,见斯特林和拉夫林[22]、舒尔金和斯特林[23]).并行进化[24]和神经解剖学[19,25,15 有证据表明,外部感受的感觉信号,以及预测这些信号的内部模型,将运动控制置于特定的环境中,并支持运动控制 9].以类似的方式,内脏感觉信号为异位提供在线反馈,而内感受性内部模型为异位内脏运动控制提供子服务 19,25,26,15].许多证据表明了同样的结论:大脑正在预测性地调节身体,这是一个运动控制的问题,而不是感知世界的问题。这是一个沿着期望的轨迹调节身体以实现效率的问题。

现有的内感受和身体调节的正式模型(例如由 Hulme 等人审查的内容[27]和 Petzschner 等人[28],以及最近的作品, 如乌纳尔等人 29])要么将变构问题公式化为一个预期的决策问题(没有考虑这些决策是如何制定的),要么将其公式化为一个运动控制问题(没有考虑运动指令来自哪里)。此外,他们没有将代谢效率作为目标,而是讨论了体内平衡,即身体变量的固定调节 具有固定的误差容差。虽然许多解释都允许先发制人地进行调节(参见 Carpenter [30]),体内平衡仍然被假定为校正与固定设定点的偏差[31].此外,体内平衡不太适合处理身体系统在不同环境和时间的需求变化,这种变化现在已经被很好地证明了(例如[32,33,34,35])

This paper aims to fill this gap by proposing an initial formal model of allostatic regulation. In the process, it will connect existing accounts of motor control based on internal models [36, 37, 9] and accounts of brain function based on feedback control [38, 39, 40] to the brain’s regulation of the body’s internal environment.

本文的形式模型借鉴了 control theory 这是一门广泛应用于系统生物学和工程学的学科。控制理论处理驱动动力系统沿着(近似)某个期望的轨迹运动,尽管对那些系统的物理干扰可能会使其偏离该轨迹。控制理论也明确了什么是期望的轨迹,该轨迹如何在物理上实现,以及一个系统如何驱动另一个系统遵循更期望的轨迹而不是不太期望的轨迹。本文描述了一种方法,正式建模的机构,保留与以前的经验主义兼容(如 Kleckner 等人[26]、杨等人[41])和理论上的(例如 Pezzulo 等人[42]、科克兰和霍威[43]、Petzschner 等人[28])调查,同时从第一原理建立控制理论

本文的四个部分将内感受与应变稳态联系起来。2章确定内视知觉如何使大脑能够估计身体在当前时刻的生理效率,这正是它评估和改进行动所需要知道的。3章然后介绍控制理论并解释它在生理学、运动控制和决策方面的应用;这些提供了概念上的工具来模拟内感受是如何告知allostasis的。4章应用控制理论的原理来推导一个新颖的形式模型, 说明大脑如何估计生理轨迹的合意性并作出预期的调节决策

2. Interoception:建模身体,估计其效率

本节讨论 interoception 如何为内脏运动调节提供性能指标的问题。许多内感受模式由内脏感觉信号组成,其值必须保持在有益于有效身体功能和存活的特定范围内(在这方面使这些信号不同于外感受感觉信号)。一个核心假设是,作为变构的一部分,大脑估计生理过程能够多有效地实现或支持资源水平所需的变化[23].为此,第一节 2.1 区分两种类型的视觉感知变量:代表资源数量的变量(称为受管制资源)和代表费率的变量1 哪些过程起作用(称为受控过程)2。部分 2.2 将这些概念应用于经过充分研究的颈动脉压力反射的控制过程,大脑必须通过中枢命令来调节颈动脉压力反射,以满足对氧气、葡萄糖等的需求。在血液里。这一小节表明,大脑预测生理效率的持续波动。部分 2.3 考虑一个更复杂的调节环境,其中几个生理过程以不同的方式作用于一个共同的代谢资源,并将提出的生理效率估计的概念推广到这个更常见的情况。最后,部分 2.4 讨论了内视知觉中的效率评估如何使大脑能够建设性地评估各种各样的预测身体状况,而不需要模块化的、特定目的的“奖励”系统。

2.1. 生理学中的调节资源和控制过程

Regulated resources 随着时间的推移保持相对稳定。例子包括血糖和核心体温。相比之下,在大多数情况下,血液酒精(乙醇)这种不受管制的资源不会被身体稳定下来

例子：

回到躲避球的例子,维持一个人玩耍能力的全部生理过程将包括血液本身携带的代谢必需品和副产品:氧、葡萄糖和二氧化碳是其中的主要成分。这些可以从上面描述的功能类别来看。血液中氧、葡萄糖和二氧化碳在任何特定时刻的水平称为 regulated resources。肌肉对代谢输入的需求可以被认为是 controlled process。在肌肉的具体情况下,它们的代谢吸收改变了氧气、葡萄糖和二氧化碳的循环水平。此外,血压是一个受控的过程,有助于维持或补充调节资源。心率和自主活动水平(在自主神经系统的两个分支中)也作为controlled processes 被调制以直接将调节的资源保持在期望的范围内。

2.2. Predicting and modeling the ranges of regulated and controlled processes

总的来说,如果大脑的内部模型要推断能力曲线作为内感受的一部分,那么大脑中的各种位置将不得不产生预测,并整合预测误差,涉及受管制的资源和受控制的过程。这些部位必须接收传入的内脏感觉信号,并与传出的预测进行比较。大脑必须为每个容量曲线的关键参数(例如,工作点、增益、边界和范围)生成传出预测,并将这些参数与当前状态的分位数表示的传出预测相结合。这将产生内脏感觉刺激的内感受性预测 :由容量曲线联系的调节资源和控制过程。传入的内脏感觉信号将确认或校正这些预测,从而校正或确认估计的性能度量。

纠正和/或确认预测的过程通常需要花费相当大的精力在神经放电上, 以更新各种预测 55].最重要的是,大脑也将不得不花费精力来重新考虑和重新规划当前的行为。想象一下,在玩躲避球游戏时,当你知道自己没有被击中时,胸部内部疼痛:这可能是胃灼热,也可能是心脏病发作。无论是什么原因,大脑都将有一个生理效率的衡量标准,以确定如何将资源用于更新预测和行为,以便最佳地将受调节的资源保持在它们相应的受控过程的响应范围内。

2.3. Modeling the viable ranges of multiple controlled processes to support multi-system regulation and coordinated action

类似的成对控制过程似乎出现在全身各种调节“模式”中,从心脏的自主活动 45]对血糖[61](如上)到肥胖症[60](以瘦素和生长素的形式)。

证据还表明,当这些信号协同运作来调节共同行为时,大脑可以将它们结合起来 67].Allostasis可能采用一种具有成对的外周控制过程的广义控制基序, 这些过程有时一起工作来驱动调节控制激素(皮摩尔/升) 在一个方向上的行为(例如,交感神经增加和副交感神经减少的相互模式,两者都驱动心率增加),但是也可以“对抗”彼此的效果(例如当交感神经和副交感神经分支共同激活时,产生的心率是这两个抵消力之和,每个力在不同的方向上驱动心率)。大脑中的内感受性模型也可能使用这些主题。这种内感受性加工的一般模式可以为量化内感受性内部模型中的调控指令提供一个领域一般的机制。这可以在生理调节和行为方面提供比集中实施的设定点所能提供的更大的灵活性,以及在每个方向上面对挑战时遭受更少的错误(参见[56,57]).

2.4. Viable ranges and capacities could obviate a modular “reward system”

一个数学上合理、生物学上合理的变构控制解释并不需要中枢神经系统中的一个模块或独立的“奖赏系统”。相反,它只需要一个大脑和一个内脏感觉周围神经系统的行为,就好像容量曲线的参数(描述任何给定状态对意外干扰的适应能力)与当前生理状态的位置一起在大脑上发出信号相应的容量曲线。不同的生理需求(例如,核心体温与血糖水平)可以被相加、相减、比较等。通过比较当前状态与任意给定维度上的工作点的距离,并按容量曲线的增益进行缩放。我们稍后的正式模型将使这一想法更加精确,提供了一种将数字放到这样的“距离”和“运动”中的方法。

2.5 具身决策包括所有三种形式的不确定性,这三种形式的不确定性都受制于非稳态调节:关于什么是生理有效的不确定性,关于运动结果的不确定性,以及关于外部世界的不确定性。

3. Control theory: A unifying lens for physiology, motor control, and decision making

内感受是对受神经支配的身体的感知:它可以包括感知身体当前状态的非稳态反应,如通过过去的动作实现的,但它本身不能产生当前和未来的动作。后者是内脏运动控制过程的作用。为了研究大脑如何完成内脏运动控制,需要一些额外的理论工具。

3.1. Control theory for physiology: A reliable body built from unreliable parts

从大脑控制身体的角度来看,“干扰”可以被认为是身体内部系统工作中不受控制的变化。不可预测事件和扰动之间有一个重要的区别:不可预测事件可以将系统推离其参考轨迹,也可以推近参考轨迹,但扰动(可能令人惊讶,也可能不令人惊讶)总是将系统推离其参考轨迹的事件。因此,扰动总是相对于参考轨迹。

3.2. Moving the body: The referent control hypothesis

参照控制假说[86,87]根据控制器的层次来描述骨骼运动系统,大脑中的高级控制器为脊髓中的低级反射指定参考轨迹。然后,这些反射将传入本体感受器神经元发出的实际肌肉长度与大脑发出的参考长度进行比较, 并收缩肌肉以使两者一致 88,89].实际上,较高级别的控制器告诉较低级别的控制器访问什么轨迹,而较低级别的控制器找出如何成功地跟踪它,这种现象开始在工程(即非生物)控制系统中被考虑[90].

参与骨骼运动控制的皮质区域(例如,初级运动皮质、前运动皮质等。)也向躯体感觉皮层发送向下流动的参考信号的副本(称为传出副本),从而向躯体感觉区域提供先前的预测。这些“先前”信号实际上改变了体感皮层神经元的放电,使它们做好准备,根据即将到来的骨骼运动接收来自世界的信号。这种动态发生在神经系统的所有层次,允许神经系统使用体感预测误差作为反馈来确认或修正运动表现;它还能让神经系统分辨 reafferent (自身原因)来自 exafferent (外部引起的)感觉信号。通过这个镜头,大脑被认为既是控制器(在其内脏运动和骨骼运动功能中)又是相应的状态估计器(在其感知和模拟功能中)。由于在参照控制假设下,骨骼运动“命令”采取下行信号的形式,该下行信号规定了本体感受测量的期望长度和张力,因此在感觉区域的大脑状态估计机器可以模拟那些下行控制信号的躯体感觉结果。

3.3. Making decisions: constructing future reference trajectories

这些控制机制在很大程度上是局部的,从某种意义上说,它们只驱动神经输出影响一个小而窄的领域:血管和压力感受器调节自主流出以降低心率;驱动牵张反射的个体肌梭中的本体感受器。

大脑通过内脏和明显的躯体运动行为来预测性地控制身体。内脏的预测性神经控制必须考虑到改变身体的生物过程(例如随着发育而发生的过程)和周期性的例行程序,例如觉醒-睡眠周期。大脑还必须协调各种生理需求,每一个都有自己的能力曲线,可以随着时间的推移而改变。与此同时,大脑受到来自感觉/测量噪声和受神经支配组织中的过程噪声的不确定性的影响。因此,大脑中的决策必须根据控制原则进行操作,这些原则考虑了长期的竞争需求。

满足这些标准的控制理论公式是 stochastic optimal control (SOC)。

大脑中的非稳态决策解决了什么问题, 而身体中的稳态反射却无法解决?不确定性下的反射性、反应性控制带来了一个隐藏的假设:当前的不确定性等同于时间上的不确定性,因此如果控制机制可以补偿当前的误差,它们就可以补偿未来的所有误差。当这个假设成立时,预测控制和反应控制将是等效的。当这个假设不成立时,随机最优控制可以产生比反应控制好得多的调节。

这个假设叫做 ergodicity,这相当于(非常粗略地)建模时间对概率分布没有影响。B.1 详细讨论遍历性,包括它对实验设计的影响。B.2 还讨论了一种将大脑作为一个整体来研究的范式,这种范式假设了遍历性,允许它将感知处理与决策和运动控制联系起来。以下材料更强调非遍历的情况,包括具有周期性结构的情况,或随着时间的推移发生不可逆变化的情况。现实生活充满了非遍历的情况,人们必须在其中做出决定:白天和黑夜的循环(以及跟踪它们的昼夜节律)是非遍历的;发展过程(从童年到成年)不是遍历的;像伤害和死亡这样的事件不是遍历的。大脑在决策过程中会考虑这些非遍历的现实生活[107].

3.4. Allostatic control: Motivating movements with an interoceptive model

Allostatic regulation contains homeostatic regulation as a special case.

Allostasis consists of regulating a system’s state to track a reference trajectory, one which fully allows for system states to change over time. Homeostasis consists of regulating a system’s state towards reference points, independent of time. Thus, an allostatic controller can implement homeostatic control by prescribing a reference trajectory as a single, unchanging point, while a homeostatic controller cannot implement allostatic control. This is because homeostasis does not really deal with context.

回到躲避球的例子将为这些想法奠定基础。在躲避球比赛中,肌肉需要比休息时更多的氧气和葡萄糖。成功地将球扔向对方球员需要通过内脏运动和身体运动控制器(紫色)在几十秒到几分钟的时间范围内调动骨骼运动肌肉组织(“躯体”,植物)以及内部身体系统,如心血管系统(“内脏”,植物)。我们假设一个功能等同于非稳态容量估计器(黄色)的功能可以预测这种需求,改变作为预测传送到内脏运动控制器(紫色)的参考轨迹。然后,内脏运动控制器必须动员心血管系统通过血液供应这些代谢必需品。在这种情况下,在其他调整中,内脏运动神经控制器移动并拉平压力反射的容量曲线[110],使血管收缩和心率加快协同工作,为肌肉提供更多的血流。

4. Allostasis as trajectory-tracking stochastic optimal control

本节将描述我们的非稳态决策模型:非稳态路径积分控制(APIC)模型。APIC 有一个简单的核心思想:就像知觉概念是身体感觉表面的内部模型一样 15,92,14],行动概念也作为潜在行为及其预测结果的内部模型。大脑提炼和选择来自一个概念的感官预测,这个概念是基于它们与过去和现在的感官证据的吻合度;我们建议,它同样重新定义和选择运动参考配置从行动概念的基础上,他们现在和未来的非稳态值

4.1. Transforming capacity curves into objective functions

4.2. Optimal foraging theory suggests a functional form for allostatic control

在数学上,将瞬时参考信号组合成价值函数需要首先将这些参考信号写成目标函数,然后将它们组合成长期函数形式。

4.3 Feedforward control with generative action concepts

bellman方程这种形式主义只描述了如何通过正向模拟来规划最优行为或学习最优策略(从状态到行动的映射)。这个方程没有描述如何整合传入的感觉信息作为控制反馈;这也增加了寻找递归优化问题的精确解的巨大计算难度。

4.4. Feedback control with generative action concepts

最佳决策的标准理论忽略了选择结果的可变性,而证据表明人类行为考虑了风险水平[138,139].从具体行动的角度来看,这具有规范性意义: 大脑必须将甚至看似清晰简单的决定(“向左延伸”)转化为嘈杂的高维运动(“改变这些和那些肌肉纺锤体的参照长度和敏感度”)。风险和不确定性仍然是运动的一部分,即使身体实际上已经完成了运动,因为远端的身体和世界仍然只能通过感官表面进行部分观察。这一小节将考虑这些事实对于大脑所面临的决策和运动控制的综合问题意味着什么。经过这些考虑,这一小节将给出风险敏感决策和反馈稳定电机控制的组合公式。

神经放电包含随机噪声[140],因此很快找到一个困难的递归问题的精确最大值似乎是不可能的。即使大脑能够快速找到准确的最大值,运动系统中的噪声也会将其自身的成本因素引入决策值 141].从实验上看,人类和动物的行为表现出有意义的可变性 142]跨越任务行为的每一个层次,而等式 12 说任何给定的任务都应该对应一个独特的最佳行动方式。行为也表现出有意义的变化,这归因于人们内部模型的预测不确定性,包括任务目标本身[143]和适当的感觉运动策略[144].风险中性理论无法解释这两种效应,因为贝尔曼方程使用预期来平均化基于模型的不确定性。

This subsection has detailed a formal model, called the Allostatic Path-Integral Control (APIC) model, for how the brain can realistically achieve allostatic regulation of the body in an online setting. APIC assumes that the brain starts with an action concept describing a potential behavior, and tries to maximize the allostatic returns on that behavior while keeping the online (feedback-stabilized) behavior close to the original plan. Incorporating an action concept, and penalizing deviation from it, provides an explicit expression for the optimal feedback controller. The infinite-horizon, average-objective setting for this stochastic optimal control model captures the time-averaging behind the global capture rate (i.e. Equation 7). This model can take advantage of neural stochasticity to optimize an objective function defined over a hierarchy of scales of space and time, allowing for both high-level and low-level behavioral control.

完整内容请参考原论文。

action model reference theory

0 人点赞