Neuron决策研究：内侧前额叶网络调控内在需求的均衡

“木桶理论”说，一个水桶能装多少水，取决于它最短的那块木板。同样的，个体的生存也依赖于最缺乏的资源。我们生活在一个动态变化的世界中，随着环境的变化，我们的需求也在时时刻刻发生着改变。人类如何在变化中避免“短板”，维持各种资源的均衡？这种决策过程背后的神经机制又是怎样的？在这篇文章中，Keno Juechems等人设计了一种创新的决策任务，对个体基于自身需求进行决策时的策略、考虑因素、神经编码方式做了非常详尽的定量分析。分析时针对不同的研究问题，使用了多种建模方法，梳理清楚这些模型的含义是理解本文的重点。

背景

心理学、经济学和机器学习的经典模型认为，决策的目的是最大化预期的奖赏。有一种观点认为，大脑演化出非常精细的结构，编码某种刺激或某一个决策所带来的价值。对于人类而言，眶额皮层（OFC）和腹内侧前额叶（vmPFC）的神经信号编码了食物、金钱、社会暗示等多种资源的价值，这种编码好似是通过某一种共同的“神经货币”来完成的。

在实际生活中，个体有很多种彼此竞争的内在需求，而当下最迫切的那种需求决定了个体能否继续生存。比方说，一个饥饿的动物会更渴望得到食物而非水，反之亦然。在生命和周围世界的动态变化中，个体对不同资源需求的程度也在不断发生变化，不同资源的丰富程度也许是均衡的，也许出现了不均衡。神经系统通过编码这种不均衡，帮助个体做出决策，获取真正需要的资源。

在这篇文章中，研究者试图回答这样一个问题：大脑如何根据各种资源水平的动态变化，实时地规划当前决策的目标？以前研究的范式大多是要求被试最大化单个资源，因此个体如何维持各种资源的均衡还没有得到充分的研究。因此，本研究使用了一种新颖的任务，它要求被试在已有的两种资源中，通过决定每一次获取哪一种，尽可能地最大化相对较少的那种资源。基于此前神经影像的研究结果，我们可以推测，这种决策过程可能和OFC（OFC损伤者难以综合评价一个刺激的各种属性），vmPFC（可以追踪个体内在状态在任务进程中的累计变化），以及内侧前额叶的其他区域有一定的关系。

方法：

1. 被试：

22名被试参与实验，其中21人的数据最终被用作分析（5名男性，年龄M=23.6, SD = 2.77）。

2. fMRI行为学实验：

2.1 任务细节：

整个任务分为5个run，每个run有5个block，每个block的trial数是随机的（10-20），一个run总共包含65个trial。

被试需要从零开始管理一个虚拟动物园。动物园中有2种动物：狮子和大象。每一个block的开始（start），狮子和大象的数量都为零，每一个trial里，被试被提供2种“offer”（offer），即增加一定数目的狮子或一定数目的大象，被试需要做出决策，选择接受2种offer中的一种，每次做完决策，被试都会得到一定的奖励，奖励的金额=动物园中较少的那种动物的数量（如果动物园有2只狮子，6只大象，则被试获得2个单位奖励）。总的来说，被试的任务就是在一个block中尽可能多的赚钱，其主要途径就是使得较少的那种动物的数量尽可能的多。基于此，被试的选择被定义为“defer”和“redress”两种。Defer指的是被试选择需求没那么迫切的，即园中较多的那种动物；redress指的是被试弥补园中动物数量的差异，选择园中较少的动物。

图1. 实验任务样例（原Fig1A）

图1是两个trial的示范。具体来说，每个trial中，首先呈现150ms的注视点，然后是两种动物offer（2.5s），即多数offer（4-6个动物）和少数offer（1-3个）。狮子和大象里必定有一种是多数offer，一种是少数offer。一种动物对应offer的种类（多/少）在trial之间存在自相关，也就是说，若狮子在某一个trial时是多数offer，之后的几个trial中狮子可能都是多数offer。这种offer大小-动物种类对应关系的逆转概率（reversal probability）为0.3（若本次狮子为多数offer，有0.3的概率下个trial狮子为少数offer）。

任务中，狮子和大象的左右位置是随机变化的，被试使用左手/右手按键选择左边/右边的动物。一旦被试进行了选择，屏幕上显示被选到的动物（choice），紧接着屏幕变成空白（1.5-4.5s）。之后被试获得反馈（feedback），即屏幕上显示接受offer后动物园内两种动物的数量（1s），同时每一个trial的奖励也会出现在屏幕下方。Trial之间的间隔满足2-6s的均匀分布。每个block结束后，屏幕上都会显示当前block累计获得的奖励。每个run结束后会通过抽奖决定5个block中哪一个的奖励（机会均等）成为被试这个run最终获得的实际报酬（除基础报酬以外）。

实验中，屏幕上方会显示5个有色的圆，每个圆代表一个run，已经完成的run对应的圆下方会显示那个run中被试累积获得的奖励（图中未画出）。在“choice”阶段，屏幕正中同时会显示一个圆圈（颜色对应于当前run的颜色），圆圈内是当前block剩余的trial数。

2.2 被试指导和训练：

被试在扫描前预先进行一个run的练习，他们被告知如果一种动物在当前选项中为多数，那么接下来的选项也很可能为多数，但并不知道逆转概率是0.3。同时，他们清楚每一次选择所带来的的收益都是长期的，因此，即使当前动物园中狮子更少，若选项提供了更多的大象，他们也可以通过选择大象，放弃短期收益（该次trial奖励=狮子的数目），获取长期收益，而不必时刻维持两种动物的数量均衡。

3. 行为学数据分析

如前文所提到，对于每一个trial，被试的选择被编码为“redress”和“defer”。增加当前数目较少的动物记为“redress”，反之记为“defer”。

3.1 逻辑回归

行为学数据使用逻辑回归（logistic regression）进行建模分析。其中因变量为被试的选择（1= redress, 0=defer）。自变量有如下5个：

1. Offer difference：即两种offer里动物数量之差（园中现存少数动物offer数-多数动物offer数）。

2. Absolute asset difference：当前两种动物存量之差的绝对值

3. Overall length of block：block的总trial数

4. Proximity：离block结束的距离，定义为1/当前block剩余trial数

5.Proximity * Asset difference：二者交互作用

一个常数项（bias），代表了被试对redress选项的恒定倾向

针对上述自变量，对行为学数据先后应用了2个logistic regression模型。模型1使用了前3个自变量，模型2包括了全部5个自变量。两个模型均使用MATLAB的fitglm函数进行5-fold交叉拟合，并使用贝叶斯模型选择方法（Bayesian Model Selection）探索最佳模型。

3.2 动态规划（DP: dynamic programming）模型：

对于每个trial，采用马尔科夫模型进行模拟，计算决策的最优解，并使用动态规划方法做最优化。动态规划的公式如下：

其中s是当前状态，s‘是下一个状态，a是当前决策，a‘是下一步的决策。状态空间S由以下几个参数构成：

1.资源差Goal difference

2.当前block剩余的trial数

3.当前的offer（考虑需求）

4.逆转概率 reversal probability

Q（s,a）是在状态s时执行决策a的价值（value），P（s’|s,a）是在s状态执行a后进入s’状态的概率，R（s,a）是当前状态获得的奖励。因此，这个模型的目的是使得（即时奖赏未来所有可能状态的收益）最大化。

对每一个block来说，计算所有trial可能决策的全部排列组合，找到一条使得整个block总收益最大的决策路径，所对应的总收益即为该次实验最大可得奖励（maximum possible reward）。

4.fMRI数据分析

4.1 fMRI数据采集和预处理：

使用3T Siemens scanner收集磁共振数据，包括任务前采集的T1结构像（MPRAGE sequence: 1x1x1mm3 voxel resolution, 176x256x256 grid, TR = 1900ms, TE = 2.52ms, TI = 900ms）和时长约62分钟的功能像（3.5 mm isotropic, slice spacing=4.2mm, TR = 2000ms, flip angle = 80, TE=30ms.）。图像预处理使用SPM12，进行时间配准（slice time correction）、头动校正（realignment）、结构功能像配准（coregistration）、标准化（normalization）。

4.2 GLM

fMRI数据使用SPM12和自定义的代码进行分析。在个体水平上，将所有5个scan session的数据头尾连接，使用一般线性模型（GLM：general linear model）分析BOLD信号对不同变量的响应。考虑到session之间可能会有平均激活水平上的差异和drift，在GLM中加入每个session的编号，即常数1-5。GLM模型中还包括canonical HRF 与零时延的事件编码（例如offer，feedback）之卷积，以及6维头动参数作为无关变量。组分析使用个体的contrast image作为输入，做simple t-contrast，得到group contrast。为避免cluster-level过高的假阳性，本文中所有报告的cluster均经过FDR校正。

核心的分析，即本实验决策任务相关的神经编码，基于4个GLM模型。4个GLM均包括的变量有：

1. 2个感兴趣的预测变量：choice阶段的起始、feedback阶段的起始

2. 2个无关变量：资源差为0的trial（主要是每个block起始）、被试未作出反应的trial

不同之处在于每个GLM还包含了另外的一些回归子，他们之间的比较如下表所示：

模型	回归子	时刻对应关系
GLM1	Congruency: 一致性，即当前数量更多的选项是不是需要的选项	和choice起始同步
	response hand：反应手（左/右）
	offer difference：两种offer数量之差
	Unsigned offer difference
	Sum of the offers: 当前offer数目之和
	Proximity：1/当前block剩余trial数
	goal difference：资源差
	Post-choice goal difference：决策过后更新的资源差	和feedback起始同步
GLM2	Receipt value：不管是否满足需求，能获得的动物数	和offer起始同步
	Goal receipt value：满足需求时的动物增量
	Redress value：该决策对弥补资源不平衡的贡献
	Proximity：1/当前block剩余trial数
GLM3	High asset：多数动物的数量	和choice起始同步
	Low asset：少数动物的数量
	Proximity：1/当前block剩余trial数
	Proximity*high asset
	Proximity*low asset
	Increase：动物数量的增加
GLM4	只包含对每一个trial和feedback的事件编码。

下面对这些变量做一个简单的说明。假如一个block共有18个trial，在第7个trial时，这名被试有10个狮子和12头大象，他接下来可以选择的是3个狮子或5个大象，他选择了3个狮子。那么这个决策是congruence的，offer difference是3-5=-2，sum of offer=3 5=8，proximity=1/(18-7)，goal difference=10-12=-2，post-choice goal difference=12-13=-1，他的receipt value和goal receipt value都是3，redress value是2；然而，如果他选择再获取5个大象，决策就是incongruence的，这时候receipt value就是5，goal receipt value为0，redress value也是0。

结果：

1. 行为学结果

1.1 人类决策受到内在需求和Offer价值的共同影响

在本实验的任务中，可能出现的典型策略有如下几种：

1. Random：随机选择

2.Always satisfying immediate needs：永远做redress决策

3. Greedy：永远选择offer更多的那种动物

实际上，被试总共获得的奖励占DP模型预测的最大可得奖励（图2中optimal）的84.3%，且显著地高于上述3种典型策略模拟出的奖励数。逻辑回归的结果显示（如图3），被试本身有很强的“redress”的偏向(t20 = 7.74; p < 1*10-6)，但这种倾向会被offer difference (t20 = 3.36; p < 0.005)和goal difference(t20 = 5.61; p < 1*10-4)进一步强化。少数动物的offer越大，资源不均衡的压力越大，被试越愿意选择redress。

图2：各种策略和最优策略的比较（原Fig1B）

图3：行为学数据逻辑回归的结果（原Fig1C）

这说明人类在决策的过程中，主动地选择了一种均衡的策略来最大化自己的利益：平衡两种动物的数量差异，同时设法获得更多的动物。更进一步地，这种策略基于2种考量：①当前offer提供的两种动物数量之差(offer difference) ②动物园现存两种动物数量之差(asset/goal difference)。而仅仅redress并不是一种好的策略，实验结果表明，那些更倾向于采取“redress”策略的被试最后获得的收益相对较少。

1.2 计算模拟和最优策略模型：

从DP模型模拟的结果来看，最优策略（optimal policy model）是适时地采用defer决策，牺牲当前的收益，从而获得更高的未来收益。但defer与否同时取决于剩余的trial数，毕竟block已经接近尾声时，就没有defer的必要了。那么人类在决策时是否采用了这样的策略呢？答案是肯定的。事实上，proximity这一变量可以预测redress决策的产生（t20 = 3.74; p < 0.005），并且当goal difference变大时，这种redress的倾向会更强（t20 = 3.13; p < 0.01）。更进一步地，研究者把DP模型的结果作为因变量，使用与人类行为学数据相同的处理方法，用6个自变量对因变量进行逻辑回归（如图4）。和人类相比，proximity对DP模型中的决策结果产生更大的贡献（更高的β值）（图4）。

图4：人类决策，最优策略模型，最佳拟合DP模型逻辑回归结果对比（原FigS3a）绿色点代表最优策略模型，红色点代表最佳拟合DP模型，黑色条形代表人类被试的实际数据

和最优策略相比，人类更加短视，也就是说，把人的行为放在DP的框架下看，当他们在估计未来收益时，考虑到的时间范围，即规划展望期（planning horizon）比较局限。研究者根据这一假设对DP模型进行了修正——将规划展望期和逆转概率（reversal probability）设置为变量。结合被试行为学数据，并用最大似然估计（maximum likelihood estimation）对这参数进行拟合，估计出人类的规划展望期平均为7.5个trial（SD=6.04），显著地低于理论值20；而被试认为的逆转概率为0.44（SD=0.33），高于实际的逆转概率0.3。和逻辑回归模型相比，修正后的DP模型在贝叶斯模型选择（Bayesian Model Selection）的框架下更优（exceedance probability=0.99）。

使用这个修正后的最佳拟合DP模型（best-fitting DP model）去模拟被试每个trial的行为，可以看出模拟的结果和人类的决策很类似：图5A表示的是随着时间的推进，采取redress策略的概率；图5B是当block的长度不一样时，资源不均衡程度随决策进行而发生的变化。可以看出，最佳拟合DP模型和人类被试的行为很接近，而最优策略模型与之差距较大。

图5A：逐个trial的DP模拟结果（原Fig3A）红色点代表最优策略模型，黑色点为人类被试数据，青色点为最佳拟合DP模型

图5B：Block长度不同时资源差动态变化过程（原Fig3B）

以上分析说明，人类的决策有其理性的一面：他们是在考虑未来收益和当前收益基础上进行决策的；但同时，这种理性有两方面局限性：①人类考虑的并不会非常长远；②他们过高地估计了逆转概率。

2. fMRI结果

2.1 GLM1: dACC编码offer difference，rACC编码goal difference

行为学的结果表明，被试选择狮子还是大象，既取决于哪一种动物的offer更多（offer difference），又受决策后动物数量不均衡的压力所影响（goal difference）。因此，在神经层面，首要的问题是：哪些脑区定量编码这两种difference？

GLM1回答了这个问题。Goal difference和offer difference分别由rACC（前扣带回皮质喙部）和dACC（背侧前扣带回）编码。具体来说，和goal difference显著相关的脑区包括rACC（[BA] 24, peak x=10, y=40, z=14, FDRq<0.01）、部分腹侧枕叶（peak x=-34, y=-48, z=-18; FDRq <0.005）和一部分背内侧前额叶（dmPFC）；相应地，dACC（[BA] 32）及其延伸到dmPFC的一部分脑区（peak x=6, y=28, z=38; FDRq < 1*10-11）、双侧脑岛(left peak: x=-34, y=20, z=-2; right peak: x=46, y=20, z=2; FDRq<0.02)、双侧顶下小叶（iPL）和双侧角回(left peak x=-46, y=-56, z=30; right peak x=50, y=-56, z=30; cluster – FDRq<0.005)与offer difference显著相关。如图6所示：

图6：ACC对offer difference和goal difference的响应（原Fig2B 2C）

2.2 GLM2: 纹状体编码receipt value，vmPFC编码redress value

在找到了和资源不均衡有关的脑区后，下一个问题又涉及到决策研究的基本出发点：价值。在这种比较特别的任务中，各种类型的价值是如何编码的呢？解决这个问题需要用到GLM2。GLM2针对3种价值，分别是所选offer自身的价值（receipt value），满足需求的offer的价值（goal receipt value）和决策对于消除资源不均衡的贡献（redress value）。和它们显著相关的cluster位置如下（图7）：

1.Receipt value：双侧背侧纹状体（尾状核）至腹侧纹状体（peak x=-6, y=12, z=2; FDRq < 1*10-6）

2. Goal receipt value（负相关）：dACC（peak x=14, y=28, z=26; FDRq < 0.05）

3. Redress value：vmPFC（peak x=6, y=52, z=2; FDRq < 0.001）和PCC（peak x=-6, y=-60, z=14; FDRq < 0.005），这两个脑区通常也在基于价值的决策任务中表现地很活跃。

图7：编码3种value的脑区（原Fig2E 2F 2G）

尽管有了上述证据，对这些现象，还有一种可能的解释：vmPFC真正编码的也许不是redress value，而是每个trial的金钱奖励。因为每个trial的奖励由少数动物决定，而redress的目的也是增加少数动物的数量。为了排除这一个可能性，研究者使用vmPFC的信号（选取了一个ROI）和当前trial少数动物的数量做回归，结果说明这种猜测并不成立（t20 = 0.02; p > 0.98），vmPFC和金钱奖励本身并不挂钩。因此，vmPFC真正编码的是redress。

上述的分析似乎说明，纹状体，dACC和vmPFC分别编码了3种不同的value，但目前的证据还是单向的，也就是只能说对于这每一种value来说，这些脑区分别有较大的响应；而反过来说，对于每一个脑区，它的活动是否最支持相应的value呢？为了验证这一点，研究者对每一个脑区（选取了ROI），分别使用3种value作为回归子，建立3个GLM模型，再使用贝叶斯模型选择方法计算这3个模型的相对优势（图8）。相对优势由exceedance probability这一指标量化，代表一种模型比其他所有模型都优越的似然性。

图8：贝叶斯模型选择结果（原Fig2H）

从图8中我们可以看到，对于纹状体和vmPFC，之前的结论被进一步强化了：对于纹状体来说，它和receipt value的关联最强，同时vmPFC和redress的关联也最强。然而现有证据不能支持dACC和goal receipt的强关联。如此看来，dACC对需求条件下的receipt value编码是非特异的，它可能同时还编码了其他种类的value。综上所述，背侧纹状体和vmPFC在当前任务情景下分别编码了不同种类的value。

2.3 GLM1&3：神经信号随时间的变化

在实验任务中，动物的数量随着任务的进行是不断变化的，从而造成了不断变化的补偿压力。结合GLM1和GLM3，研究者寻找对当前的多数资源（high asset），少数资源（low asset），距离block结束的进度（proximity），及其之间的交互作用作出响应的脑区。结果显示，后侧dmPFC（GLM1; peak x=-36, y=16, z=50; FDRq < 0.001）、双侧角回(left peak x=-50, y=-48, z=34; right peak x=54, y=-44, z=38; FDRq< 0.001)、背外侧前额叶（dlPFC）（left peak x=-34, y=20, z=46; right peak x=30, y=4, z=62; FDRq< 0.001）均编码了proximity的主效应（图9）；此外，rACC对high asset*proximity的交互作用有显著的负响应（t20 = -2.16; p < 0.05）。

图9：Proximity存在主效应的部分（GLM1）（原Fig4A）

考虑到rACC同时参与了goal difference的编码，我们不由得问，rACC的活动能否预测被试的决策？以rACC活动，两种动物的数量，及其交互作用为自变量，决策结果为因变量做逻辑回归，结果显示，rACC的活动本身没有显著的主效应（t20 = 1.72; p > 0.10），但是它可以强化多数资源（t20 = 2.09; p < 0.05）和少数资源（t20 = -2.11; p < 0.05）对于决策的预测，也就是他们的交互作用显著（图10）。

图10：rACC活动预测每个trial的决策（原Fig4C）

如果您对任务态fMRI数据处理及相关产品感兴趣，请点击以下链接：

磁共振脑影像基础班

第六届任务态fMRI专题班（重庆4.8-13）

思影科技功能磁共振(fMRI)数据处理业务

目镜式功能磁共振刺激系统介绍

讨论：

人是如何维持各种资源的动态平衡呢？在一个基于价值的决策任务中，被试需要尽可能维持2种资源的均衡。实验数据表明，每一次做决策时，被试都会考虑很多因素，如①两种offer的价值②当前资源不均衡的压力③之后还能做决策的时间长短。

迄今为止，和决策有关的fMRI研究层出不穷，被广泛认可的说法是vmPFC正向编码被选中的选项的价值，而dACC则编码未被选中的选项的价值。然而，多数研究所遵从的基本假设是：每一个选项的价值都可以被对应到一个单值函数上，从而反映到总体收益的改变上。而本文认为，决策者会试图维持自身各种资源的均衡，因为决定一个个体能否生存的往往是那项最稀缺的资源，也就是“短板”。即使其他资源很充分，如果缺少某一种特定的资源，个体也难以生存。因此，本研究对价值的神经编码赋予了新的框架，即大脑时刻监控着资源的不均衡，随着不均衡程度变大，个体在进行决策的时候背负的压力也会增大。

在这个框架下，价值是通过需求反应的，需求又是由资源不均衡性决定的，同时，与各种决策因素相对应的神经信号得到了很好的分离。例如，rACC编码不均衡性带来的压力，而vmPFC则对能够减轻不均衡的选项做出正向响应。

vmPFC(腹内侧前额叶)和纹状体

该工作使得人们对vmpfc和纹状体的作用有了新的认识。以往有一些研究认为，纹状体和vmPFC同样编码决策的奖赏或者目标，而本文证实了它们之间的差异。首先，他们编码的奖赏的种类不一样，纹状体负责编码选项的价值本身，和预期目标无关，而vmPFC针对这个选项对达成目标的贡献（本实验中即为消除不均衡）有关。

更具体的说，以往认为纹状体编码一个决策行为长期平均的收益，而现有证据表明，纹状体只对当下这个offer做出响应。换言之，它关心的不是实际需求，也不是奖赏，而是短期内状态的一个改变。与此同时，皮层区域负责依照需求监控决策所带来的的价值。一方面，vmPFC不仅仅反应当前trial所做决策的价值，而且反映了trial与trial之间价值的提升；另一方面，这种对价值增量的编码还依赖于rACC对需求，也就是goal difference的编码。

决策领域存在一个难题：既然vmPFC在奖赏的编码中至关重要，为何vmPFC的损伤对那种要求资源最大化的决策过程影响很小？用本研究的结果解释，就是因为vmPFC编码的更多是所拥有的某种资源和其他资源的不均衡，而非offer之间价值的大小关系。类似的，在导航任务中，vmPFC信号也会在通往目的地的多个步骤中逐渐增强，因为每一步都缩短了当前和目标状态之间的距离，满足了一定的需求。所以，vmPFC的损伤不影响被试在不同的选项中做出决策。

ACC（前扣带皮层）

本研究还分离了ACC内部不同的价值编码。dACC此前被认为编码决策中所放弃的价值，或者是想要切换到有更多奖励的环境的需求。本研究中dACC区域对offer的数量做出响应，反映出offer的不均衡；rACC则追踪需求，反映当前资源的不均衡。与此同时，一块介于dACC和rACC之间的脑区似乎会在不同的框架下对价值进行编码。总体来说，ACC综合了offer和goal两方面因素进行决策，它同时反映出①offer的大小②决策对已有资源的改变③已有资源的不平衡关系。

在由DP得到的最佳决策模型和人类的实际决策中，任务的进程都会影响到决策。在每一个block的刚开始，决策者有充分的时间，使得defer决策在未来给决策者带来收益。但是当任务接近尾声时，资源不均衡的压力会逐渐增大，决策者会倾向于做redress决策。和机器相比，人类对于defer造成的短期牺牲更敏感，或者说在做计划时是更加短视的，也因此，在最后几个trial时他们更加偏向于redress。rACC是负责编码goal difference的，这种编码的程度随着时间的推移会减轻，说明人在做最后几次决定的时候，是单纯的希望redress，而不太受到goal difference大小的影响。

局限

该研究的一个局限是，实验本身受限于实验室的环境，在这个人为的环境中，被试的需求只依赖于做任务得到的金钱奖励，所以研究者难以通过对初级强化物（primary reinforcement）需求的改变，真正改变被试的内在需求。也因此，这个任务本身只能代表人类对某些特定情景的处理方式，比如如何在产出高质量科研成果和投入精力到教学工作中取得平衡。

意义

本研究对理解人类的健康和幸福有广泛的意义。本文假设幸福感与当前需求中的最小值相关，且决策的神经基础是根据目标维持需求之间的平衡。因此，和决策机制有关的一些病变，如抑郁，可能源于某个神经系统无法维持价值平衡，从而夸大目标资源的差异，或者说即使通过一些手段，资源不平衡已经消除，大脑对内在需求的价值估计还没能即时更新。

block difference dp glm

0 人点赞