Neuron决策研究:内侧前额叶网络调控内在需求的均衡

2020-04-02 17:17:03 浏览数 (2)

“木桶理论”说,一个水桶能装多少水,取决于它最短的那块木板。同样的,个体的生存也依赖于最缺乏的资源。我们生活在一个动态变化的世界中,随着环境的变化,我们的需求也在时时刻刻发生着改变。人类如何在变化中避免“短板”,维持各种资源的均衡?这种决策过程背后的神经机制又是怎样的?在这篇文章中,Keno Juechems等人设计了一种创新的决策任务,对个体基于自身需求进行决策时的策略、考虑因素、神经编码方式做了非常详尽的定量分析。分析时针对不同的研究问题,使用了多种建模方法,梳理清楚这些模型的含义是理解本文的重点。

背景

心理学、经济学和机器学习的经典模型认为,决策的目的是最大化预期的奖赏。有一种观点认为,大脑演化出非常精细的结构,编码某种刺激或某一个决策所带来的价值。对于人类而言,眶额皮层(OFC)和腹内侧前额叶(vmPFC)的神经信号编码了食物、金钱、社会暗示等多种资源的价值,这种编码好似是通过某一种共同的“神经货币”来完成的。

在实际生活中,个体有很多种彼此竞争的内在需求,而当下最迫切的那种需求决定了个体能否继续生存。比方说,一个饥饿的动物会更渴望得到食物而非水,反之亦然。在生命和周围世界的动态变化中,个体对不同资源需求的程度也在不断发生变化,不同资源的丰富程度也许是均衡的,也许出现了不均衡。神经系统通过编码这种不均衡,帮助个体做出决策,获取真正需要的资源。

在这篇文章中,研究者试图回答这样一个问题:大脑如何根据各种资源水平的动态变化,实时地规划当前决策的目标?以前研究的范式大多是要求被试最大化单个资源,因此个体如何维持各种资源的均衡还没有得到充分的研究。因此,本研究使用了一种新颖的任务,它要求被试在已有的两种资源中,通过决定每一次获取哪一种,尽可能地最大化相对较少的那种资源。基于此前神经影像的研究结果,我们可以推测,这种决策过程可能和OFC(OFC损伤者难以综合评价一个刺激的各种属性),vmPFC(可以追踪个体内在状态在任务进程中的累计变化),以及内侧前额叶的其他区域有一定的关系。

方法

1. 被试:

22名被试参与实验,其中21人的数据最终被用作分析(5名男性,年龄M=23.6, SD = 2.77)。

2. fMRI行为学实验:

2.1 任务细节:

整个任务分为5个run,每个run有5个block,每个block的trial数是随机的(10-20),一个run总共包含65个trial。

被试需要从零开始管理一个虚拟动物园。动物园中有2种动物:狮子和大象。每一个block的开始(start),狮子和大象的数量都为零,每一个trial里,被试被提供2种“offer”(offer),即增加一定数目的狮子或一定数目的大象,被试需要做出决策,选择接受2种offer中的一种,每次做完决策,被试都会得到一定的奖励,奖励的金额=动物园中较少的那种动物的数量(如果动物园有2只狮子,6只大象,则被试获得2个单位奖励)。总的来说,被试的任务就是在一个block中尽可能多的赚钱,其主要途径就是使得较少的那种动物的数量尽可能的多。基于此,被试的选择被定义为“defer”和“redress”两种。Defer指的是被试选择需求没那么迫切的,即园中较多的那种动物;redress指的是被试弥补园中动物数量的差异,选择园中较少的动物。

图1. 实验任务样例(原Fig1A)

图1是两个trial的示范。具体来说,每个trial中,首先呈现150ms的注视点,然后是两种动物offer(2.5s),即多数offer(4-6个动物)和少数offer(1-3个)。狮子和大象里必定有一种是多数offer,一种是少数offer。一种动物对应offer的种类(多/少)在trial之间存在自相关,也就是说,若狮子在某一个trial时是多数offer,之后的几个trial中狮子可能都是多数offer。这种offer大小-动物种类对应关系的逆转概率(reversal probability)为0.3(若本次狮子为多数offer,有0.3的概率下个trial狮子为少数offer)。

任务中,狮子和大象的左右位置是随机变化的,被试使用左手/右手按键选择左边/右边的动物。一旦被试进行了选择,屏幕上显示被选到的动物(choice),紧接着屏幕变成空白(1.5-4.5s)。之后被试获得反馈(feedback),即屏幕上显示接受offer后动物园内两种动物的数量(1s),同时每一个trial的奖励也会出现在屏幕下方。Trial之间的间隔满足2-6s的均匀分布。每个block结束后,屏幕上都会显示当前block累计获得的奖励。每个run结束后会通过抽奖决定5个block中哪一个的奖励(机会均等)成为被试这个run最终获得的实际报酬(除基础报酬以外)。

实验中,屏幕上方会显示5个有色的圆,每个圆代表一个run,已经完成的run对应的圆下方会显示那个run中被试累积获得的奖励(图中未画出)。在“choice”阶段,屏幕正中同时会显示一个圆圈(颜色对应于当前run的颜色),圆圈内是当前block剩余的trial数。

2.2 被试指导和训练:

被试在扫描前预先进行一个run的练习,他们被告知如果一种动物在当前选项中为多数,那么接下来的选项也很可能为多数,但并不知道逆转概率是0.3。同时,他们清楚每一次选择所带来的的收益都是长期的,因此,即使当前动物园中狮子更少,若选项提供了更多的大象,他们也可以通过选择大象,放弃短期收益(该次trial奖励=狮子的数目),获取长期收益,而不必时刻维持两种动物的数量均衡。

3. 行为学数据分析

如前文所提到,对于每一个trial,被试的选择被编码为“redress”和“defer”。增加当前数目较少的动物记为“redress”,反之记为“defer”。

3.1 逻辑回归

行为学数据使用逻辑回归(logistic regression)进行建模分析。其中因变量为被试的选择(1= redress, 0=defer)。自变量有如下5个:

1. Offer difference:即两种offer里动物数量之差(园中现存少数动物offer数-多数动物offer数)。

2. Absolute asset difference:当前两种动物存量之差的绝对值

3. Overall length of block:block的总trial数

4. Proximity:离block结束的距离,定义为1/当前block剩余trial数

5.Proximity * Asset difference:二者交互作用

一个常数项(bias),代表了被试对redress选项的恒定倾向

针对上述自变量,对行为学数据先后应用了2个logistic regression模型。模型1使用了前3个自变量,模型2包括了全部5个自变量。两个模型均使用MATLAB的fitglm函数进行5-fold交叉拟合,并使用贝叶斯模型选择方法(Bayesian Model Selection)探索最佳模型。

3.2 动态规划(DP: dynamic programming)模型:

对于每个trial,采用马尔科夫模型进行模拟,计算决策的最优解,并使用动态规划方法做最优化。动态规划的公式如下:

其中s是当前状态,s‘是下一个状态,a是当前决策,a‘是下一步的决策。状态空间S由以下几个参数构成:

1.资源差Goal difference

2.当前block剩余的trial数

3.当前的offer(考虑需求)

4.逆转概率 reversal probability

Q(s,a)是在状态s时执行决策a的价值(value),P(s’|s,a)是在s状态执行a后进入s’状态的概率,R(s,a)是当前状态获得的奖励。因此,这个模型的目的是使得(即时奖赏 未来所有可能状态的收益)最大化。

对每一个block来说,计算所有trial可能决策的全部排列组合,找到一条使得整个block总收益最大的决策路径,所对应的总收益即为该次实验最大可得奖励(maximum possible reward)

4.fMRI数据分析

4.1 fMRI数据采集和预处理:

使用3T Siemens scanner收集磁共振数据,包括任务前采集的T1结构像(MPRAGE sequence: 1x1x1mm3 voxel resolution, 176x256x256 grid, TR = 1900ms, TE = 2.52ms, TI = 900ms)和时长约62分钟的功能像(3.5 mm isotropic, slice spacing=4.2mm, TR = 2000ms, flip angle = 80, TE=30ms.)。图像预处理使用SPM12,进行时间配准(slice time correction)、头动校正(realignment)、结构功能像配准(coregistration)、标准化(normalization)。

4.2 GLM

fMRI数据使用SPM12和自定义的代码进行分析。在个体水平上,将所有5个scan session的数据头尾连接,使用一般线性模型(GLM:general linear model)分析BOLD信号对不同变量的响应。考虑到session之间可能会有平均激活水平上的差异和drift,在GLM中加入每个session的编号,即常数1-5。GLM模型中还包括canonical HRF 与零时延的事件编码(例如offer,feedback)之卷积,以及6维头动参数作为无关变量。组分析使用个体的contrast image作为输入,做simple t-contrast,得到group contrast。为避免cluster-level过高的假阳性,本文中所有报告的cluster均经过FDR校正。

核心的分析,即本实验决策任务相关的神经编码,基于4个GLM模型。4个GLM均包括的变量有:

1. 2个感兴趣的预测变量:choice阶段的起始、feedback阶段的起始

2. 2个无关变量:资源差为0的trial(主要是每个block起始)、被试未作出反应的trial

不同之处在于每个GLM还包含了另外的一些回归子,他们之间的比较如下表所示:

模型

回归子

时刻对应关系

GLM1

Congruency: 一致性,即当前数量更多的选项是不是需要的选项

和choice起始同步

response hand:反应手(左/右)

offer difference:两种offer数量之差

Unsigned offer difference

Sum of the offers: 当前offer数目之和

Proximity:1/当前block剩余trial数

goal difference:资源差

Post-choice goal difference:决策过后更新的资源差

和feedback起始同步

GLM2

Receipt value:不管是否满足需求,能获得的动物数

和offer起始同步

Goal receipt value:满足需求时的动物增量

Redress value:该决策对弥补资源不平衡的贡献

Proximity:1/当前block剩余trial数

GLM3

High asset:多数动物的数量

和choice起始同步

Low asset:少数动物的数量

Proximity:1/当前block剩余trial数

Proximity*high asset

Proximity*low asset

Increase:动物数量的增加

GLM4

只包含对每一个trial和feedback的事件编码。

下面对这些变量做一个简单的说明。假如一个block共有18个trial,在第7个trial时,这名被试有10个狮子和12头大象,他接下来可以选择的是3个狮子或5个大象,他选择了3个狮子。那么这个决策是congruence的,offer difference是3-5=-2,sum of offer=3 5=8,proximity=1/(18-7),goal difference=10-12=-2,post-choice goal difference=12-13=-1,他的receipt value和goal receipt value都是3,redress value是2;然而,如果他选择再获取5个大象,决策就是incongruence的,这时候receipt value就是5,goal receipt value为0,redress value也是0。

结果:

1. 行为学结果

1.1 人类决策受到内在需求和Offer价值的共同影响

在本实验的任务中,可能出现的典型策略有如下几种:

1. Random:随机选择

2.Always satisfying immediate needs:永远做redress决策

3. Greedy:永远选择offer更多的那种动物

实际上,被试总共获得的奖励占DP模型预测的最大可得奖励(图2中optimal)的84.3%,且显著地高于上述3种典型策略模拟出的奖励数。逻辑回归的结果显示(如图3),被试本身有很强的“redress”的偏向(t20 = 7.74; p < 1*10-6),但这种倾向会被offer difference (t20 = 3.36; p < 0.005)和goal difference(t20 = 5.61; p < 1*10-4)进一步强化。少数动物的offer越大,资源不均衡的压力越大,被试越愿意选择redress。

图2:各种策略和最优策略的比较(原Fig1B)

图3:行为学数据逻辑回归的结果(原Fig1C)

这说明人类在决策的过程中,主动地选择了一种均衡的策略来最大化自己的利益:平衡两种动物的数量差异,同时设法获得更多的动物。更进一步地,这种策略基于2种考量:①当前offer提供的两种动物数量之差(offer difference) ②动物园现存两种动物数量之差(asset/goal difference)。而仅仅redress并不是一种好的策略,实验结果表明,那些更倾向于采取“redress”策略的被试最后获得的收益相对较少。

1.2 计算模拟和最优策略模型:

从DP模型模拟的结果来看,最优策略(optimal policy model)是适时地采用defer决策,牺牲当前的收益,从而获得更高的未来收益。但defer与否同时取决于剩余的trial数,毕竟block已经接近尾声时,就没有defer的必要了。那么人类在决策时是否采用了这样的策略呢?答案是肯定的。事实上,proximity这一变量可以预测redress决策的产生(t20 = 3.74; p < 0.005),并且当goal difference变大时,这种redress的倾向会更强(t20 = 3.13; p < 0.01)。更进一步地,研究者把DP模型的结果作为因变量,使用与人类行为学数据相同的处理方法,用6个自变量对因变量进行逻辑回归(如图4)。和人类相比,proximity对DP模型中的决策结果产生更大的贡献(更高的β值)(图4)。

图4:人类决策,最优策略模型,最佳拟合DP模型逻辑回归结果对比(原FigS3a)绿色点代表最优策略模型,红色点代表最佳拟合DP模型,黑色条形代表人类被试的实际数据

和最优策略相比,人类更加短视,也就是说,把人的行为放在DP的框架下看,当他们在估计未来收益时,考虑到的时间范围,即规划展望期(planning horizon)比较局限。研究者根据这一假设对DP模型进行了修正——将规划展望期和逆转概率(reversal probability)设置为变量。结合被试行为学数据,并用最大似然估计(maximum likelihood estimation)对这参数进行拟合,估计出人类的规划展望期平均为7.5个trial(SD=6.04),显著地低于理论值20;而被试认为的逆转概率为0.44(SD=0.33),高于实际的逆转概率0.3。和逻辑回归模型相比,修正后的DP模型在贝叶斯模型选择(Bayesian Model Selection)的框架下更优(exceedance probability=0.99)。

使用这个修正后的最佳拟合DP模型(best-fitting DP model)去模拟被试每个trial的行为,可以看出模拟的结果和人类的决策很类似:图5A表示的是随着时间的推进,采取redress策略的概率;图5B是当block的长度不一样时,资源不均衡程度随决策进行而发生的变化。可以看出,最佳拟合DP模型和人类被试的行为很接近,而最优策略模型与之差距较大。

图5A:逐个trial的DP模拟结果(原Fig3A)红色点代表最优策略模型,黑色点为人类被试数据,青色点为最佳拟合DP模型

图5B:Block长度不同时资源差动态变化过程(原Fig3B)

以上分析说明,人类的决策有其理性的一面:他们是在考虑未来收益和当前收益基础上进行决策的;但同时,这种理性有两方面局限性:①人类考虑的并不会非常长远;②他们过高地估计了逆转概率。

2. fMRI结果

2.1 GLM1: dACC编码offer difference,rACC编码goal difference

行为学的结果表明,被试选择狮子还是大象,既取决于哪一种动物的offer更多(offer difference),又受决策后动物数量不均衡的压力所影响(goal difference)。因此,在神经层面,首要的问题是:哪些脑区定量编码这两种difference?

GLM1回答了这个问题。Goal difference和offer difference分别由rACC(前扣带回皮质喙部)和dACC(背侧前扣带回)编码。具体来说,和goal difference显著相关的脑区包括rACC([BA] 24, peak x=10, y=40, z=14, FDRq<0.01)、部分腹侧枕叶(peak x=-34, y=-48, z=-18; FDRq <0.005)和一部分背内侧前额叶(dmPFC);相应地,dACC([BA] 32)及其延伸到dmPFC的一部分脑区(peak x=6, y=28, z=38; FDRq < 1*10-11)、双侧脑岛(left peak: x=-34, y=20, z=-2; right peak: x=46, y=20, z=2; FDRq<0.02)、双侧顶下小叶(iPL)和双侧角回(left peak x=-46, y=-56, z=30; right peak x=50, y=-56, z=30; cluster – FDRq<0.005)与offer difference显著相关。如图6所示:

图6:ACC对offer difference和goal difference的响应(原Fig2B 2C)

2.2 GLM2: 纹状体编码receipt value,vmPFC编码redress value

在找到了和资源不均衡有关的脑区后,下一个问题又涉及到决策研究的基本出发点:价值。在这种比较特别的任务中,各种类型的价值是如何编码的呢?解决这个问题需要用到GLM2。GLM2针对3种价值,分别是所选offer自身的价值(receipt value),满足需求的offer的价值(goal receipt value)和决策对于消除资源不均衡的贡献(redress value)。和它们显著相关的cluster位置如下(图7):

1.Receipt value:双侧背侧纹状体(尾状核)至腹侧纹状体(peak x=-6, y=12, z=2; FDRq < 1*10-6)

2. Goal receipt value(负相关):dACC(peak x=14, y=28, z=26; FDRq < 0.05)

3. Redress value:vmPFC(peak x=6, y=52, z=2; FDRq < 0.001)和PCC(peak x=-6, y=-60, z=14; FDRq < 0.005),这两个脑区通常也在基于价值的决策任务中表现地很活跃。

图7:编码3种value的脑区(原Fig2E 2F 2G)

尽管有了上述证据,对这些现象,还有一种可能的解释:vmPFC真正编码的也许不是redress value,而是每个trial的金钱奖励。因为每个trial的奖励由少数动物决定,而redress的目的也是增加少数动物的数量。为了排除这一个可能性,研究者使用vmPFC的信号(选取了一个ROI)和当前trial少数动物的数量做回归,结果说明这种猜测并不成立(t20 = 0.02; p > 0.98),vmPFC和金钱奖励本身并不挂钩。因此,vmPFC真正编码的是redress。

上述的分析似乎说明,纹状体,dACC和vmPFC分别编码了3种不同的value,但目前的证据还是单向的,也就是只能说对于这每一种value来说,这些脑区分别有较大的响应;而反过来说,对于每一个脑区,它的活动是否最支持相应的value呢?为了验证这一点,研究者对每一个脑区(选取了ROI),分别使用3种value作为回归子,建立3个GLM模型,再使用贝叶斯模型选择方法计算这3个模型的相对优势(图8)。相对优势由exceedance probability这一指标量化,代表一种模型比其他所有模型都优越的似然性。

图8:贝叶斯模型选择结果(原Fig2H)

从图8中我们可以看到,对于纹状体和vmPFC,之前的结论被进一步强化了:对于纹状体来说,它和receipt value的关联最强,同时vmPFC和redress的关联也最强。然而现有证据不能支持dACC和goal receipt的强关联。如此看来,dACC对需求条件下的receipt value编码是非特异的,它可能同时还编码了其他种类的value。综上所述,背侧纹状体和vmPFC在当前任务情景下分别编码了不同种类的value。

2.3 GLM1&3:神经信号随时间的变化

在实验任务中,动物的数量随着任务的进行是不断变化的,从而造成了不断变化的补偿压力。结合GLM1和GLM3,研究者寻找对当前的多数资源(high asset),少数资源(low asset),距离block结束的进度(proximity),及其之间的交互作用作出响应的脑区。结果显示,后侧dmPFC(GLM1; peak x=-36, y=16, z=50; FDRq < 0.001)、双侧角回(left peak x=-50, y=-48, z=34; right peak x=54, y=-44, z=38; FDRq< 0.001)、背外侧前额叶(dlPFC)(left peak x=-34, y=20, z=46; right peak x=30, y=4, z=62; FDRq< 0.001)均编码了proximity的主效应(图9);此外,rACC对high asset*proximity的交互作用有显著的负响应(t20 = -2.16; p < 0.05)。

图9:Proximity存在主效应的部分(GLM1)(原Fig4A)

考虑到rACC同时参与了goal difference的编码,我们不由得问,rACC的活动能否预测被试的决策?以rACC活动,两种动物的数量,及其交互作用为自变量,决策结果为因变量做逻辑回归,结果显示,rACC的活动本身没有显著的主效应(t20 = 1.72; p > 0.10),但是它可以强化多数资源(t20 = 2.09; p < 0.05)和少数资源(t20 = -2.11; p < 0.05)对于决策的预测,也就是他们的交互作用显著(图10)。

图10:rACC活动预测每个trial的决策(原Fig4C)

如果您对任务态fMRI数据处理及相关产品感兴趣,请点击以下链接:

磁共振脑影像基础班

第六届任务态fMRI专题班(重庆4.8-13)

思影科技功能磁共振(fMRI)数据处理业务

目镜式功能磁共振刺激系统介绍

讨论:

人是如何维持各种资源的动态平衡呢?在一个基于价值的决策任务中,被试需要尽可能维持2种资源的均衡。实验数据表明,每一次做决策时,被试都会考虑很多因素,如①两种offer的价值②当前资源不均衡的压力③之后还能做决策的时间长短。

迄今为止,和决策有关的fMRI研究层出不穷,被广泛认可的说法是vmPFC正向编码被选中的选项的价值,而dACC则编码未被选中的选项的价值。然而,多数研究所遵从的基本假设是:每一个选项的价值都可以被对应到一个单值函数上,从而反映到总体收益的改变上。而本文认为,决策者会试图维持自身各种资源的均衡,因为决定一个个体能否生存的往往是那项最稀缺的资源,也就是“短板”。即使其他资源很充分,如果缺少某一种特定的资源,个体也难以生存。因此,本研究对价值的神经编码赋予了新的框架,即大脑时刻监控着资源的不均衡,随着不均衡程度变大,个体在进行决策的时候背负的压力也会增大。

在这个框架下,价值是通过需求反应的,需求又是由资源不均衡性决定的,同时,与各种决策因素相对应的神经信号得到了很好的分离。例如,rACC编码不均衡性带来的压力,而vmPFC则对能够减轻不均衡的选项做出正向响应。

vmPFC(腹内侧前额叶)和纹状体

该工作使得人们对vmpfc和纹状体的作用有了新的认识。以往有一些研究认为,纹状体和vmPFC同样编码决策的奖赏或者目标,而本文证实了它们之间的差异。首先,他们编码的奖赏的种类不一样,纹状体负责编码选项的价值本身,和预期目标无关,而vmPFC针对这个选项对达成目标的贡献(本实验中即为消除不均衡)有关。

更具体的说,以往认为纹状体编码一个决策行为长期平均的收益,而现有证据表明,纹状体只对当下这个offer做出响应。换言之,它关心的不是实际需求,也不是奖赏,而是短期内状态的一个改变。与此同时,皮层区域负责依照需求监控决策所带来的的价值。一方面,vmPFC不仅仅反应当前trial所做决策的价值,而且反映了trial与trial之间价值的提升;另一方面,这种对价值增量的编码还依赖于rACC对需求,也就是goal difference的编码。

决策领域存在一个难题:既然vmPFC在奖赏的编码中至关重要,为何vmPFC的损伤对那种要求资源最大化的决策过程影响很小?用本研究的结果解释,就是因为vmPFC编码的更多是所拥有的某种资源和其他资源的不均衡,而非offer之间价值的大小关系。类似的,在导航任务中,vmPFC信号也会在通往目的地的多个步骤中逐渐增强,因为每一步都缩短了当前和目标状态之间的距离,满足了一定的需求。所以,vmPFC的损伤不影响被试在不同的选项中做出决策。

ACC(前扣带皮层)

本研究还分离了ACC内部不同的价值编码。dACC此前被认为编码决策中所放弃的价值,或者是想要切换到有更多奖励的环境的需求。本研究中dACC区域对offer的数量做出响应,反映出offer的不均衡;rACC则追踪需求,反映当前资源的不均衡。与此同时,一块介于dACC和rACC之间的脑区似乎会在不同的框架下对价值进行编码。总体来说,ACC综合了offer和goal两方面因素进行决策,它同时反映出①offer的大小②决策对已有资源的改变③已有资源的不平衡关系。

在由DP得到的最佳决策模型和人类的实际决策中,任务的进程都会影响到决策。在每一个block的刚开始,决策者有充分的时间,使得defer决策在未来给决策者带来收益。但是当任务接近尾声时,资源不均衡的压力会逐渐增大,决策者会倾向于做redress决策。和机器相比,人类对于defer造成的短期牺牲更敏感,或者说在做计划时是更加短视的,也因此,在最后几个trial时他们更加偏向于redress。rACC是负责编码goal difference的,这种编码的程度随着时间的推移会减轻,说明人在做最后几次决定的时候,是单纯的希望redress,而不太受到goal difference大小的影响。

局限

该研究的一个局限是,实验本身受限于实验室的环境,在这个人为的环境中,被试的需求只依赖于做任务得到的金钱奖励,所以研究者难以通过对初级强化物(primary reinforcement)需求的改变,真正改变被试的内在需求。也因此,这个任务本身只能代表人类对某些特定情景的处理方式,比如如何在产出高质量科研成果和投入精力到教学工作中取得平衡。

意义

本研究对理解人类的健康和幸福有广泛的意义。本文假设幸福感与当前需求中的最小值相关,且决策的神经基础是根据目标维持需求之间的平衡。因此,和决策机制有关的一些病变,如抑郁,可能源于某个神经系统无法维持价值平衡,从而夸大目标资源的差异,或者说即使通过一些手段,资源不平衡已经消除,大脑对内在需求的价值估计还没能即时更新。

0 人点赞