2018-09-11 | Reward, Prediction and Brain Dopamine

报告人：Raymond Dolan

整理人：高天宇庞晨瑜

审核人：韩世辉

　　2018年9月11日下午，来自英国伦敦大学学院Wellcome Trust Centre for Neuroimaging、Max Planck UCL Centre for Computational Psychiatry and Ageing Research的主任Raymond Dolan教授受北京大学IDG/麦戈文脑科学研究所PI、北京大学心理与认知科学学院韩世辉教授的邀请来到北京大学，在王克桢楼1113会议室给大家带来了一场题为“Reward, Prediction and Brain Dopamine”的主题报告。Raymond Dolan教授是一位精神病学家，同时也是一位神经科学家，主要研究情绪、决策、奖赏和它们的神经调节控制，研究手段包括功能性核磁共振、脑磁图、计算模型等。Raymond Dolan教授的研究团队运用决策神经科学的基础知识去研究一系列精神疾病，包括抑郁症、焦虑障碍和强迫症等。在2017年，Raymond Dolan教授被授予了“The Brain Prize”，以表彰他在神经科学领域内做出的杰出贡献。在本次讲座中，Raymond Dolan教授主要介绍了数学算法是如何编码多巴胺神经元的放电模式，以及这种模式与人类学习和计划相关问题的联系。此外，Raymond Dolan教授还介绍了多巴胺的不足会如何影响人类学习。

多巴胺可以调节奖赏学习

　　Raymond Dolan教授回顾了奖赏行为的研究历史。早在1954年，Olds和Milner在小白鼠大脑的多个地方植入电极，实验设定小白鼠可以通过按压杠杆来刺激自己，结果发现小白鼠会多次重复地按压杠杆，来不断刺激自己的大脑，这种奖赏现象在当电极放置于septal region时最明显。然后到2016年，Ferenczi等人发现如果激活小白鼠大脑的多巴胺能神经元，小白鼠寻求奖赏的活动以及腹侧被盖区（ventral tegmental aera：VTA）的BOLD信号会增加；如果抑制多巴胺能神经元，小白鼠的奖赏活动和VTA脑区的BOLD信号会显著减少（图1）。这也证明了我们在纹状体观察的激活真的是来自多巴胺能神经元的活动。

图1

奖赏学习利用了预测误差信号

　　奖赏有着许多效应，其中一点是可以增强和保持学习。获得奖赏可以增强个体重复相同行为的可能性，这也被称作为刺激-反应行为。当我们在学习的时候，我们真正学到的是某种行为背后的价值。Raymond Dolan教授介绍了他在2003年发表在《Neuron》的研究。由巴普洛夫条件反射而引申出来的时间差异（temporal difference，TD）学习模型，巴普洛夫条件反射指的是动物学习当出现某个条件刺激（conditioned stimulus，CS）时，接着会呈现奖励。这个模型中关键的一点是预测误差（prediction error）信号，即当我们学会之前，神经反应出现在奖励呈现的时间窗，而当我们学会之后，神经反应会转移到CS呈现的时间窗。该研究运用了功能性核磁共振成像手段去探究产生这种信号的脑区。结果发现腹侧纹状体（ventral striatum）和眶额叶皮层（orbitofrontal cortex）与这种预测误差信号有着显著的相关。

　　然而上述研究被试只是被动得观看，不需要做出任何反应，所以接着提出的问题就是当被试需要作出某种行为才能获得奖赏时，会有什么变化。Raymond Dolan教授团队紧接着做了一个相似的实验，于2004年发表在《科学》杂志上。实验需要被试做出二选一，有一定的概率可以获得奖赏，为了排除纯粹的预测成分的干扰，控制组被试会完成一个经典的条件刺激任务，两种任务拥有一样的预测，但是控制组的被试不需要做任何反应，即控制组没有行为成分。结果发现纯粹的预测成分对应了腹侧纹状体（ventral striatum），而行为成分则与背侧纹状体（dorsal striatum）活动相对应（图2）。而这两种成分都出现了典型的TD效应。

图2

操纵多巴胺能神经元能影响奖赏学习，并且抑制多巴胺能神经元能够损伤奖赏学习

　　为了确定我们在上述研究中观测到的真的是多巴胺能神经元的反应，一种去检测的方法就是通过药物操纵多巴胺能神经元的活动。Raymond Dolan教授团队在2006年发表在《自然》杂志上的实验通过给予被试左旋多巴（Levodopa，L-DOPA）来增加多巴胺能神经元的活动，给予被试氟哌啶醇（Haloperidol）去抑制多巴胺能神经元的活动，另外对于控制组被试会被给予安慰剂。在研究中，预测误差被认为是预期和实际结果之间的差距，我们认为被试每做出一次选择所得到的结果，会被用来更新个体的预测误差，也会继而影响到被试下一次做出这种选择的概率。实验任务是被试为了赢得更多的钱，需要学习选择哪种刺激是最优的。结果显示，预测误差在腹侧纹状体的BOLD信号在L-DOPA处理下显著升高，在Haloperidol处理下显著降低。与安慰剂组相比，L-DOPA处理下的被试表现更好，而Haloperidol处理下的被试表现更差（图3）。即操纵多巴胺能神经元可以影响个体的奖赏学习。

图3 L-DOPA（绿色），Haloperidol（红色），安慰剂（灰色）

　　随着我们一天天得老去，我们的多巴胺能神经元的功能渐渐变差。在2013年，Raymond Dolan教授团队发表在《Nature Neuroscience》上的文章探究了年龄对于奖赏学习的影响。实验设计跟之前的研究十分类似，被试为了得到更多的钱，需要去学习选择哪种刺激是最优的。为了使得实验任务更加难，在整个实验过程中，同一种刺激所代表的赢钱概率会发生改变。结果显示，20岁的被试比65至75岁的被试显著表现得更好。然而如果我们给予老年人被试L-DOPA，来增加他们多巴胺能神经元的活动，结果发现那些被试的表现变好了（图4）。

图4

　　另外，在伏隔核（nucleus accumbens）发现老年人组的奖赏预测误差（reward prediction error，RPE）信号是不完全，即在伏隔核，奖赏的BOLD信号显著高于预期价值。当老年人组在L-DOPA条件下，赢钱更多的被试，预期价值的负性效应显著增加了，即有更好的学习曲线；而赢钱较少的被试则与安慰剂组没有显著差异。此外，仅在L-DOPA条件下，我们在伏隔核发现了一个标准的RPE，具体来说是，一个正性的预期价值出现在被试做出选择，并且反馈一个正性的奖赏，和一个负性的预期价值出现在反馈阶段。也就是说在伏隔核存储了个体对于预期价值的表征。

图5

预测误差为多属性学习中提供重要信息（比如耗费多少力气/关于自我的信念）

　　奖赏以外的，其他属性的学习信号，譬如力气（effort）是否跟多巴胺系统有着不可湮灭的关系？Raymond Dolan 教授讲述了他们2017年发表在PANS上的一篇研究（Hause, et al., 2017），在同时具有两类学习信号（奖赏和力气）学习过程中，人们也能够很好地通过结果来调整付出的力气，如上图所示，在上一次成功之后，人们会减少付出的力气，相反，在上一次尝试失败之后，力气会增大（如图6所示）；

图6

　　在该研究中，他们提出的计算模型可以很好地预测每个试次中被试付出的力气大小；根据他们的计算模型可以得到关于力气的预测误差；与前人研究一致，大脑加工奖赏预测误差是在腹侧纹状体区域，但他们进一步发现，加工力气预测误差是在腹内侧前额叶区域（如图7所示）。进一步通过感兴趣脑区分析发现加工奖赏预测误差的中脑多巴胺区域：黑质致密区/腹侧被盖区，也同时加工与力气相关的预测误差，进一步结构关联分析表明，这两种学习信号由在中脑多巴胺不同的子区域编码，这证明除了多巴胺系统不仅编码与奖赏相关的学习信号，也参与编码其他属性的学习信号。

图7

　　接着，Raymond Dolan教授进一步提出一个问题：是否我们会运用预测误差来会影响与自我有关的学习，他介绍了他们实验室关于自尊的研究，他们创造了一个社会评价的实验范式（如图8所示），由四名严厉程度评价者给予被试喜欢\不喜欢的社会评价，来探讨是否被试自己的预期与社会评价的差异会影响被试的自尊水平。

图8

　　结果表明的确对社会评价的预测误差会影响自尊水平，如果预期得到正性评价，最终却得到负性评价会降低自尊水平，相反，预期负性评价，却得到正性评价会提高自尊水平（如图9所示）。特别是正性评价来自于最严厉的评价者时，增强的效果远远强于经常给出正性评价的温和评价者。fMRI 结果表明与自尊更新有关的脑区在腹内侧前额叶，编码社会预测偏差的脑区在腹侧纹状体/膝下前扣带回。Raymond Dolan教授介绍在另一个还未发表的研究中，运用同样的范式，但区分了人群中高自尊与低自尊两类人，发现相比于高自尊的人，低自尊的个体的自尊水平更加容易受到外界社会评价的影响，并且学习跟自我有关的能力也比较低。

图9

　　在社会交往中，人们不仅要在大脑中表征关于自我的学习信号，同时也需要表征他人相关的学习信号。在讲座的最后，Raymond Dolan教授介绍他们2018年发表在PLos Biology 上的一个关于人们大脑是如何表征自我-他人学习信号的研究。结合计算模型和脑磁图技术，发现大脑活动能过很好地区别表征关于自我和他人的学习信号，如图10所示，只有在社会情境下，刺激（自我vs.他人）出现后300ms的大脑活动的空间模式可以被分类器解码，（分类正确率显著大于随机水平）。并且这种神经活动上的自我-他人分离水平与行为上自我-他人分辨能力是一致的，意味着神经活动上自我-他人分离约模糊的个体在现实表现中分辨自我-他人界限的能力也较弱，而且这种区分能力弱的个体也表现出更多的与各类精神疾病相关的特质（如图10）。

图10

　　最后，Raymond Dolan教授热情详细地回答了每个同学、老师提出的问题，在同学们热烈的掌声中本次讲座圆满结束。

参考文献

Chowdhury, R., Guitartmasip, M., Lambert, C., Dayan, P., Huys, Q., & Düzel, E., et al. (2014). Dopamine restores reward prediction errors in old age. Nature Neuroscience, 17(12), 648.

Ereira, S., Dolan, R. J., & Kurth-Nelson, Z. (2018). Agent-specific learning signals for self–other distinction during mentalising. PLoS biology, 16(4), e2004752.

Ferenczi, E. A., Zalocusky, K. A., Liston, C., Grosenick, L., Warden, M. R., & Amatya, D., et al. (2016). Prefrontal cortical regulation of brainwide circuit dynamics and reward-related behavior. Science, 351(6268), aac9698.

Hauser, T. U., Eldar, E., & Dolan, R. J. (2017). Separate mesocortical and mesolimbic pathways encode effort and reward learning signals. Proceedings of the National Academy of Sciences, 114(35), E7395-E7404.

O'Doherty, J. P., Dayan, P., Friston, K., Critchley, H., & Dolan, R. J. (2003). Temporal difference models and reward-related learning in the human brain. Neuron, 38(2), 329-337.

O'Doherty, J., Dayan, P., Schultz, J., Deichmann, R., Friston, K., & Dolan, R. J. (2004). Dissociable roles of ventral and dorsal striatum in instrumental conditioning. Science, 304(5669), 452-454.

Olds, J., & Milner, P. (1954). Positive reinforcement produced by electrical stimulation of septal area and other regions of rat brain. Journal of Comparative & Physiological Psychology, 47(6), 419.

Pessiglione, M., Seymour, B., Flandin, G., Dolan, R. J., & Frith, C. D. (2006). Dopamine-dependent prediction errors underpin reward-seeking behaviour in humans. Nature, 442(7106), 1042-1045.

Will, G. J., Rutledge, R. B., Moutoussis, M., & Dolan, R. J. (2017). Neural and computational processes underlying dynamic changes in self-esteem. Elife, 6, e28098.