董晨杰 梁晶晶 董玉媛 鄭鐘艷 彭子文
?
目標(biāo)導(dǎo)向?習(xí)慣學(xué)習(xí)系統(tǒng)的神經(jīng)機(jī)制*
董晨杰1梁晶晶1董玉媛2鄭鐘艷1彭子文1
(1華南師范大學(xué)心理學(xué)院, 廣州 510631) (2重慶師范大學(xué)教育科學(xué)學(xué)院, 重慶 401331)
行為學(xué)習(xí)雙系統(tǒng)模型認(rèn)為行為習(xí)得涉及兩個(gè)系統(tǒng):目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng), 前者是對(duì)行為反應(yīng)與結(jié)果之間的聯(lián)結(jié)進(jìn)行動(dòng)態(tài)加工的學(xué)習(xí)系統(tǒng), 與尾狀核、腹內(nèi)側(cè)前額葉皮質(zhì)、眶額葉皮質(zhì)相關(guān); 后者是對(duì)刺激?反應(yīng)關(guān)系自動(dòng)化加工的學(xué)習(xí)系統(tǒng), 與殼核、輔助運(yùn)動(dòng)區(qū)相關(guān)。這兩種行為學(xué)習(xí)系統(tǒng)的研究范式主要有結(jié)果貶值范式和偶然性降低范式。大量研究發(fā)現(xiàn)強(qiáng)迫癥、自閉癥、成癮等心理、精神疾病均表現(xiàn)出目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)缺損, 且這種缺損在患病不同階段呈現(xiàn)動(dòng)態(tài)變化過(guò)程。
目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng); 習(xí)慣學(xué)習(xí)系統(tǒng); 尾狀核; 殼核; 刻板行為
在日常生活中, 為適應(yīng)紛繁復(fù)雜的環(huán)境, 個(gè)體會(huì)采用習(xí)慣、自動(dòng)化的動(dòng)作來(lái)提高生活、工作效率, 比如進(jìn)門順手脫衣服并掛在固定位置; 警察辦案時(shí)對(duì)罪犯采取的一系列手到擒來(lái)的動(dòng)作。同時(shí), 個(gè)體需要抑制某些習(xí)慣行為, 有意識(shí)地調(diào)整自己的行為以應(yīng)對(duì)各種突發(fā)狀況, 或靈活適應(yīng)環(huán)境的變化, 比如去朋友家拜訪時(shí)進(jìn)門順手脫衣服就不太妥當(dāng); 警察辦案時(shí)的系列反應(yīng)不宜帶入家庭生活。根據(jù)行為學(xué)習(xí)的雙系統(tǒng)模型, 這兩種不同的行為模式涉及到兩個(gè)關(guān)鍵的行為學(xué)習(xí)系統(tǒng)——目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)(Goal-direct learning system)和習(xí)慣學(xué)習(xí)系統(tǒng)(Habitual learning system) (Cushman & Morris, 2015; Dolan & Dayan, 2013; Hadj- Bouziane et al., 2013)。
目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)也被稱為基于模型的學(xué)習(xí)系統(tǒng)(Model-based learning), 是一種對(duì)行為反應(yīng)與潛在結(jié)果間的聯(lián)結(jié)進(jìn)行深入、動(dòng)態(tài)加工的學(xué)習(xí)機(jī)制, 根據(jù)結(jié)果的價(jià)值變化調(diào)整行為反應(yīng); 它具有較高的靈活性, 能夠迅速適應(yīng)不斷變化的外界環(huán)境, 同時(shí)也消耗較多的認(rèn)知資源, 增加工作記憶的負(fù)荷(Cushman & Morris, 2015; Dolan & Dayan, 2013; G?siarz & Crockett, 2015)。習(xí)慣學(xué)習(xí)系統(tǒng)也被稱為無(wú)模型學(xué)習(xí)系統(tǒng)(Model-free learning), 是對(duì)先前形成的刺激?反應(yīng)聯(lián)結(jié)進(jìn)行強(qiáng)化的結(jié)果, 行為反應(yīng)僅基于刺激信號(hào), 而不考慮結(jié)果的改變; 它是一種自動(dòng)化、高效但不靈活的行為習(xí)得機(jī)制, 通常占用較少的認(rèn)知資源(Cushman & Morris, 2015; Dolan & Dayan, 2013; G?siarz & Crockett, 2015)。正常情況下, 個(gè)體在做出行為反應(yīng)時(shí)其目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)能夠根據(jù)外界環(huán)境的變化密切配合、靈活切換(Cushman & Morris, 2015; Dolan & Dayan, 2013; G?siarz & Crockett, 2015)。例如, 隨著過(guò)度訓(xùn)練, 個(gè)體對(duì)任務(wù)熟悉度的增加, 目標(biāo)導(dǎo)向行為會(huì)逐漸向習(xí)慣行為過(guò)渡; 當(dāng)外界環(huán)境發(fā)生變化時(shí), 個(gè)體又會(huì)重新采用目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)對(duì)行為反應(yīng)進(jìn)行調(diào)整與轉(zhuǎn)換(Dolan & Dayan, 2013)。對(duì)這兩種行為學(xué)習(xí)系統(tǒng)的研究范式主要有兩類, 一類是結(jié)果貶值范式(Outcome Devaluation, OD), 另一類是偶然性降低范式(Contingency Degradation, CD), 這兩種范式都能很好地區(qū)分個(gè)體的目標(biāo)導(dǎo)向行為和習(xí)慣行為(Balleine & O'Doherty, 2010; Dolan & Dayan, 2013)。
前人關(guān)于動(dòng)物研究、腦損傷研究、腦影像學(xué)研究均表明目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)和習(xí)慣學(xué)習(xí)系統(tǒng)的神經(jīng)機(jī)制存在一定差異, 前者主要與背內(nèi)側(cè)紋狀體(dorsal medial striatum, DMS)尾狀核(caudate)、腹內(nèi)側(cè)前額葉皮質(zhì)(ventromedial prefrontal cortex, vmPFC)、眶額葉皮質(zhì)(orbitofrontal cortex, OFC)、前扣帶回皮質(zhì)(anterior cingulate cortex, ACC)密切相關(guān)(Gremel & Rui, 2013; Jahanshahi, Obeso, Rothwell, & Obeso, 2015; Wunderlich, Dayan, & Dolan, 2012); 而后者主要與背外側(cè)紋狀體(dorsal lateral striatum, DLS)殼核(putamen)、輔助運(yùn)動(dòng)區(qū)(supplementary motor area SMA)、腦島有關(guān)(Jahanshahi et al., 2015; Morris et al., 2016; Wunderlich et al., 2012)。神經(jīng)遞質(zhì)研究顯示兩種行為學(xué)習(xí)系統(tǒng)與谷氨酸、γ-氨基丁酸(γ-aminobutyric acid, GABA)等神經(jīng)遞質(zhì)有關(guān)(Fettes, Schulze, & Downar, 2017)。此外, 這兩種行為學(xué)習(xí)系統(tǒng)的紊亂與許多心理問(wèn)題、精神疾病及神經(jīng)疾病的臨床癥狀密切相關(guān), 如強(qiáng)迫癥(Gillan & Robbins, 2014)、自閉癥(Alvares, Balleine, Whittle, & Guastella, 2016)、成癮(Sebold et al., 2014)、應(yīng)激(Schwabe & Wolf, 2011)、精神分裂癥(Culbreth, Westbrook, Daw, Botvinick, & Barch, 2016)、帕金森癥(De Wit, Barker, Dickinson, & Cools, 2011)等。
本文綜述了國(guó)內(nèi)外目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)的研究現(xiàn)狀, 主要涉及兩種行為學(xué)習(xí)系統(tǒng)的神經(jīng)機(jī)制及其在心理精神疾病中的應(yīng)用兩方面。首先, 回顧了目標(biāo)導(dǎo)向?qū)W習(xí)與習(xí)慣學(xué)習(xí)的研究歷史進(jìn)程及其研究范式; 其次, 分別介紹目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)、習(xí)慣學(xué)習(xí)系統(tǒng)的神經(jīng)機(jī)制研究現(xiàn)狀; 再次, 從多角度綜述了目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)和習(xí)慣學(xué)習(xí)系統(tǒng)在心理、精神疾病研究中的具體應(yīng)用; 最后, 對(duì)當(dāng)前研究進(jìn)行了總結(jié), 并提出了目前該領(lǐng)域待解決的一些關(guān)鍵問(wèn)題。
目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)最早發(fā)端于心理學(xué)中行為主義刺激?反應(yīng)觀點(diǎn)與托爾曼認(rèn)知地圖的爭(zhēng)論(Dolan & Dayan, 2013; G?siarz & Crockett, 2015; Gillan & Robbins, 2014)。早期研究發(fā)現(xiàn)隨著訓(xùn)練次數(shù)和經(jīng)驗(yàn)的增多, 動(dòng)物到達(dá)目標(biāo)的時(shí)間越來(lái)越短, 錯(cuò)誤率也越來(lái)越低; 刺激?反應(yīng)理論將此歸因于隨著練習(xí)次數(shù)的增多, 刺激與反應(yīng)之間的聯(lián)結(jié)增強(qiáng), 行為得到易化; 然而托爾曼則認(rèn)為動(dòng)物習(xí)得了對(duì)環(huán)境的“認(rèn)知地圖”, 以此為導(dǎo)向進(jìn)行反應(yīng), 并提出了潛伏學(xué)習(xí)的觀點(diǎn)(Dolan & Dayan, 2013; Isoda & Hikosaka, 2011)。在這一爭(zhēng)論的基礎(chǔ)上產(chǎn)生了對(duì)目標(biāo)導(dǎo)向?qū)W習(xí)與習(xí)慣學(xué)習(xí)的初始研究。此時(shí)研究者傾向于采用非此即彼的二分觀點(diǎn), 提出目標(biāo)導(dǎo)向行為需滿足(Dolan & Dayan, 2013; G?siarz & Crockett, 2015):(1)該行為反映了行為?結(jié)果之間的知識(shí), (2)行為結(jié)果在決策中起著動(dòng)機(jī)作用。習(xí)慣行為需滿足(Dolan & Dayan, 2013; G?siarz & Crockett, 2015):自動(dòng)化、計(jì)算高效、不靈活等特征。研究者們通過(guò)大量精巧的動(dòng)物行為實(shí)驗(yàn)范式, 如CD、OD范式發(fā)現(xiàn)動(dòng)物DMS與DLS分別在兩種學(xué)習(xí)系統(tǒng)中起不同作用(Balleine & O'Doherty, 2010; Gremel & Rui, 2013)。隨著技術(shù)的進(jìn)步, 這些行為范式逐漸應(yīng)用于人類兩種行為學(xué)習(xí)系統(tǒng)的神經(jīng)機(jī)制研究。進(jìn)一步研究發(fā)現(xiàn)人類DMS、vmPFC、OFC、ACC等腦區(qū)與目標(biāo)導(dǎo)向?qū)W習(xí)相關(guān)(Balleine & O'Doherty, 2010); 而殼核、SMA等區(qū)域則與習(xí)慣學(xué)習(xí)密切聯(lián)系(Balleine & O'Doherty, 2010)。前一階段的豐富研究成果, 促成了對(duì)于兩種行為學(xué)習(xí)系統(tǒng)更準(zhǔn)確地理論解釋。隨著計(jì)算機(jī)建模技術(shù)、機(jī)器學(xué)習(xí)等方法的進(jìn)步, 研究者基于強(qiáng)化學(xué)習(xí)理論提出基于模型的學(xué)習(xí)系統(tǒng)和無(wú)模型學(xué)習(xí)系統(tǒng)兩種模式, 并對(duì)兩種模式的競(jìng)爭(zhēng)與合作提出多種計(jì)算模型(Cushman & Morris, 2015; Daw, Niv, & Dayan, 2006), 進(jìn)行了更深入地研究與探索(詳細(xì)研究歷程見(jiàn)Dolan & Dayan, 2013)。
研究目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)的常用范式主要有兩種:OD和CD范式(Balleine & O'Doherty, 2010)。OD范式分兩步(具體見(jiàn)Gillan & Robbins, 2014), 首先, 讓被試習(xí)得刺激與結(jié)果之間的固定聯(lián)系, 即建立操作性條件學(xué)習(xí)的過(guò)程。其次, 在進(jìn)行消退測(cè)試之前, 撤銷掉其中一個(gè)刺激對(duì)應(yīng)的結(jié)果, 考察被試對(duì)于已撤銷結(jié)果的刺激(貶值結(jié)果)與未撤銷結(jié)果的刺激的反應(yīng)差異。若被試減少了對(duì)貶值結(jié)果相應(yīng)行為的反應(yīng), 則其行為是以目標(biāo)為導(dǎo)向的; 若被試仍繼續(xù)執(zhí)行與貶值結(jié)果相對(duì)應(yīng)的行為, 也就是說(shuō)對(duì)結(jié)果的價(jià)值變化不敏感, 即表現(xiàn)出習(xí)慣行為。
CD范式中(具體見(jiàn) Balleine & O'Doherty, 2010; Balleine, Killcross & Dickinson, 2003)引入了獨(dú)立于行為反應(yīng)的隨機(jī)結(jié)果。被試首先接受兩種操作性行為的訓(xùn)練, 每種行為對(duì)應(yīng)不同的結(jié)果。在隨后的CD任務(wù)中, 撤銷其中一種反應(yīng)?結(jié)果之間確定的對(duì)應(yīng)關(guān)系, 即無(wú)論被試反應(yīng)與否, 結(jié)果總會(huì)根據(jù)一定的概率出現(xiàn)。接下來(lái)為測(cè)驗(yàn)階段, 若被試減少了結(jié)果按概率出現(xiàn)的反應(yīng), 則認(rèn)為其行為是目標(biāo)導(dǎo)向的; 若被試依舊按照訓(xùn)練階段做出反應(yīng), 就認(rèn)為是習(xí)慣行為。
早期關(guān)于動(dòng)物目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)神經(jīng)機(jī)制的研究顯示, 額葉緣前皮層(prelimbic cortex)和DMS在動(dòng)物進(jìn)行目標(biāo)導(dǎo)向?qū)W習(xí)中起重要作用(Balleine & O'Doherty, 2010)。緣前皮層受損的動(dòng)物無(wú)法習(xí)得新的目標(biāo)導(dǎo)向行為, 但不影響已經(jīng)習(xí)得的目標(biāo)導(dǎo)向行為的表現(xiàn)(Ostlund & Balleine, 2005)。而DMS則在目標(biāo)導(dǎo)向行為的習(xí)得與表現(xiàn)過(guò)程中均起到重要作用, 即該區(qū)域受損的動(dòng)物不僅無(wú)法習(xí)得目標(biāo)導(dǎo)向行為, 其原有的目標(biāo)導(dǎo)向行為也會(huì)受到影響(Yin, Knowlton, & Balleine, 2004)。此外, Michael等人還發(fā)現(xiàn)腹側(cè)紋狀體(伏隔核)、OFC與動(dòng)物的目標(biāo)導(dǎo)向行為習(xí)得密切相關(guān), 其中腹側(cè)紋狀體主要與反應(yīng)?獎(jiǎng)賞的習(xí)得有關(guān), 而OFC在根據(jù)獎(jiǎng)賞的變化對(duì)行為的調(diào)節(jié)中起著重要作用(McDannald, Lucantonio, Burke, Niv, & Schoenbaum, 2011)。Gremel和Rui (2013)發(fā)現(xiàn), 在不同的行為學(xué)習(xí)過(guò)程中, DMS、DLS、OFC的神經(jīng)元活動(dòng)不同, 在目標(biāo)導(dǎo)向行為學(xué)習(xí)中DMS和OFC神經(jīng)元活動(dòng)增強(qiáng), DLS神經(jīng)元活動(dòng)減少; 而在習(xí)慣行為學(xué)習(xí)過(guò)程中, DLS和OFC神經(jīng)元活動(dòng)增強(qiáng), DMS神經(jīng)元活動(dòng)減少?;诖? 研究者認(rèn)為OFC主要涉及對(duì)行為獎(jiǎng)賞的評(píng)估, 而DMS與DLS與行為策略的調(diào)整有關(guān)(Gremel & Rui, 2013)。神經(jīng)遞質(zhì)研究顯示, 目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與額葉?紋狀體?下丘腦(subthalamic nucleus, STN)?額葉間接通路中GABA、谷氨酸密切相關(guān), 紋狀體釋放GABA至外側(cè)蒼白球(globus pallidus externa, GPe), 減輕其對(duì)STN的抑制, 導(dǎo)致STN釋放更多興奮性神經(jīng)遞質(zhì)到內(nèi)側(cè)蒼白球(globus pallidus interna, Gpi)與黑質(zhì)密部, 增加蒼白球內(nèi)側(cè)和黑質(zhì)密部對(duì)丘腦的抑制作用, 導(dǎo)致丘腦谷氨酸釋放減少, 進(jìn)而降低額葉的興奮, 該環(huán)路主要參與有意地運(yùn)動(dòng)控制、反應(yīng)抑制(Haber, 2016; Jahanshahi et al., 2015)。
人類的目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)主要與DMS、vmPFC、OFC、ACC等腦區(qū)密切相關(guān)(Balleine & O'Doherty, 2010; Wunderlich et al., 2012)。這些區(qū)域均有著大量神經(jīng)投射連接, 共同組成了與額葉?內(nèi)側(cè)紋狀體認(rèn)知控制環(huán)路(Associative circuit) (Jahanshahi et al., 2015; Postuma & Dagher, 2006)。其中OFC、vmPFC主要負(fù)責(zé)價(jià)值表征和結(jié)果評(píng)估, 并將價(jià)值判斷信息傳遞到基底神經(jīng)節(jié)區(qū)域; 而尾狀核、蒼白球(globus pallidus)、黑質(zhì)(substantia nigra, SN)等區(qū)域則整合來(lái)自額葉皮層的信息參與反應(yīng)選擇和行為習(xí)得, 并再次將信息反饋至前額葉區(qū)域, 共同實(shí)現(xiàn)基于目標(biāo)導(dǎo)向的行為反應(yīng)過(guò)程(Fettes et al., 2017; Haber, 2016)。其具體機(jī)制如下:
OFC在表征目標(biāo)的價(jià)值中起重要作用。一方面OFC對(duì)目標(biāo)的價(jià)值進(jìn)行編碼, 同時(shí)按照任務(wù)要求對(duì)目標(biāo)價(jià)值的變化進(jìn)行優(yōu)次排序(Fettes et al., 2017; Valentin, Dickinson, & O'Doherty, 2007); 另一方面OFC對(duì)行為反應(yīng)的價(jià)值進(jìn)行評(píng)估, 并在行為反應(yīng)中起仲裁作用(Lee, Shimojo, & O’Doherty, 2014)。 Valentin等(2007)采用以食物為獎(jiǎng)賞的OD范式, 比較被試在對(duì)撤銷的獎(jiǎng)賞(讓被試對(duì)這種食物產(chǎn)生飽腹感)與未撤銷的獎(jiǎng)賞進(jìn)行反應(yīng)時(shí)其腦區(qū)激活的差異, 發(fā)現(xiàn)內(nèi)側(cè)OFC激活降低, 說(shuō)明OFC對(duì)行為結(jié)果的價(jià)值變化敏感, O'Doherty (2011)也有類似的發(fā)現(xiàn)。此外, 也有研究者發(fā)現(xiàn), OFC決定個(gè)體在獎(jiǎng)勵(lì)預(yù)測(cè)誤差和虛構(gòu)錯(cuò)誤等社會(huì)認(rèn)知任務(wù)中的行為表現(xiàn)(Boorman, O'Doherty, Adolphs, & Rangel, 2013; Jonker, Jonker, Scheltens, & Scherder, 2015)。
vmPFC在目標(biāo)導(dǎo)向行為習(xí)得過(guò)程中起著重要作用, 特別是對(duì)動(dòng)態(tài)變化的行為結(jié)果的價(jià)值評(píng)估(O'Doherty, 2011; Tanaka, Balleine, & O'Doherty, 2008; Wunderlich et al., 2012), 同時(shí)還參與情感整合評(píng)估和行為調(diào)節(jié)(Apergis-Schoute et al., 2017)。De Wit, Corlett, Aitken, Dickinson和Fletcher (2009)等人使用fMRI考察健康成年人在進(jìn)行OD任務(wù)時(shí)大腦的活動(dòng)狀況, 結(jié)果發(fā)現(xiàn)當(dāng)行為的潛在獎(jiǎng)賞發(fā)生變化后, 被試在進(jìn)行決策時(shí)vmPFC激活顯著增強(qiáng)。Plassmann等人采用支付意愿范式(willingness to pay)通過(guò)拍賣的方式, 被試可以購(gòu)買避免吃厭惡食物的權(quán)利, 在自由支付任務(wù)中, 出價(jià)高低表明對(duì)食物的欲望和厭惡程度; 通過(guò)考察自由任務(wù)的支付情況, 衡量大腦在每次支付決策過(guò)程估計(jì)的厭惡目標(biāo)值, 結(jié)果發(fā)現(xiàn)vmPFC的激活會(huì)隨著結(jié)果潛在價(jià)值的改變而改變(Plassmann, O'Doherty, & Rangel, 2010)。
尾狀核是額葉?內(nèi)側(cè)紋狀體環(huán)路中認(rèn)知控制子環(huán)路的核心成分, 在行為抑制、調(diào)節(jié)中起作用(Jahanshahi et al., 2015)。以往研究顯示DMS參與獎(jiǎng)賞加工與操作性行為習(xí)得; 也有研究者認(rèn)為紋狀體參與目標(biāo)導(dǎo)向行為策略選擇 (Tricomi, Delgado, & Fiez, 2004)。Wunderlich et al. (2012) 采用基于價(jià)值的決策任務(wù)(Value-based choice)發(fā)現(xiàn)內(nèi)側(cè)尾狀核、丘腦、雙側(cè)前腦島、背內(nèi)側(cè)前額葉皮質(zhì)在目標(biāo)導(dǎo)向?qū)W習(xí)中激活顯著增強(qiáng), 并進(jìn)一步指出內(nèi)側(cè)紋狀體更多參與計(jì)劃加工, 其從屬于一個(gè)綜合的個(gè)體行為反應(yīng)價(jià)值的計(jì)算系統(tǒng)。Brovelli, Nazarian, Meunier和Boussaoud (2011)采用強(qiáng)化學(xué)習(xí)任務(wù), 發(fā)現(xiàn)尾狀核頭部與目標(biāo)導(dǎo)向行為密切相關(guān), 并認(rèn)為尾狀核主要是對(duì)行為表現(xiàn)進(jìn)行監(jiān)測(cè), 并將這種監(jiān)測(cè)信息與實(shí)時(shí)的認(rèn)知控制要求相結(jié)合, 進(jìn)而促進(jìn)個(gè)體表現(xiàn)出靈活性的反應(yīng)模式; 尾狀核受損的病人則無(wú)法對(duì)行為表現(xiàn)與任務(wù)要求的變化進(jìn)行整合, 故而難以習(xí)得目標(biāo)導(dǎo)向行為。然而, Rostami等人采用制糖廠任務(wù)(sugar production factory task, SPF)要求被試在已知工人數(shù)、當(dāng)前生產(chǎn)水平和目標(biāo)生產(chǎn)水平的情況下, 通過(guò)調(diào)整參與生產(chǎn)的工人數(shù)量來(lái)達(dá)到并保持指定目標(biāo)水平的糖產(chǎn)量。結(jié)果顯示相對(duì)于目標(biāo)值為零的控制組, SPF組被試內(nèi)側(cè)額葉激活降低, 但并未發(fā)現(xiàn)紋狀體參與到目標(biāo)導(dǎo)向的學(xué)習(xí)任務(wù)中, 研究者認(rèn)為可能是SPF任務(wù)及其行為?結(jié)果聯(lián)結(jié)的特殊性所致(Rostami, Hosseini, Takahashi, Sugiura, & Kawashima, 2009)。
還有研究發(fā)現(xiàn)其他一些腦區(qū)也參與目標(biāo)導(dǎo)向?qū)W習(xí)的過(guò)程中。如與工作記憶相關(guān)的右側(cè)下頂葉(right inferior parietal lobule, IPL), 可能與目標(biāo)導(dǎo)向信息加工過(guò)程中工作記憶的負(fù)載有關(guān)(Rostami et al., 2009); 與執(zhí)行控制有關(guān)的背外側(cè)前額葉皮質(zhì), 研究發(fā)現(xiàn)用經(jīng)顱磁刺激(Transcranial Magnetic Stimulation, TMS)干擾背外側(cè)前額葉皮質(zhì)時(shí), 被試的目標(biāo)導(dǎo)向?qū)W習(xí)則會(huì)受損, 更傾向于習(xí)慣化反應(yīng)(Smittenaar, FitzGerald, Romei, Wright, & Dolan, 2013)。任務(wù)相關(guān)功能連接分析(Spreng, Stevens, Chamberlain, Gilmore, & Schacter, 2010)結(jié)果也發(fā)現(xiàn), 額頂控制網(wǎng)絡(luò)可根據(jù)任務(wù)要求靈活地調(diào)節(jié)默認(rèn)網(wǎng)絡(luò)與背側(cè)注意網(wǎng)絡(luò)以共同完成目標(biāo)導(dǎo)向任務(wù),其中默認(rèn)網(wǎng)絡(luò)主要涉及自傳體計(jì)劃, 而背側(cè)注意網(wǎng)絡(luò)主要涉及視覺(jué)空間計(jì)劃。
習(xí)慣學(xué)習(xí)系統(tǒng)主要涉及由殼核與SMA構(gòu)成的前額葉?背外側(cè)紋狀體感覺(jué)運(yùn)動(dòng)環(huán)路(sensorimotor fronto-striatal loop) (Brovelli et al., 2011; Jahanshahi et al., 2015; Wunderlich et al., 2012) 為核心的廣泛腦區(qū), 如腦島、顳中回、體感聯(lián)合區(qū)和中央后回等區(qū)域(Ashby, Turner, & Horvitz, 2010; Balleine & O'Doherty, 2010; Isoda & Hikosaka, 2011; Tricomi, Balleine, & O'Doherty, 2009)。神經(jīng)解剖研究顯示, 輔助運(yùn)動(dòng)區(qū)到殼核的神經(jīng)投射與習(xí)慣行為產(chǎn)生有緊密關(guān)系(Ito & Doya, 2015; Postuma & Dagher, 2006; Schiltz, 2006)。來(lái)自運(yùn)動(dòng)區(qū)域的信號(hào)投射至殼核經(jīng)由Gpi、黑質(zhì)、STN等區(qū)域反饋至額葉激發(fā)個(gè)體的行為反應(yīng)。腦損傷研究顯示, DLS受損的動(dòng)物在過(guò)度訓(xùn)練后仍然對(duì)行為結(jié)果十分敏感, 無(wú)法形成習(xí)慣性行為模式, 這說(shuō)明背外側(cè)紋狀體在習(xí)慣行為產(chǎn)生中起重要作用(Yin et al., 2004)。神經(jīng)遞質(zhì)研究顯示, 在額葉?紋狀體?下丘腦?額葉直接通路中, 額葉和ACC釋放興奮性谷氨酸到紋狀體, 促進(jìn)紋狀體分泌大量GABA到GPi與SN, 進(jìn)而減少兩者對(duì)丘腦的抑制, 導(dǎo)致丘腦釋放大量的興奮性谷氨酸至額葉皮層, 激發(fā)運(yùn)動(dòng)和促進(jìn)行為, 這與習(xí)慣學(xué)習(xí)的產(chǎn)生密切相關(guān)(Haber, 2016; Jahanshahi et al., 2015)。
大量關(guān)于習(xí)慣行為習(xí)得機(jī)制的研究都是基于動(dòng)物實(shí)驗(yàn), 為數(shù)不多的以人為被試的研究也得出相似的結(jié)果。一項(xiàng)基于食物的OD范式研究顯示, 在隨后的習(xí)慣行為傾向測(cè)試中, 經(jīng)過(guò)三天過(guò)度訓(xùn)練的健康成年被試比簡(jiǎn)短訓(xùn)練(一天)對(duì)照組被試在殼核表現(xiàn)出更強(qiáng)的激活(Tricomi et al., 2009)。此外, 過(guò)度訓(xùn)練組被試的殼核與前運(yùn)動(dòng)區(qū)的功能連接增強(qiáng)(De Wit et al., 2012), 這進(jìn)一步驗(yàn)證了殼核在人類習(xí)慣行為習(xí)得中的作用。Morris 等(2016)研究也發(fā)現(xiàn), 殼核、輔助運(yùn)動(dòng)區(qū)組成的運(yùn)動(dòng)環(huán)路與習(xí)慣行為習(xí)得機(jī)制密切相關(guān)。Wunderlich等(2012)發(fā)現(xiàn)外側(cè)后部殼核、腦島后部延伸至顳中回及體感聯(lián)合區(qū)、中央后回在過(guò)度訓(xùn)練的情景中激活更強(qiáng); 殼核后部的血氧水平依賴信號(hào)(blood oxygen level dependent, BOLD)在過(guò)度訓(xùn)練情景下做出行為反應(yīng)時(shí)增強(qiáng), BOLD信號(hào)反映了大腦含氧血紅蛋白與脫氧血紅蛋白比例的變化, 即任務(wù)相關(guān)腦區(qū)神經(jīng)活動(dòng)的改變, 研究結(jié)果進(jìn)一步提示了該腦區(qū)與習(xí)慣學(xué)習(xí)系統(tǒng)的密切關(guān)系。Brovelli等人采用Arbitrary visuomotor learning任務(wù), 被試需要在重復(fù)測(cè)驗(yàn)中完成視覺(jué)線索與手指運(yùn)動(dòng)之間的正確關(guān)聯(lián)學(xué)習(xí), 每次測(cè)驗(yàn)結(jié)束均給予結(jié)果反饋。結(jié)果發(fā)現(xiàn)殼核主要負(fù)責(zé)加工條件刺激在多大程度上導(dǎo)致正確的反應(yīng), 是習(xí)慣學(xué)習(xí)系統(tǒng)的核心區(qū)域(Brovelli et al., 2011)。
近年來(lái), 國(guó)內(nèi)外研究者從個(gè)體行為學(xué)習(xí)雙系統(tǒng)——目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)的影響因素角度進(jìn)行了大量相關(guān)研究。通過(guò)采用一系列經(jīng)典的實(shí)驗(yàn)任務(wù), 如一部分研究針對(duì)特殊群體普遍存在的重復(fù)刻板行為(Gillan, Michal, Robert, Phelps, & Daw, 2016), 如強(qiáng)迫癥(Gillan & Robbins, 2014)、自閉癥(Alvares et al., 2016; Geurts & de Wit, 2014; Salowitz et al., 2013)、焦慮癥(Alvares, Balleine, & Guastella, 2014; Alvares et al., 2016)、精神分裂癥(Culbreth et al., 2016; Morris, Quail, Griffiths, Green, & Balleine, 2015)、帕金森癥(De Wit et al., 2011; Hadj-Bouziane et al., 2013)、肥胖癥(Voon et al., 2015)等, 研究顯示這些疾病均表現(xiàn)出目標(biāo)導(dǎo)向系統(tǒng)與習(xí)慣系統(tǒng)的失衡。另一些研究針對(duì)其他因素, 如老化(De Wit, van de Vijver, & Ridderinkhof, 2014)、應(yīng)激(Maier, Makwana, & Hare, 2015; Plessow, Kiesel, & Kirschbaum, 2012; Schwabe & Wolf, 2011)等也發(fā)現(xiàn)兩種學(xué)習(xí)系統(tǒng)的失調(diào)。
強(qiáng)迫癥(obsessive-compulsive disorder, OCD)是一種以強(qiáng)迫行為、觀念為主要特征的慢性、易遷延性精神疾病, 強(qiáng)迫行為是強(qiáng)迫癥最為核心的外顯臨床表現(xiàn)(Gillan & Robbins, 2014; Pauls, Abramovitch, Rauch, & Geller, 2014)。近年來(lái), 有研究者指出OCD患者強(qiáng)迫行為與目標(biāo)導(dǎo)向行為系統(tǒng)和習(xí)慣學(xué)習(xí)系統(tǒng)缺損有關(guān)(Gillan et al., 2014a, 2014b, 2015, Gillan & Robbins, 2014; Vaghi et al., 2017)。
Gillan等人(2011)采用OD范式發(fā)現(xiàn)OCD病人對(duì)于行為?結(jié)果聯(lián)結(jié)的學(xué)習(xí)明顯弱于正常對(duì)照組, 病人組在任務(wù)中普遍表現(xiàn)出一種習(xí)慣性偏向反應(yīng)。隨后一項(xiàng)基于反事實(shí)思維決策任務(wù)研究(Gillan et al., 2014a), 通過(guò)對(duì)行為結(jié)果獎(jiǎng)賞比例的操縱, 考察病人根據(jù)反事實(shí)思維有目的地對(duì)行為進(jìn)行調(diào)整的能力, 結(jié)果也顯示與正常對(duì)照組相比, OCD患者在進(jìn)行反事實(shí)思維決策時(shí)明顯存在缺陷。
此外, 鑒于OCD患者大多數(shù)行為都屬于逃避性反應(yīng), Gillan等人(2014b)采用逃避電擊OD范式研究發(fā)現(xiàn)OCD患者對(duì)于已經(jīng)撤消電擊的刺激材料依然表現(xiàn)出過(guò)渡的逃避反應(yīng), 且這種習(xí)慣性逃避反應(yīng)的習(xí)得與尾狀核的過(guò)度激活密切相關(guān), 尾狀核激活強(qiáng)度與習(xí)慣反應(yīng)傾向呈正相關(guān), 即病人習(xí)慣性反應(yīng)傾向越強(qiáng)烈, 則尾狀核的激活水平高(Gillan et al., 2015)。Banca等人(2015)采用癥狀誘發(fā)任務(wù)范式, 通過(guò)呈現(xiàn)并操縱與疾病相關(guān)刺激線索, 考察在癥狀誘發(fā)情境下, 兩種學(xué)習(xí)系統(tǒng)的關(guān)系, 結(jié)果顯示, 誘發(fā)狀態(tài)下OCD病人尾狀核?前額葉環(huán)路激活增強(qiáng), 同時(shí)STN、殼核激活降低, 即癥狀誘發(fā)狀態(tài)下病人目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)均存在紊亂。最新研究也發(fā)現(xiàn)(Vaghi et al., 2017), 靜息狀態(tài)下額葉?紋狀體環(huán)路異常與認(rèn)知靈活性、目標(biāo)導(dǎo)向?qū)W習(xí)缺損密切相關(guān)。
綜上所述, 基于操作性學(xué)習(xí)的任務(wù)顯示, 強(qiáng)迫行為的產(chǎn)生是由于目標(biāo)導(dǎo)向系統(tǒng)的缺損, (具體綜述見(jiàn)Gillan & Robbins, 2014)導(dǎo)致病人只能依賴于習(xí)慣學(xué)習(xí)系統(tǒng)進(jìn)行反應(yīng); 而在癥狀誘發(fā)狀態(tài)下病人目標(biāo)向系統(tǒng)與習(xí)慣系統(tǒng)均表現(xiàn)出異常(Banca et al., 2015)。這說(shuō)明在不同狀態(tài)下, 操作性學(xué)習(xí)任務(wù)(Gillan & Robbins, 2014)、癥狀誘發(fā)狀態(tài)(Banca et al., 2015)、靜息狀態(tài)(Vaghi et al., 2017) OCD患者表現(xiàn)出的行為學(xué)習(xí)系統(tǒng)失衡可能存在一定變化差異, 即病人的行為學(xué)習(xí)系統(tǒng)會(huì)隨著病情及任務(wù)狀態(tài)呈現(xiàn)動(dòng)態(tài)變化。
重復(fù)、刻板行為是自閉癥(autism spectrum disorders, ASD)患者的核心臨床表現(xiàn)之一, 也是自閉癥行為干預(yù)的關(guān)鍵環(huán)節(jié)(Ruble, 2001)。有研究者指出ASD患者的重復(fù)、刻板行為與目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)和習(xí)慣學(xué)習(xí)系統(tǒng)失調(diào)有關(guān)(Alvares et al., 2016; Geurts & de Wit, 2014; Salowitz et al., 2013)。
Zalla, Labruyere和Georgieff (2006)發(fā)現(xiàn)ASD兒童在表征系列目標(biāo)導(dǎo)向行為時(shí)存在缺陷, 這可能導(dǎo)致自閉癥患者執(zhí)行功能缺陷、難以理解他人行為意圖。Alvares等(2016)采用以食物為獎(jiǎng)勵(lì)的OD范式發(fā)現(xiàn)雖然ASD患者對(duì)貶值的食物結(jié)果表現(xiàn)出較低愉悅度評(píng)分, 但其對(duì)結(jié)果價(jià)值的變化依舊不敏感, 且難以表現(xiàn)出目標(biāo)導(dǎo)向?qū)W習(xí), 說(shuō)明其刻板行為可能是對(duì)行為控制的缺乏所致。Salowitz等(2013)采用目標(biāo)導(dǎo)向視頻游戲范式, 要求ASD兒童在MRI掃描過(guò)程中完成視頻游戲, 進(jìn)行目標(biāo)導(dǎo)向的手腕彎曲或伸展運(yùn)動(dòng), 并根據(jù)運(yùn)動(dòng)時(shí)間和移動(dòng)范圍獲得相應(yīng)得分, 結(jié)果顯示ASD兒童與正常兒童在行為運(yùn)動(dòng)學(xué)反應(yīng)上并未存在差異, 但正常兒童組的反應(yīng)啟動(dòng)與額葉活動(dòng)呈正相關(guān), ASD兒童組則表現(xiàn)出負(fù)相關(guān), 文中提出要同時(shí)采用自動(dòng)任務(wù)操縱與腦影像掃描來(lái)研究自閉癥兒童目標(biāo)導(dǎo)向行為的可行性。影像學(xué)研究也指出ASD患者的dlPFC (Just, Keller, Malave, Kana, & Varma, 2012; Yasumura et al., 2012)、ACC (Delmonte, Gallagher, O'Hanlon, Mcgrath, & Balsters, 2013)、紋狀體(Just et al., 2012; Langen et al., 2012)等區(qū)域存在激活異常, 而這些腦區(qū)都與目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)密切相關(guān)。
盡管有研究者發(fā)現(xiàn)ASD患者存在目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)的失調(diào), 但Geurts和de Wit (2014)采用圖片材料OD范式發(fā)現(xiàn)ASD兒童與正常兒童表現(xiàn)沒(méi)有差異, 即ASD兒童兩種行為學(xué)習(xí)系統(tǒng)并沒(méi)表現(xiàn)出失調(diào)。鑒于ASD研究的特殊性, 當(dāng)前研究數(shù)量較少, 且結(jié)果存在異質(zhì)性在一定程度上是可以理解的。一方面ASD患者本身伴隨著各種異質(zhì)性的認(rèn)知、心理問(wèn)題, 可能導(dǎo)致研究結(jié)果的差異(Geurts & de Wit, 2014); 另一方面鑒于大多數(shù)研究以兒童、青少年為被試, 無(wú)論是行為研究還是腦影像學(xué)研究, 無(wú)關(guān)變量的控制始終存在一定難度(Geurts & de Wit, 2014; Salowitz et al., 2013)。因此, ASD患者刻板行為與兩種行為學(xué)習(xí)系統(tǒng)之間的關(guān)系, 以及如何從行為學(xué)習(xí)角度系統(tǒng)地開(kāi)發(fā)出切實(shí)有效的行為干預(yù)方法有待進(jìn)一步研究。
沖動(dòng)、刻板行為也是物質(zhì)依賴患者的特征之一, 近年來(lái)一些研究者指出物質(zhì)依賴患者, 如酒精成癮(Hogarth, Attwood, Bate, & Munafò, 2012; Rose, Brown, Field, & Hogarth, 2013; Sebold et al., 2014)、藥物成癮(Mole et al., 2015; Sjoerds, Luigjes, Brink, Denys, & Yücel, 2014)、煙草成癮(Hogarth et al., 2015)等行為與目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)和習(xí)慣學(xué)習(xí)系統(tǒng)的失衡有關(guān)。
Mole等(2015)采用基于CD范式的二階段序列學(xué)習(xí)任務(wù), 對(duì)第一階段習(xí)得的行為與獎(jiǎng)賞結(jié)果的概率進(jìn)行操作, 發(fā)現(xiàn)酒精成癮患者難以根據(jù)概率變化對(duì)行為進(jìn)行調(diào)整, 即表現(xiàn)出目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)缺損, 但其習(xí)慣行為反應(yīng)與正常對(duì)照組不存在差異, 酒精成癮患者從目標(biāo)導(dǎo)向行為到習(xí)慣行為的轉(zhuǎn)變可能與其成癮行為的逐漸加重有關(guān)。Dickinson等人發(fā)現(xiàn)相比較于中性刺激, 酒精更易導(dǎo)致習(xí)慣反應(yīng)傾向(Dickinson, Wood, & Smith, 2002)。然而Corbit等人發(fā)現(xiàn)酒精暴露能夠增加對(duì)中性刺激的習(xí)慣反應(yīng)傾向, DMS對(duì)于反應(yīng)的控制逐漸讓位于DLS (Corbit, Nie, & Janak, 2012)。Ostlundet等人發(fā)現(xiàn)與酒精相關(guān)的線索也會(huì)對(duì)目標(biāo)導(dǎo)向行為產(chǎn)生不良影響(Ostlund, Maidment, & Balleine, 2010)。酒精成癮對(duì)兩種行為系統(tǒng)的影響可能與其對(duì)額葉?紋狀體環(huán)路的作用有關(guān), 特別是前額葉與紋狀體腦區(qū)(Barker & Taylor, 2014; Everitt & Robbins, 2013)。此外, 有研究者發(fā)現(xiàn)藥物成癮患者同樣表現(xiàn)出明顯的習(xí)慣性反應(yīng)偏向, 這種反應(yīng)偏向可能源于目標(biāo)導(dǎo)向系統(tǒng)的缺損, 也可能與習(xí)慣性行為系統(tǒng)的活動(dòng)增強(qiáng)有關(guān)(Everitt & Robbins, 2005)。然而, 近期有研究者(Nebe et al., 2017)采用操作性學(xué)習(xí)范式和任務(wù)態(tài)磁共振掃描, 發(fā)現(xiàn)其與酒精成癮之間并沒(méi)有直接關(guān)系。
還有研究者指出, 負(fù)性情緒不僅會(huì)影響被試在OD范式中的目標(biāo)導(dǎo)向行為, 還會(huì)增強(qiáng)其對(duì)于煙草的需求(Hogarth et al., 2015)。除此之外, 成癮與目標(biāo)導(dǎo)向?qū)W習(xí)缺損之間的關(guān)系還與其他風(fēng)險(xiǎn)因素相關(guān), 如家族史、認(rèn)知負(fù)荷、沖動(dòng)性特質(zhì)等(Reiter, Deserno, Wilbertz, Heinze, & Schlagenhauf, 2016)。因此, 從目前已有研究來(lái)看, 一方面物質(zhì)成癮患者本身存在兩種行為學(xué)習(xí)系統(tǒng)的缺損(Sebold et al., 2014); 另一方面暴露于煙草(Hogarth et al., 2015)、酒精(Corbit et al., 2012)等情景也會(huì)導(dǎo)致個(gè)體兩種學(xué)習(xí)系統(tǒng)的失平衡。但病人表現(xiàn)出來(lái)的沖動(dòng)、重復(fù)行為究竟是由暴露于特殊環(huán)境而引起的失平衡, 還是其內(nèi)在固有的缺失?這有待以后進(jìn)一步研究。
壓力與應(yīng)激是當(dāng)前社會(huì)面臨的嚴(yán)重問(wèn)題之一, 大量研究顯示處于應(yīng)激狀態(tài)下的個(gè)體, 認(rèn)知與決策行為會(huì)受到一定損害, 特別是目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)的轉(zhuǎn)換, 研究結(jié)果一致指出壓力會(huì)損害個(gè)體的目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)(Maier et al., 2015; Schwabe & Wolf, 2011)。
Schwab和Wolf (2010)等人采用社會(huì)評(píng)價(jià)冷壓力測(cè)試(socially evaluated cold pressor test)范式, 讓被試將手置于低溫冰水中, 同時(shí)結(jié)合社會(huì)性評(píng)價(jià), 創(chuàng)設(shè)應(yīng)激情景和以食物為獎(jiǎng)賞的OD范式發(fā)現(xiàn), 相比較于正常對(duì)照組, 壓力組被試表現(xiàn)出過(guò)度的習(xí)慣傾向, 這種習(xí)慣傾向與皮質(zhì)醇的反應(yīng)密切相關(guān)。Plessow等(2012)采用實(shí)驗(yàn)者社會(huì)壓力范式(Trier Social Stress Test), 任務(wù)內(nèi)容包括公開(kāi)演講與心算, 并對(duì)被試的表現(xiàn)給予社會(huì)性評(píng)價(jià), 進(jìn)而創(chuàng)設(shè)應(yīng)激情景, 考察急性心理應(yīng)激對(duì)目標(biāo)靈活性任務(wù)認(rèn)知控制過(guò)程的影響, 并重點(diǎn)關(guān)注了下丘腦?垂體?腎上腺軸(hypothalamic-pituitary-adrenal axis, HPA)的壓力反應(yīng)。結(jié)果發(fā)現(xiàn), 應(yīng)激組被試在應(yīng)激源暴露后立即表現(xiàn)出唾液α-淀粉酶活性升高, 應(yīng)激停止后10分鐘表現(xiàn)出唾液皮質(zhì)醇升高, 這反映了其交感神經(jīng)系統(tǒng)和HPA軸中典型的與應(yīng)激相關(guān)活動(dòng)的增加。處于應(yīng)激中的個(gè)體在任務(wù)轉(zhuǎn)換和任務(wù)重復(fù)之間表現(xiàn)出比控制組更大的差異, 進(jìn)一步說(shuō)明急性心理社會(huì)壓力會(huì)影響認(rèn)知靈活性, 進(jìn)而損害目標(biāo)導(dǎo)向行為。此外, Maier等人(2015)對(duì)應(yīng)激對(duì)于目標(biāo)導(dǎo)向?qū)W習(xí)的神經(jīng)機(jī)制的影響進(jìn)行了探索, 發(fā)現(xiàn)壓力會(huì)導(dǎo)致個(gè)體對(duì)于即時(shí)獎(jiǎng)賞的沖動(dòng)性反應(yīng)的增加和認(rèn)知控制能力的降低, 這種行為模式伴隨著vmPFC和杏仁核、紋狀體之間功能連接的增強(qiáng); 同時(shí)壓力與vmPFC和dlPFC的功能連接減弱有關(guān), 即壓力一方面增強(qiáng)即時(shí)獎(jiǎng)賞的作用, 另一方面降低與長(zhǎng)期目標(biāo)有關(guān)的行為控制的效率, 進(jìn)而導(dǎo)致個(gè)體目標(biāo)導(dǎo)向行為受損。據(jù)此, 有研究者指出應(yīng)激可以調(diào)節(jié)基于前額葉皮質(zhì)的目標(biāo)導(dǎo)向過(guò)程和基于背外側(cè)紋狀體的習(xí)慣過(guò)程, 使得操作性行為更偏向于習(xí)慣(Schwabe & Wolf, 2011)。
關(guān)于應(yīng)激如何影響目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng), Schwabe和Wolf (2011)認(rèn)為應(yīng)激通過(guò)影響個(gè)體的學(xué)習(xí)記憶過(guò)程, 如工作記憶、執(zhí)行控制能力、認(rèn)知靈活性等進(jìn)而影響目標(biāo)導(dǎo)向?qū)W習(xí), 其具體機(jī)制涉及以前額葉為核心的廣泛腦區(qū), 如杏仁體、海馬等。應(yīng)激對(duì)目標(biāo)導(dǎo)向行為的影響是在習(xí)得階段還是反應(yīng)表現(xiàn)階段, 有待進(jìn)一步研究, 具體可參照Schwabe & Wolf, 2011。此外, 慢性應(yīng)激與急性應(yīng)激對(duì)于兩種行為學(xué)習(xí)系統(tǒng)的影響機(jī)制是否相同也尚不清楚。
綜上所述, 無(wú)論是精神疾病還是伴隨特定情景的特殊心理狀態(tài), 亦或是兩者的交互作用, 均有可能導(dǎo)致目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)的失衡或缺損, 進(jìn)而引起重復(fù)、刻板等行為。自閉癥、強(qiáng)迫癥、成癮等精神疾病所表現(xiàn)出的行為問(wèn)題是當(dāng)前干預(yù)治療研究中需要突破的關(guān)鍵環(huán)節(jié)。通過(guò)對(duì)這些特殊群體行為學(xué)習(xí)系統(tǒng)的考察, 將有助于開(kāi)發(fā)各種針對(duì)性的干預(yù)方案與措施, 也有助于促進(jìn)對(duì)這兩種行為學(xué)習(xí)系統(tǒng)在個(gè)體認(rèn)知心理功能中具體作用的認(rèn)識(shí)。
目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)在個(gè)體日常生活中發(fā)揮著至關(guān)重要的作用。經(jīng)過(guò)半個(gè)世紀(jì)的研究, 從行為研究到神經(jīng)探索再到計(jì)算機(jī)模擬, 人們對(duì)于兩種行為學(xué)習(xí)系統(tǒng)的關(guān)系與機(jī)制有了充分的了解, 區(qū)分了前額葉?尾狀核環(huán)路、輔助運(yùn)動(dòng)區(qū)?殼核環(huán)路在兩種行為學(xué)習(xí)系統(tǒng)中的具體作用。研究者們進(jìn)一步對(duì)特殊群體, 如強(qiáng)迫癥、自閉癥、成癮患者等在兩種行為學(xué)習(xí)系統(tǒng)的差異(或表現(xiàn))進(jìn)行了探索, 以尋找臨床癥狀與兩種行為學(xué)習(xí)系統(tǒng)之間的關(guān)系, 為早期預(yù)防和行為干預(yù)提供新途徑。然而, 當(dāng)前研究依舊存在一些急待解決的問(wèn)題:
1) 目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣系統(tǒng)是一分為二的關(guān)系嗎?有些研究者提出兩種學(xué)習(xí)系統(tǒng)并不是絕對(duì)對(duì)立的關(guān)系, 而是既存在競(jìng)爭(zhēng)也存在合作(Cushman & Morris, 2015)。那么這種動(dòng)態(tài)的競(jìng)爭(zhēng)?合作關(guān)系是如何演變的?
2) 目標(biāo)導(dǎo)向?qū)W習(xí)系統(tǒng)與習(xí)慣學(xué)習(xí)系統(tǒng)相關(guān)神經(jīng)網(wǎng)絡(luò)是否存在功能與結(jié)構(gòu)上的重疊?有研究者發(fā)現(xiàn)腹側(cè)紋狀體活動(dòng)同時(shí)反應(yīng)了兩種學(xué)習(xí)系統(tǒng)活動(dòng)(Daw, Gershman, Seymour, Dayan, & Dolan, 2011), 兩種學(xué)習(xí)系統(tǒng)存在一定整合的神經(jīng)機(jī)制。從大腦功能整合的角度來(lái)看, 大腦活動(dòng)往往是以網(wǎng)絡(luò)的方式整體活動(dòng)。兩種行為學(xué)習(xí)系統(tǒng)的競(jìng)爭(zhēng)?合作關(guān)系在神經(jīng)機(jī)制上是如何體現(xiàn)的?
3) 眾所周知, 臨床心理與行為表現(xiàn)會(huì)隨著疾病的進(jìn)程而變化, 若病人的行為問(wèn)題由目標(biāo)導(dǎo)向系統(tǒng)與習(xí)慣系統(tǒng)失調(diào)引起, 那么這種失調(diào)在患病前、發(fā)病中、干預(yù)前后是否存在動(dòng)態(tài)的變化, 如何變化?這些問(wèn)題, 均有待后續(xù)研究深入探索。
Alvares, G. A., Balleine, B. W., & Guastella, A. J. (2014). Impairments in goal-directed actions predict treatment response to cognitive-behavioral therapy in social anxiety disorder.(4), e94778.
Alvares, G. A., Balleine, B. W., Whittle, L., & Guastella, A. J. (2016). Reduced goal-directed action control in autism spectrum disorder.(12), 1285–1293.
Apergis-Schoute, A. M., Gillan, C. M., Fineberg, N. A., Fernandez-Egea, E., Sahakian, B. J., & Robbins, T. W. (2017). Neural basis of impaired safety signaling in obsessive compulsive disorder.(12), 3216–3221.
Ashby, F. G., Turner, B. O., & Horvitz, J. C. (2010). Cortical and basal ganglia contributions to habit learning and automaticity.(5), 208– 215.
Balleine, B. W., Killcross, A. S., & Dickinson, A. (2003). The effect of lesions of the basolateral amygdala on instrumental conditioning.(2), 666–675.
Balleine, B. W., & O'Doherty, J. P. (2010). Human and rodent homologies in action control: corticostriatal determinants of goal-directed and habitual action.(1), 48–69
Banca, P., Voon, V., Vestergaard, M. D., Philipiak, G., Almeida, I., Pocinho, F., ... Castelo-Branco, M. (2015). Imbalance in habitual versus goal directed neural systems during symptom provocation in obsessive-compulsive disorder.(3), 798–811.
Barker, J. M., & Taylor, J. R. (2014). Habitual alcohol seeking: modeling the transition from casual drinking to addiction., 281–294.
Boorman, E. D., O'Doherty, J. P., Adolphs, R., & Rangel, A. (2013). The behavioral and neural mechanisms underlying the tracking of expertise.(6), 1558–1571.
Brovelli, A., Nazarian, B., Meunier, M., & Boussaoud, D. (2011). Differential roles of caudate nucleus and putamen during instrumental learning.(4), 1580– 1590.
Corbit, L. H., Nie, H., & Janak, P. H. (2012). Habitual alcohol seeking: Time course and the contribution of subregions of the dorsal striatum.(5), 389–395.
Culbreth, A. J., Westbrook, A., Daw, N. D., Botvinick, M., & Barch, D. M. (2016). Reduced model-based decision- making in schizophrenia.(6), 777–787.
Cushman, F., & Morris, A. (2015). Habitual control of goal selection in humans.(45), 13817–13822.
Daw, N. D., Gershman, S. J., Seymour, B., Dayan, P., & Dolan, R. J. (2011). Model-based influences on humans’ choices and striatal prediction errors.(6), 1204–1215
Daw, N. D., Niv, Y., & Dayan, P. (2006). Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control.(12), 1704–1711.
De Wit, S., Barker, R. A., Dickinson, A. D., & Cools, R. (2011). Habitual versus goal-directed action control in Parkinson disease.(5), 1218–1229.
De Wit, S., Corlett, P. R., Aitken, M. R., Dickinson, A., & Fletcher, P. C. (2009). Differential engagement of the ventromedial prefrontal cortex by goal-directed and habitual behavior toward food pictures in humans.(36), 11330–113308.
De Wit, S., van de Vijver, I., & Ridderinkhof, K. R. (2014). Impaired acquisition of goal-directed action in healthy aging.(2), 647–658.
De Wit, S., Watson, P., Harsay, H. A., Cohen, M. X., van de Vijver, I., & Ridderinkhof, K. R. (2012). Corticostriatal connectivity underlies individual differences in the balance between habitual and goal-directed action control.(35), 12066–12075.
Delmonte, S., Gallagher, L., O'Hanlon, E., Mcgrath, J., & Balsters, J. H. (2013). Functional and structural connectivity of frontostriatal circuitry in autism spectrum disorder., 430.
Dickinson, A., Wood, N., & Smith, J. W. (2002). Alcohol seeking by rats: Action or habit?(4), 331–348.
Dolan, R. J., & Dayan, P. (2013). Goals and habits in the brain.(2), 312–325.
Everitt, B. J., & Robbins, T. W. (2005). Neural systems of reinforcement for drug addiction: From actions to habits to compulsion.(11), 1481–1489.
Everitt, B. J., & Robbins, T. W. (2013). From the ventral to the dorsal striatum: Devolving views of their roles in drug addiction.(9), 1946–1954.
Fettes, P., Schulze, L., & Downar, J. (2017). Cortico- striatal-thalamic loop circuits of the orbitofrontal cortex: Promising therapeutic targets in psychiatric illness., 25.
G?siarz, F., & Crockett, M. J. (2015). Goal-directed, habitual and pavlovian prosocial behavior., 135.
Geurts, H. M., & de Wit, S. (2014). Goal-directed action control in children with autism spectrum disorders.(4), 409–418.
Gillan, C. M., Apergis-Schoute, A. M., Morein-Zamir, S., Urcelay, G. P., Sule, A., Fineberg, N. A., ... Robbins, T. W. (2015). Functional neuroimaging of avoidance habits in obsessive-compulsive disorder.(3), 284–293.
Gillan, C. M., Michal, K., Robert, W., Phelps, E. A., & Daw, N. D. (2016). Characterizing a psychiatric symptom dimension related to deficits in goal-directed control., e11305.
Gillan, C. M., Morein-Zamir, S., Kaser, M., Fineberg, N. A., Sule, A., Sahakian, B. J., ... Robbins, T. W. (2014a). Counterfactual processing of economic action-outcome alternatives in obsessive-compulsive disorder: further evidence of impaired goal-directed behavior.(8), 639–646.
Gillan, C. M., Morein-Zamir, S., Urcelay, G. P., Sule, A., Voon, V., Apergis-Schoute, A. M., ... Robbins, T. W. (2014b). Enhanced avoidance habits in obsessive- compulsive disorder.(8), 631– 638.
Gillan, C. M., Papmeyer, M., Moreinzamir, S., Sahakian, B. J., Fineberg, N. A., Robbins, T. W., & De Wit, S. (2011). Disruption in the balance between goal-directed behavior and habit learning in obsessive-compulsive disorder.(7), 718–726.
Gillan, C. M., & Robbins, T. W. (2014). Goal-directed learning and obsessive-compulsive disorder.(1655), 20130475.
Gremel, C. M., & Rui, M. C. (2013). Orbitofrontal and striatal circuits dynamically encode the shift between goal-directed and habitual actions., 2264.
Haber, S. N. (2016). Corticostriatal circuitry.(1), 7–21.
Hadj-Bouziane, F., Benatru, I., Brovelli, A., Klinger, H., Thobois, S., Broussolle, E., ... Meunier, M. (2013). Advanced Parkinson's disease effect on goal-directed and habitual processes involved in visuomotor associative learning., 351.
Hogarth, L., Attwood, A. S., Bate, H. A., & Munafò, M. R. (2012). Acute alcohol impairs human goal-directed action.(2), 154–160.
Hogarth, L., He, Z., Chase, H. W., Wills, A. J., Troisi, J., Leventhal, A. M., ... Hitsman, B. (2015). Negative mood reverses devaluation of goal-directed drug-seeking favouring an incentive learning account of drug dependence.(17), 3235–3247.
Isoda, M., & Hikosaka, O. (2011). Cortico-basal ganglia mechanisms for overcoming innate, habitual and motivational behaviors.(11), 2058–2069.
Ito, M., & Doya, K. (2015). Parallel representation of value-based and finite state-based strategies in the ventral and dorsal striatum.(11), e1004540.
Jahanshahi, M., Obeso, I., Rothwell, J. C., & Obeso, J. A. (2015). A fronto-striato-subthalamic-pallidal network for goal-directed and habitual inhibition.(12), 719–732.
Jonker, F. A., Jonker, C., Scheltens, P., & Scherder, E. J. (2015). The role of the orbitofrontal cortex in cognition and behavior.(1), 1–11.
Just, M. A., Keller, T. A., Malave, V. L., Kana, R. K., & Varma, S. (2012). Autism as a neural systems disorder: A theory of frontal-posterior underconnectivity.(4), 1292–1313.
Langen, M., Leemans, A., Johnston, P., Ecker, C., Daly, E., Murphy, C. M., ... Murphy, D. G. (2012). Fronto-striatal circuitry and inhibitory control in autism: findings from diffusion tensor imaging tractography.(2), 183–193.
Lee, S. W., Shimojo, S., & O’Doherty, J. P. (2014). Neural computations underlying arbitration between model-based and model-free learning.(3), 687–699.
Maier, S. U., Makwana, A. B., & Hare, T. A. (2015). Acute stress impairs self-control in goal-directed choice by altering multiple functional connections within the brain's decision circuits.(3), 621–631.
McDannald, M. A., Lucantonio, F., Burke, K. A., Niv, Y., & Schoenbaum, G. (2011). Ventral striatum and orbitofrontal cortex are both required for model-based, but not model-free, reinforcement learning.(7), 2700–2705.
Mole, T. B., Irvine, M. A., Worbe, Y., Collins, P., Mitchell, S. P., Bolton, S., ... Voon, V. (2015). Impulsivity in disorders of food and drug misuse.(4), 771–782.
Morris, L. S., Kundu, P., Dowell, N., Mechelmans, D. J., Favre, P., Irvine, M. A., ... Harrison, N. A. (2016). Fronto-striatal organization: Defining functional and microstructural substrates of behavioural flexibility., 118–133.
Morris, R. W., Quail, S., Griffiths, K. R., Green, M. J., & Balleine, B. W. (2015). Corticostriatal control of goal- directed action is impaired in schizophrenia.(2), 187–195.
Nebe, S., Kroemer, N. B., Schad, D. J., Bernhardt, N., Sebold, M., Müller, D. K., ... Smolka, M. N. (2017). No association of goal-directed and habitual control with alcohol consumption in young adults., doi: 10.1111/adb.12490.
O'Doherty, J. P. (2011). Contributions of the ventromedial prefrontal cortex to goal-directed action selection.(1), 118–129.
Ostlund, S. B., & Balleine, B. W. (2005). Lesions of medial prefrontal cortex disrupt the acquisition but not the expression of goal-directed learning.(34), 7763–7770.
Ostlund, S. B., Maidment, N. T., & Balleine, B. W. (2010). Alcohol-paired contextual cues produce an immediate and selective loss of goal-directed action in rats., 19.
Pauls, D. L., Abramovitch, A., Rauch, S. L., & Geller, D. A. (2014). Obsessive–compulsive disorder: An integrative genetic and neurobiological perspective.(6), 410–424.
Plassmann, H., O'Doherty, J. P., & Rangel, A. (2010). Appetitive and aversive goal values are encoded in the medial orbitofrontal cortex at the time of decision making.(32), 10799–10808.
Plessow, F., Kiesel, A., & Kirschbaum, C. (2012). The stressed prefrontal cortex and goal-directed behaviour: Acute psychosocial stress impairs the flexible implementation of task goals.(3), 397– 408.
Postuma, R. B., & Dagher, A. (2006). Basal ganglia functional connectivity based on a meta-analysis of 126 positron emission tomography and functional magnetic resonance imaging publications.(10), 1508–1521.
Reiter, A. M. F., Deserno, L., Wilbertz, T., Heinze, H. J., & Schlagenhauf, F. (2016). Risk factors for addiction and their association with model-based behavioral control., 26.
Rose, A. K., Brown, K., Field, M., & Hogarth, L. (2013). The contributions of value-based decision-making and attentional bias to alcohol-seeking following devaluation.(7), 1241–1249.
Rostami, M., Hosseini, S. M., Takahashi, M., Sugiura, M., & Kawashima, R. (2009). Neural bases of goal-directed implicit learning.(1), 303–310.
Ruble, L. A. (2001). Analysis of social interactions as goal-directed behaviors in children with autism.(5), 471–482.
Salowitz, N. M. G., Dolan, B., Remmel, R., van Hecke, A. V., Mosier, K., Simo, L., & Scheidt, R. A. (2013).. 17th World Multi-Conference on Systemics, Cybernetics and Informatics, Orlando, FL.
Schiltz, C. A. (2006). Habitual responding and the dorsal Striatum.(7), 1891–1892.
Schwabe, L., & Wolf, O. T. (2010). Socially evaluated cold pressor stress after instrumental learning favors habits over goal-directed action.(7), 977–986.
Schwabe, L., & Wolf, O. T. (2011). Stress-induced modulation of instrumental behavior: From goal-directed to habitual control of action.(2), 321–328.
Sebold, M., Deserno, L., Nebe, S., Schad, D. J., Garbusow, M., H?gele, C., ... Huys, Q. J. M. (2014). Model-based and model-free decisions in alcohol dependence.(2), 122–131.
Sjoerds, Z., Luigjes, J., van den Brink, W., Denys, D., & Yücel, M. (2014). The role of habits and motivation in human drug addiction: A reflection., 8
Smittenaar, P., FitzGerald, T. H. B., Romei, V., Wright, N. D., & Dolan, R. J. (2013). Disruption of dorsolateral prefrontal cortex decreases model-based in favor of model-free control in humans.(4), 914–919.
Spreng, R. N., Stevens, W. D., Chamberlain, J. P., Gilmore, A. W., & Schacter, D. L. (2010). Default network activity, coupled with the frontoparietal control network, supports goal-directed cognition.(1), 303–317.
Tanaka, S. C., Balleine, B. W., & O'Doherty, J. P. (2008). Calculating consequences: Brain systems that encode the causal effects of actions.(26), 6750–6755.
Tricomi, E.M., Delgado, M.R., and Fiez, J.A. (2004). Modulation of caudate activity by action contingency. Neuron,, 281–292.
Tricomi, E., Balleine, B. W., & O'Doherty, J. P. (2009). A specific role for posterior dorsolateral striatum in human habit learning.(11), 2225–2232.
Vaghi, M. M., Vértes, P. E., Kitzbichler, M. G., Apergis- Schoute, A. M., van der Flier, F. E., Fineberg, N. A., ... Robbins, T. W. (2017). Specific frontostriatal circuits for impaired cognitive flexibility and goal-directed planning in Obsessive-Compulsive Disorder: Evidence from resting-state functional connectivity.(8), 708–717.
Valentin, V. V., Dickinson, A., & O'Doherty, J. P. (2007). Determining the neural substrates of goal-directed learning in the human brain.(15), 4019–4026.
Voon, V., Derbyshire, K., Rück, C., Irvine, M. A., Worbe, Y., Enander, J., ... Bullmore, E. T. (2015). Disorders of compulsivity: A common bias towards learning habits.(3), 345–352.
Wunderlich, K., Dayan, P., & Dolan, R. J. (2012). Mapping value based planning and extensively trained choice in the human brain.(5), 786–791.
Yasumura, A., Kokubo, N., Yamamoto, H., Yasumura, Y., Moriguchi, Y., Nakagawa, E., ... Hiraki, K. (2012).. Neurobehavioral and hemodynamic evaluation of cognitive shifting in children with Autism Spectrum Disorder.(4), 463–470.
Yin, H. H., Knowlton, B. J., & Balleine, B. W. (2004). Lesions of dorsolateral striatum preserve outcome expectancy but disrupt habit formation in instrumental learning.(1), 181– 189.
Zalla, T., Labruyere, N., & Georgieff, N. (2006). Goal- directed action representation in autism.(4), 527–540.
The neural mechanisms of goal-direct and habitual learning system
DONG Chenjie1; LIANG Jingjing1; DONG Yuyuan2; ZHENG Zhongyan1; PENG Ziwen1
(1School of Psychology, South China Normal University, Guangzhou 510631, China)(2School of Education, Chongqing Normal University, Chongqing 401331, China)
The dual system model of behavior learning recognizes two distinct systems: goal-directed system and habitual system. The goal-directed system, encoding the action-outcome behavior, is associated with caudate, ventromedial prefrontal cortex (vmPFC) and orbitofrontal cortex (OFC). The habitual system, concerning stimulus-response behaviors, is associated with the putamen and supplementary motor area (SMA). Research paradigms for these two behavioral learning systems mainly include outcome devaluation and contingency degradation paradigms. A large number of studies have found a dynamic defect of goal-direct learning system and habitual learning system in obsessive-compulsive disorder, autism, addiction and other mental disorders.
goal-direct learning system; habitual learning system; caudate; putamen; stereotyped behavior
2017-05-01
彭子文, E-mail: pengzw@m.scnu.edu.cn
B845
* 國(guó)家自然科學(xué)青年基金(81201049)、華南師范大學(xué)研究生創(chuàng)新計(jì)劃項(xiàng)目(2016wkxm84)資助。
董晨杰和梁晶晶為本文共同第一作者。