胡馨允 沈 悅 戴俊毅
系列決策任務(wù)中的策略轉(zhuǎn)換:來自愛荷華賭博任務(wù)的證據(jù)*
胡馨允 沈 悅 戴俊毅
(浙江大學(xué)心理與行為科學(xué)系, 杭州 310058)
已有大量研究使用系列決策任務(wù)探討了各類決策的決策策略。通過假定個體采用單一策略完成所有任務(wù)試次, 并比較對應(yīng)的計(jì)算認(rèn)知模型擬合實(shí)證數(shù)據(jù)的能力, 這些研究發(fā)現(xiàn)各種決策任務(wù)都涉及多種可能的決策策略。但是, 此類研究的一個共同缺陷在于忽視了個體在任務(wù)過程中轉(zhuǎn)換決策策略的可能性。通過開發(fā)允許在強(qiáng)化學(xué)習(xí)策略和啟發(fā)式策略間轉(zhuǎn)換的針對愛荷華賭博任務(wù)的計(jì)算認(rèn)知模型, 并將此類模型同單一策略模型進(jìn)行對比, 研究1提供了個體在該系列決策任務(wù)中會改變決策策略的明確證據(jù)。研究2則發(fā)現(xiàn), 隨著試次數(shù)的增加, 發(fā)生策略轉(zhuǎn)換的可能性也會上升。這些結(jié)果表明, 為了正確認(rèn)識各種決策任務(wù)的決策策略, 需要充分考慮在系列決策任務(wù)過程中發(fā)生策略轉(zhuǎn)換的可能性, 尤其是試次較多的系列任務(wù)。未來研究可以探討策略轉(zhuǎn)換的多種可能形式, 以及導(dǎo)致策略轉(zhuǎn)換的任務(wù)和個體因素, 以便進(jìn)一步深化對于系列決策任務(wù)的心理機(jī)制的認(rèn)識。
系列決策任務(wù), 愛荷華賭博任務(wù), 策略轉(zhuǎn)換, 計(jì)算認(rèn)知建模, 強(qiáng)化學(xué)習(xí)和啟發(fā)式策略
古人云“明者因時而變, 知者隨事而制”, 當(dāng)重復(fù)面對任務(wù)結(jié)構(gòu)相同的決策(即完成系列決策任務(wù))時, 人們所使用的決策策略不是一成不變的。1本文探討的系列決策任務(wù)有別于序列決策任務(wù), 后者一般是指后續(xù)決策的方案集合取決于之前的決策及其結(jié)果, 即時間上相鄰的決策存在明顯的動態(tài)依存性的決策任務(wù)。大量研究表明, 各種決策任務(wù)都存在多種不同的決策策略。例如, 針對多屬性決策任務(wù), 存在一系列不同的補(bǔ)償式(選項(xiàng)在不同屬性上的優(yōu)勢和劣勢可以相互抵消)和非補(bǔ)償式策略(選項(xiàng)在不同屬性上的優(yōu)勢和劣勢不可相互抵消, 例如, Payne et al., 1988; Rieskamp & Otto, 2006; Walsh & Gluck, 2016), 而面對風(fēng)險(xiǎn)決策任務(wù)時, 個體則可能采取基于期望效用或類似評估的策略(例如, Kahneman & Tversky, 1979; Von Neumann & Morgenstern, 1944)或者更為簡單的啟發(fā)式策略(例如, Brandst?tter et al., 2006)。此外, 研究者還對信息環(huán)境、任務(wù)要求以及個體差異等因素如何影響個體的策略選擇進(jìn)行了探索(例如, Bergert & Nosofsky, 2007; Pachur & Galesic, 2013), 并且發(fā)現(xiàn), 任務(wù)環(huán)境或者要求的變化可能會帶來相應(yīng)的決策策略的轉(zhuǎn)換(例如, Br?der & Schiffer, 2006; Lee et al., 2014)。
除了由任務(wù)環(huán)境和要求的變化所導(dǎo)致的策略轉(zhuǎn)換以外, 人們是否還可能在相對穩(wěn)定的任務(wù)環(huán)境和要求下, 由于自我調(diào)整、適應(yīng)或者內(nèi)在的探索動機(jī)而發(fā)生策略轉(zhuǎn)換?在絕大多數(shù)有關(guān)決策策略的實(shí)證研究中, 被試都需要在相同的任務(wù)結(jié)構(gòu)下完成一系列決策試次, 以便研究者能夠依托足夠多的信息, 來推斷被試的決策策略。雖然過往研究已經(jīng)探討了面對特定決策任務(wù)時個體所使用的策略的多樣性, 以及影響策略選擇的可能因素, 卻鮮有研究考察, 在面對一個相對穩(wěn)定的系列決策任務(wù)時, 個體的決策策略發(fā)生轉(zhuǎn)換的可能性。如果這種可能性的確存在, 那么以往有關(guān)決策策略的研究, 就會因?yàn)楹鲆曔@一可能性而導(dǎo)致錯誤的結(jié)論。為了更好地探明個體在面對各種決策任務(wù)時的決策策略, 首先需要回答的問題是, 在任務(wù)環(huán)境和要求相對穩(wěn)定的系列決策中, 是否的確會發(fā)生策略轉(zhuǎn)換。本文將以愛荷華賭博任務(wù)這一典型的系列決策任務(wù)為例, 探討這一重要的理論和實(shí)踐問題。
愛荷華賭博任務(wù)(Iowa Gambling Task, IGT)是一項(xiàng)基于經(jīng)驗(yàn)的模擬決策任務(wù), 它最初是為了考察腹內(nèi)側(cè)前額葉損傷患者在應(yīng)對不確定的現(xiàn)實(shí)情境時的決策缺陷而提出的(Bechara et al., 1994)。該任務(wù)包含4個牌堆(分別標(biāo)記為A, B, C, D), 被試需要多次在這些牌堆間做出選擇。每次選擇某一牌堆之后, 都會抽取并翻轉(zhuǎn)其最上方的一張牌, 并根據(jù)牌面信息給予被試一定的獎勵。但是, 有時選擇某一牌堆也會同時給被試帶來損失。在任務(wù)開始之前, 被試并不知道每個牌堆的盈虧規(guī)律以及總試次數(shù), 而他們的目標(biāo)則是通過他們的選擇獲得盡可能高的總回報(bào)。因此, 被試需要通過不斷選擇各個牌堆來學(xué)習(xí)每個牌堆的盈虧規(guī)律, 并采取特定策略來完成這一任務(wù)。目前IGT已被廣泛用于識別各種臨床人群的決策缺陷, 包括腦損傷人群(Hochman et al., 2010)、藥物濫用人群(Ahn et al., 2014; Bechara & Damasio, 2002; Bechara et al., 2001)、神經(jīng)疾病人群(Stout et al., 2001)以及精神障礙人群(李蕾等, 2019; 徐四華, 2012)等。
除了被用于考察臨床人群的決策缺陷, IGT還被用來探究正常和臨床人群在面對不確定情境時的決策策略。為此, 研究者們提出了對應(yīng)不同策略的一系列計(jì)算認(rèn)知模型, 這些模型大致可分為強(qiáng)化學(xué)習(xí)模型和啟發(fā)式模型兩類。強(qiáng)化學(xué)習(xí)模型假設(shè)IGT包含三個過程:涉及動機(jī)的對每次選擇結(jié)果的評估過程, 涉及認(rèn)知的對牌堆期望效價(jià)的更新過程, 以及涉及反應(yīng)的概率化選擇過程。Busemeyer和Stout (2002)提出了第一個針對IGT的強(qiáng)化學(xué)習(xí)模型——期望效價(jià)學(xué)習(xí)(Expectancy-Valence Learning, EVL)模型。該模型假定個體使用期望效用(Expectancy Utility, EU)函數(shù)來評估每次選擇結(jié)果的效用(Ahn et al., 2008), 使用差異學(xué)習(xí)(Delta-Learning, DEL)規(guī)則來更新每個牌堆的期望效價(jià)(Rescorla & Wagner, 1972), 并使用依賴于試次的選擇(Trial-Dependent Choice, TDC)規(guī)則來指導(dǎo)下一試次的選擇(Luce, 1959)。在EVL模型的基礎(chǔ)上, Ahn等人(2008)進(jìn)一步探索了強(qiáng)化學(xué)習(xí)模型涉及的三個過程中每個過程的不同數(shù)學(xué)形式, 并提出了預(yù)期效價(jià)學(xué)習(xí)(Prospect- Valence Learning, PVL)模型。該模型假定個體會使用預(yù)期效用(Prospect Utility, PU)函數(shù)(Kahneman & Tversky, 1979)對選擇的凈收益(即獎勵以及可能同時出現(xiàn)的損失之和)進(jìn)行評估, 使用Erev和Roth (1998)提出的衰減強(qiáng)化學(xué)習(xí)(Decay-Reinforcement Learning, DRL)規(guī)則更新預(yù)期效價(jià), 并且使用不隨試次變化的選擇(Trial-Independent Choice, TIC)規(guī)則(Yechiam & Ert, 2007)做出反應(yīng)。更為近期的采用系統(tǒng)化模型比較方法的研究表明(Dai et al., 2015), 個體在對結(jié)果進(jìn)行評估時, 更有可能會對同時出現(xiàn)的獎勵和損失首先分別按照預(yù)期效用函數(shù)進(jìn)行評估, 然后再將評估結(jié)果加以整合。對應(yīng)的模型被稱為第2類預(yù)期效價(jià)學(xué)習(xí)(Prospect-Valence Learning 2, PVL2)模型。
在有關(guān)IGT的啟發(fā)式模型中, 最有代表性且擬合實(shí)證數(shù)據(jù)表現(xiàn)最好的是贏留輸走(Win-Stay-Lose- Shift, WSLS)模型(Worthy et al., 2012)。該模型假設(shè), 人們的每次選擇僅取決于上一次選擇的牌堆以及所得的結(jié)果, 而與更早之前的選擇及其結(jié)果無關(guān)。因此, 相比于考慮之前所有試次的選擇及對應(yīng)結(jié)果的強(qiáng)化學(xué)習(xí)模型, WSLS模型假設(shè)的心理機(jī)制更為簡單。具體而言, 該模型假定個體繼續(xù)選擇相同牌堆的概率, 受當(dāng)前選擇該牌堆的結(jié)果而定。如果當(dāng)前選擇的凈收益非負(fù)(即贏), 則有較大可能繼續(xù)選擇相同牌堆, 反之(即輸), 則有較大可能下一試次轉(zhuǎn)而選擇不同的牌堆。
盡管關(guān)于IGT的決策策略已經(jīng)有了豐富的研究成果, 但很少有研究考慮個體在完成IGT過程中發(fā)生策略轉(zhuǎn)換這一可能。Busemeyer和Stout (2002)曾提出過一個策略轉(zhuǎn)換啟發(fā)式選擇(Strategy-Switching Heuristic Choice)模型。但是, 該模型所謂的“策略轉(zhuǎn)換”, 并非是指決策策略的本質(zhì)變化, 而是指隨著個體由于選擇不利牌堆(即A或B牌堆)遭受越來越多的損失, 其選擇概率在不利牌堆和有利牌堆(即C或D牌堆)之間重新分配的過程。此外, 也有研究者提出了將強(qiáng)化學(xué)習(xí)和啟發(fā)式策略結(jié)合在一起的計(jì)算認(rèn)知模型。例如, Worthy等人(2013)提出了效價(jià)附加堅(jiān)持(Valence-Plus-Perseverance, VPP)模型。該模型認(rèn)為, 在IGT的每一個試次中, 人們都會綜合考慮各個牌堆的期望效價(jià)以及前一試次的選擇及其結(jié)果, 再決定當(dāng)前試次的選擇。雖然該模型同時包含強(qiáng)化學(xué)習(xí)和啟發(fā)式策略成分, 且相比于EVL、PVL以及WSLS模型, 該模型在擬合實(shí)證數(shù)據(jù)時有較好的表現(xiàn), 但它仍然假定個體會使用單一的, 雖然更為復(fù)雜的混合策略來完成IGT中每個試次的選擇。
綜上所述, 有關(guān)IGT的決策策略研究, 尚未考察在任務(wù)過程中發(fā)生策略轉(zhuǎn)換這一可能。如果個體的確會在任務(wù)過程中因?yàn)楦鞣N原因轉(zhuǎn)變決策策略, 那么以往僅僅比較單一策略模型的研究, 就可能得出關(guān)于個體策略選擇的錯誤認(rèn)識。此外, 那些根據(jù)單一策略模型的參數(shù)估計(jì), 來推斷不同人群決策差異背后的心理機(jī)制的研究(例如, Ahn et al., 2014; Yechiam et al., 2005), 也可能會產(chǎn)生有偏的估計(jì), 進(jìn)而導(dǎo)致對人群差異的錯誤解讀。本研究將通過開發(fā)允許策略轉(zhuǎn)換的模型并將其與傳統(tǒng)的單一策略模型進(jìn)行比較, 來回答在IGT中是否存在策略轉(zhuǎn)換這一問題, 以期為得出有關(guān)IGT中的決策策略以及不同人群差異的更為可信的結(jié)論提供依據(jù), 也為在更大范圍內(nèi)探討決策策略轉(zhuǎn)換這一重要的理論和實(shí)踐問題提供借鑒。
2.1.1 IGT簡介
如上所述, IGT包含4個牌堆(分別標(biāo)記為A、B、C、D), 在每個試次中被試需要選擇一個牌堆, 并根據(jù)其最上方的牌呈現(xiàn)的信息獲得一定的獎勵, 并有可能同時遭受一些損失。被試的目標(biāo)是在總試次數(shù)未知的情況下, 使總回報(bào)最大化。例如, 在Bechara等人(1994)最早的IGT研究中包含了(被試未知的)100個試次, 并且采用了如表1所示的支付方案。具體而言, 被試每次選擇A或B牌堆, 都會獲得100美元的收益。但是, 每選擇10次A牌堆, 被試都會遭受5次損失, 金額從小到大分別為150美元、200美元、250美元、300美元和350美元, 且這5次損失在每10次選擇中出現(xiàn)的具體位置都會有所變化。類似的, 被試每選擇10次B牌堆, 都會遭受1次金額為1250美元的損失, 且每10次選擇中出現(xiàn)損失的位置也各不相同。對于C或者D牌堆, 每次選擇都會帶來50美元的收益。然而, 每選擇10次C牌堆, 都會遭受5次總額為250美元的損失, 每選擇10次D牌堆, 則會遭受1次250美元的損失, 且每10次選擇C或D牌堆遭受損失試次的位置也會有所不同。后續(xù)研究使用了相同或者類似的任務(wù)設(shè)置, 主要的調(diào)整發(fā)生在試次數(shù), 以及是否使用真實(shí)回報(bào)兩方面。當(dāng)使用真實(shí)回報(bào)(即按照被試最后的總回報(bào)支付酬金)時, 出于控制實(shí)驗(yàn)經(jīng)費(fèi)的目的, 一般會將Bechara等人最初的支付方案中的各種結(jié)果金額都縮減100倍(例如, Dai et al., 2015)。無論采取何種支付方案, 所有類型的IGT研究都滿足以下三點(diǎn):1) A和B牌堆每次選擇都有較高的收益, 但總損失也較大, 因此長期而言是不利的, 即總回報(bào)為負(fù); 2) C和D牌堆每次選擇的收益較低, 但總損失較小, 因此長期而言是有利的, 即總回報(bào)為正; 3) A和C牌堆相比于B和D牌堆會出現(xiàn)更多次的損失。
表1 Bechara等人(1994)使用的IGT支付方案
2.1.2 單一策略模型
為了給探究IGT中的策略轉(zhuǎn)換提供合適的對照模型, 本研究考慮了已有文獻(xiàn)中的三大類單一策略模型, 即強(qiáng)化學(xué)習(xí)模型, 啟發(fā)式模型以及混合模型, 并以PVL2模型, WSLS模型和VPP模型作為各類模型的代表。這些模型在以往的研究中都有較好的表現(xiàn), 因此如果新的允許策略轉(zhuǎn)換的模型能夠比它們有更好的表現(xiàn), 則能為IGT中存在策略轉(zhuǎn)換提供支持。以下將介紹這三個計(jì)算認(rèn)知模型的具體數(shù)學(xué)形式。
針對IGT的強(qiáng)化學(xué)習(xí)模型假定人們通過結(jié)果評估、期望(或預(yù)期)效價(jià)更新和概率化選擇三個過程來完成該任務(wù)。根據(jù)PVL2模型(Dai et al., 2015), 人們在選擇某一牌堆之后, 會針對當(dāng)前選擇獲得的收益和可能的損失, 使用預(yù)期理論的價(jià)值函數(shù)分別進(jìn)行評估, 然后再做匯總。其對應(yīng)的效用函數(shù)被稱為第2類預(yù)期效用(Prospect Utility 2, PU2)函數(shù), 效用評估的具體形式如下:
其中,()和()分別代表在試次獲得的收益及可能同時出現(xiàn)的損失金額,()代表試次的匯總效用評估。α是形狀參數(shù), 用于衡量被試感受到的效用對于客觀價(jià)值的敏感性, 取值范圍在0到1之間, γ則代表預(yù)期理論中的損失厭惡參數(shù), 取值范圍在0到5之間。
在完成了結(jié)果評估之后, 根據(jù)PVL2模型, 個體會使用衰減強(qiáng)化學(xué)習(xí)規(guī)則對各牌堆的預(yù)期效價(jià)進(jìn)行更新, 具體形式如下:
最后, PVL2模型假定, 個體會依據(jù)各牌堆的預(yù)期效價(jià), 使用以下函數(shù)確定下一次選擇各牌堆的概率并相應(yīng)地做出隨機(jī)選擇(Sutton & Barto, 1998):
作為啟發(fā)式模型的代表, WSLS模型假定的決策策略比PVL2模型假定的策略明顯更為簡單。根據(jù)該模型, 個體只會根據(jù)上一次選擇的牌堆及其凈收益(即收益和損失的總和), 來概率性地決定下一次的選擇。該模型有兩個參數(shù), 第一個參數(shù)代表上一次選擇的牌堆得到的凈收益大于等于0時, 個體繼續(xù)選擇該牌堆的概率, 即
除了強(qiáng)化學(xué)習(xí)模型和啟發(fā)式模型, Worthy等人(2013)提出的混合策略VPP模型也有很好的表現(xiàn)。Worthy等人認(rèn)為, 使用衰減強(qiáng)化規(guī)則的強(qiáng)化學(xué)習(xí)模型混淆了堅(jiān)持選擇同一牌堆的傾向和選擇預(yù)期效價(jià)最高的牌堆的傾向。因此, 他們分離了這兩種傾向, 并提出了VPP模型。根據(jù)該模型, 個體一方面會使用PU函數(shù)來對某次選擇結(jié)果進(jìn)行效用評估, 并使用差異學(xué)習(xí)規(guī)則更新牌堆的預(yù)期效價(jià), 其具體形式如下:
其中,()表示當(dāng)前試次選擇結(jié)果的凈收益, 其他符號的含義同上文。
另一方面, 個體還會根據(jù)之前試次是否選擇了牌堆以及選擇牌堆所得凈收益是否非負(fù)來確定當(dāng)前試次堅(jiān)持選擇牌堆的傾向, 具體形式如下:
最后, 和PVL2模型類似, VPP模型假設(shè)被試會根據(jù)牌堆的價(jià)值確定下一次選擇各牌堆的概率并相應(yīng)地做出隨機(jī)選擇, 具體規(guī)則如下:
2.1.3 策略轉(zhuǎn)換模型
由于IGT一般包含多達(dá)100個甚至更多的試次, 在整個任務(wù)過程中, 個體可能由于各種原因發(fā)生策略轉(zhuǎn)換。在本研究中, 我們假定可能存在兩種轉(zhuǎn)換, 一種是在任務(wù)開始階段由于缺乏信息而使用對信息依賴度較低的啟發(fā)式策略, 并在對各牌堆有了更多了解之后, 轉(zhuǎn)而使用更為復(fù)雜更為精細(xì)的強(qiáng)化學(xué)習(xí)策略。另一種則是在初始階段就使用強(qiáng)化學(xué)習(xí)策略, 并隨著任務(wù)的進(jìn)行, 因?yàn)槠?、倦怠或者降低認(rèn)知負(fù)荷的需求, 轉(zhuǎn)而采用啟發(fā)式策略。從建模角度, 鑒于PVL2模型在強(qiáng)化學(xué)習(xí)模型, 以及WSLS模型在啟發(fā)式模型中的優(yōu)勢地位, 本研究將分別以這兩個模型來表達(dá)可能的強(qiáng)化學(xué)習(xí)策略和啟發(fā)式策略, 并由此探討個體在IGT中發(fā)生策略轉(zhuǎn)換的可能性。
具體而言, 我們開發(fā)了一個允許發(fā)生一次策略轉(zhuǎn)換(Switching-Strategy-Once, SSO)的模型。該模型假設(shè)個體在完成IGT的過程中, 會在啟發(fā)式策略和強(qiáng)化學(xué)習(xí)策略之間進(jìn)行一次轉(zhuǎn)換, 且個體在使用啟發(fā)式或者強(qiáng)化學(xué)習(xí)策略完成IGT時所使用的具體計(jì)算認(rèn)知機(jī)制, 和對應(yīng)的WSLS或者PVL2模型所假定的機(jī)制相同。除了WSLS模型和PVL2模型涉及的參數(shù)以外, 該模型還包含兩個新的參數(shù), 分別代表發(fā)生策略轉(zhuǎn)換的節(jié)點(diǎn)試次, 記作(即Switching Point), 以及策略轉(zhuǎn)換的類型, 記作(即Switching Type)。= 1代表個體在完成IGT的過程中先使用了強(qiáng)化學(xué)習(xí)策略, 之后轉(zhuǎn)而使用啟發(fā)式策略, 而= 2則代表相反的策略轉(zhuǎn)換過程。因此, 該模型共有8個參數(shù), 即涉及強(qiáng)化學(xué)習(xí)策略的α, γ,和, 涉及啟發(fā)式策略的Pr(|)和Pr(|), 轉(zhuǎn)換節(jié)點(diǎn)參數(shù), 以及轉(zhuǎn)換類型參數(shù)。由于當(dāng)策略轉(zhuǎn)換節(jié)點(diǎn)位于整個任務(wù)的開始或結(jié)尾階段時, 相應(yīng)的策略轉(zhuǎn)換模型和對應(yīng)的單一策略模型可能過于類似, 難以分辨。因此, 在本研究中, 我們將的范圍限定在第21個試次到倒數(shù)第21個試次之間。
2.1.4 數(shù)據(jù)
為了系統(tǒng)比較策略轉(zhuǎn)換模型和單一策略模型擬合實(shí)證數(shù)據(jù)的能力, 我們選取了以往采用IGT的研究中具有代表性的一系列數(shù)據(jù)集作為模型擬合對象(Steingroever et al., 2015)。具體而言, 這些數(shù)據(jù)出自10項(xiàng)研究, 涵蓋了不同年齡范圍的共617名健康被試, 且IGT的試次數(shù)包含95, 100和150三種情況。所有研究中的IGT都在計(jì)算機(jī)上完成, 且支付方案與表1所示的Bechara等人(1994)所用的方案相同或類似。所涉及的各項(xiàng)研究的基本信息參見Steingroever等人的表1。
2.1.5 模型擬合和比較方法
本研究所考察的每個計(jì)算認(rèn)知模型(即WSLS, PVL2, VPP和SSO), 都可以根據(jù)被試之前的選擇以及所得結(jié)果, 預(yù)測下一試次每個牌堆被選擇的概率(即一步向前預(yù)測, Ahn et al., 2008)。因此, 我們首先使用極大似然估計(jì)法(Maximum-Likelihood Estimation, MLE), 用每個模型去擬合個體被試的選擇數(shù)據(jù), 即找到每個模型下, 可以使得實(shí)際選擇數(shù)據(jù)出現(xiàn)可能性最大化的參數(shù)取值組合, 并以相應(yīng)的觀測數(shù)據(jù)的預(yù)測出現(xiàn)概率, 作為模型擬合表現(xiàn)的初步指標(biāo)。具體而言, 在特定模型參數(shù)取值下的似然值被定義為該取值下, 模型預(yù)測的個體被試的選擇序列的發(fā)生概率, 而對數(shù)似然值(Log-Likelihood, LL)則被定義為
一般而言, 更為復(fù)雜的模型會有更好的擬合表現(xiàn)。由于上述模型的參數(shù)個數(shù)不盡相同, 它們的復(fù)雜程度也不盡相同。因此, 我們使用包含二階偏差修正的赤池信息準(zhǔn)則(Akaike Information Criterion with second-order bias correction, AICC; Akaike, 1974; Sugiura, 1978)和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC; Schwarz, 1978)這兩種常用的適用于極大似然估計(jì)的指標(biāo), 來綜合考量模型的擬合情況和復(fù)雜程度, 并以相應(yīng)的準(zhǔn)則分?jǐn)?shù)來評價(jià)每個模型的表現(xiàn)并進(jìn)行模型選擇, 具體計(jì)算方式如下:
其中,代表模型的自由參數(shù)個數(shù),為需要擬合的數(shù)據(jù)點(diǎn)個數(shù)(即總試次數(shù)? 1), 而LL則是指模型的極大對數(shù)似然值。AICC(或BIC)的值越小, 表示模型表現(xiàn)越好(Broomell et al., 2011)。2當(dāng)樣本量與模型參數(shù)個數(shù)的比值較小(即樣本量/參數(shù)個數(shù)< 40)時, 使用包含二階偏差修正的赤池信息準(zhǔn)則(AICC)能夠彌補(bǔ)使用AIC可能導(dǎo)致的過擬合缺陷(Burnham & Anderson, 2004)。因此, 在本文中我們使用AICC而非AIC作為模型評估的一個指標(biāo)。
2.1.6 模型復(fù)原測試
在本研究中, 我們對數(shù)據(jù)集中的617名被試的觀測數(shù)據(jù)進(jìn)行了模型擬合, 從而得到了每個被試在每個模型下的最優(yōu)擬合參數(shù)取值。然后, 對于每個模型, 我們用對應(yīng)于每名被試的最優(yōu)擬合參數(shù)取值產(chǎn)生3組模擬數(shù)據(jù), 共產(chǎn)生1821 (= 617 × 3)組模擬的被試數(shù)據(jù)。之后, 我們分別使用WSLS模型、PVL2模型、VPP模型和SSO模型, 用擬合觀測數(shù)據(jù)一樣的方法擬合這些模擬數(shù)據(jù)。最后, 通過分析使用不同指標(biāo)(即AICC和BIC)時模型的區(qū)分度, 我們可以選取出更為合理的針對觀測數(shù)據(jù)的模型選擇指標(biāo)。
2.2.1 模型擬合和比較
表2展示了各個模型擬合全部617名被試的觀測數(shù)據(jù)的結(jié)果。當(dāng)以AICC為模型選擇指標(biāo)時, 無論是就群體均值還是個體結(jié)果而言, SSO模型都表現(xiàn)最佳, 而VPP、PVL2和WSLS模型的表現(xiàn)則依次變差。當(dāng)以BIC為模型選擇指標(biāo)時, 就群體均值而言, PVL2模型的表現(xiàn)最佳, SSO模型次之。從個體結(jié)果上看, WSLS模型和PVL2模型表現(xiàn)較好, 分別在30.79%和33.87%的被試數(shù)據(jù)上有最好的表現(xiàn), 而VPP和SSO模型的表現(xiàn)則基本相當(dāng)。無論采用AICC還是BIC作為指標(biāo), SSO模型都在一部分被試的數(shù)據(jù)(AICC:43.27%, BIC:18.96%)上有最好的表現(xiàn)。
2.2.2 模型復(fù)原測試
由于AICC和BIC對于模型復(fù)雜度的懲罰程度存在差異, 相比于BIC, AICC傾向于選擇參數(shù)更多的模型。因此, 出現(xiàn)使用AICC指標(biāo)時, 較為復(fù)雜的VPP和SSO模型有更好的表現(xiàn)并不奇怪。為了選擇更合適的模型選擇指標(biāo), 我們進(jìn)行了模型復(fù)原測試。表3和表4展示了模型復(fù)原測試的結(jié)果。當(dāng)以AICC為模型選擇指標(biāo)時, 各模型有較好的區(qū)分度。對于每個模型產(chǎn)生的模擬被試數(shù)據(jù), 該模型本身都能在最大比例的個體模擬數(shù)據(jù)上有最好的表現(xiàn)。而當(dāng)以BIC為模型選擇指標(biāo)時, 對于每個模型產(chǎn)生的模擬數(shù)據(jù), 最為簡單的WSLS模型都能在最大比例的個體模擬數(shù)據(jù)上有最好的表現(xiàn), 即BIC不能很好地對WSLS和其他模型進(jìn)行區(qū)分。因此, 在本研究中, 相比于BIC, 將AICC作為模型選擇指標(biāo)更為合適。
注:表中的每一行代表不同模型在某個模型產(chǎn)生的模擬被試數(shù)據(jù)上的表現(xiàn)情況。例如, 第一行代表各個模型擬合WSLS模型產(chǎn)生的模擬被試數(shù)據(jù)時的表現(xiàn)。在由WSLS模型產(chǎn)生的模擬被試數(shù)據(jù)中, WSLS模型在88.60%的個體數(shù)據(jù)上表現(xiàn)最佳, 而PVL2模型、VPP模型和SSO模型則分別在3.67%、0.92%和6.81%的個體數(shù)據(jù)上表現(xiàn)最佳。
表4 研究1基于BIC的模型復(fù)原測試結(jié)果
注:表中內(nèi)容的含義同表3。
本研究提出了有關(guān)IGT的一次策略轉(zhuǎn)換模型, 并針對以往617名健康被試的數(shù)據(jù), 比較了此模型和假定單一策略的具有代表性的PVL2模型(強(qiáng)化學(xué)習(xí)策略), WSLS模型(啟發(fā)式策略)以及VPP模型(混合策略)的數(shù)據(jù)擬合表現(xiàn)。當(dāng)分別以AICC和BIC作為模型選擇指標(biāo)時, 模型表現(xiàn)的相對優(yōu)劣有所差異, 但策略轉(zhuǎn)換模型都能在一定比例的個體數(shù)據(jù)上有最好的表現(xiàn)。模型復(fù)原測試的結(jié)果表明, AICC比BIC更適合在當(dāng)前研究中被用于進(jìn)行模型選擇, 因?yàn)橄啾扔谑褂肂IC, 在使用AICC時更可能還原出正確的數(shù)據(jù)產(chǎn)生模型。當(dāng)以AICC作為模型選擇指標(biāo)時, SSO模型無論從群體還是個體水平都要優(yōu)于另外三個模型, 而且策略轉(zhuǎn)換模型在近一半(43.27%)的被試觀測數(shù)據(jù)上表現(xiàn)最佳。這些結(jié)果表明, 個體在完成IGT的過程中, 的確有較大可能會發(fā)生決策策略的轉(zhuǎn)換。
如前所述, 經(jīng)驗(yàn)累積或者疲倦等因素可能是造成在像IGT這樣的系列決策任務(wù)中發(fā)生策略轉(zhuǎn)換的原因。當(dāng)任務(wù)的試次數(shù)變得越來越多時, 我們可以合理地認(rèn)為, 經(jīng)驗(yàn)累積或者疲倦這樣的因素更有可能發(fā)生作用, 因而個體也就更有可能在任務(wù)過程中, 變換決策策略。因此, 作為本研究主體部分的補(bǔ)充, 我們還比較了包含不同試次數(shù)的IGT研究中的模型表現(xiàn), 以便進(jìn)一步考察策略轉(zhuǎn)換的可能性。在本研究考察的617名被試中, 有15人完成的是95試次的IGT, 504人完成的是100試次的IGT, 還有98人完成的是150試次的IGT。表5展示了包含不同試次數(shù)的IGT數(shù)據(jù)以AICC為模型選擇指標(biāo)的相應(yīng)結(jié)果。可以看出, 隨著試次數(shù)的上升, 無論是從AICC均值, 還是從模型表現(xiàn)最好的被試比例來看, 策略轉(zhuǎn)換模型相比于其他模型的優(yōu)勢都在增強(qiáng), 這一點(diǎn)在模型表現(xiàn)最好的個體被試比例上表現(xiàn)得尤為明顯, 即從13.33%上升到了53.06%。
表5 研究1中根據(jù)試次數(shù)分組的模型擬合和比較結(jié)果
需要指出的是, 雖然上述分析支持IGT中可能存在策略轉(zhuǎn)換, 但這些分析所考察的數(shù)據(jù)出自不同的研究, 在任務(wù)設(shè)置的細(xì)節(jié)上不盡相同, 而且試次數(shù)的范圍和間距不盡合理, 完成不同試次數(shù)IGT的人數(shù)也很不均衡。因此, 以上分析結(jié)果只能被認(rèn)為是為支持IGT中的策略轉(zhuǎn)換提供了有限的證據(jù)。在以下報(bào)告的研究2中, 我們在對試次數(shù)進(jìn)行更為合理的操縱的前提下, 采用相同的任務(wù)設(shè)置在每種試次數(shù)下收集了人數(shù)幾乎相同的被試數(shù)據(jù), 以便更好地檢驗(yàn)試次數(shù)增加會提升策略轉(zhuǎn)換的可能性這一關(guān)鍵假設(shè)。
3.1.1 被試
本研究采用實(shí)驗(yàn)范式操縱IGT的試次數(shù), 并設(shè)置了100試次和200試次兩個實(shí)驗(yàn)條件。共招募321名成年大學(xué)生被試(男性134人, 女性187人), 平均年齡20.54歲(= 2.41)。其中160人完成了100試次的IGT, 另161人則完成了200試次的IGT。招募被試時要求非心理學(xué)專業(yè)且未參加過IGT研究。所有被試均在實(shí)驗(yàn)前填寫知情同意書, 并自愿參與實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)束后, 被試會得到基礎(chǔ)報(bào)酬和額外獎勵, 額外獎勵的數(shù)量和IGT的績效有關(guān), 績效越高, 額外獎勵越多。
3.1.2 實(shí)驗(yàn)設(shè)計(jì)與流程
本實(shí)驗(yàn)采用單因素被試間設(shè)計(jì), 考察并比較不同試次數(shù)下個體在IGT中發(fā)生策略轉(zhuǎn)換的可能性。本實(shí)驗(yàn)共設(shè)置100試次和200試次兩種實(shí)驗(yàn)條件, 前者是大多數(shù)IGT研究的標(biāo)準(zhǔn)設(shè)置, 而后者則可以在控制實(shí)驗(yàn)總時長的前提下, 有效地拉開與前者的距離, 以實(shí)現(xiàn)一定程度的效應(yīng)量。
任務(wù)開始前, 被試會閱讀有關(guān)IGT的標(biāo)準(zhǔn)化介紹, 并被告知擁有2000元研究貨幣(即初始總財(cái)富)。任務(wù)開始后, 被試會看到分別位于屏幕上、下、左、右側(cè)的4個牌堆, 并可以通過鍵盤的“上”、“下”、“左”、“右”鍵, 選擇對應(yīng)的牌堆。被試在完成任務(wù)之前, 并不知曉所需完成的試次數(shù)。每次選擇完成后, 屏幕中央將呈現(xiàn)當(dāng)前試次的獎勵和損失, 以及更新之后的總財(cái)富額(如圖1)。設(shè)置以上下左右方式呈現(xiàn)牌堆, 是為了減少傳統(tǒng)的從左到右的排布方式對牌堆選擇產(chǎn)生的非隨機(jī)的影響, 例如在開始階段依次選擇A、B、C、D四個牌堆, 以及在后續(xù)試次中, 相繼選擇空間上明顯相鄰的牌堆。此外, 本研究采用和表1所示相同的支付方案, 且每10次選擇某一牌堆時損失出現(xiàn)的試次位置也是隨機(jī)的。實(shí)驗(yàn)程序使用Python3及PsychoPy軟件編寫, 被試需要在電腦的PsychoPy軟件上完成實(shí)驗(yàn)。
圖1 研究2實(shí)驗(yàn)界面截圖
3.1.3 數(shù)據(jù)分析
本研究采用和研究1相同的模型擬合和比較技術(shù), 分析和比較了3個單一策略模型和一次策略轉(zhuǎn)換模型在擬合個體IGT數(shù)據(jù)時的表現(xiàn), 并且進(jìn)行了模型復(fù)原測試。此外, 使用獨(dú)立樣本比例差異檢驗(yàn), 分析試次數(shù)對于IGT中發(fā)生策略轉(zhuǎn)換的可能性的影響。
表6 研究2模型比較結(jié)果
表7 研究2基于AICC的模型復(fù)原測試結(jié)果
注:每個單元格中的前一個數(shù)值代表100試次組的結(jié)果, 后一個數(shù)值代表200試次組的結(jié)果。
3.2.1 模型擬合和比較
因模型復(fù)原測試表明, 在本研究中使用AICC仍然比使用BIC更有可能做出正確的模型選擇(見下文), 此處僅報(bào)告基于AICC的結(jié)果。表6呈現(xiàn)了以AICC為標(biāo)準(zhǔn), 100和200試次組各自的模型比較結(jié)果。無論是從群體均值, 還是從個體結(jié)果來看, SSO模型在兩種試次數(shù)條件下都表現(xiàn)最佳。而且, 無論是針對100試次IGT還是200試次IGT, SSO模型都在至少一半被試的個體數(shù)據(jù)上有最好的表現(xiàn)。此外, 和研究1一樣, VPP、PVL2和WSLS模型的表現(xiàn)依次變差。獨(dú)立樣本比例差異Z檢驗(yàn)的結(jié)果表明, 200試次下發(fā)生策略轉(zhuǎn)換的可能性(即SSO模型在擬合個體觀測數(shù)據(jù)時表現(xiàn)最佳的比例, 65.22%), 高于100試次下發(fā)生策略轉(zhuǎn)換的可能性(50.00%,= 2.76, 單側(cè)= 0.003, 比例差異的95% CI = [0.045, 0.259], Cohen’s= 0.31, 對應(yīng)較小的效應(yīng)量)。
和在研究1中一樣, 我們還分析了兩種試次數(shù)條件下, SSO模型擬合最優(yōu)的那些被試的參數(shù)的估計(jì)結(jié)果。當(dāng)IGT包含100試次時,估計(jì)值的均值為47.03, 標(biāo)準(zhǔn)差為20.39; 當(dāng)IGT包含200試次時,估計(jì)值的均值為95.38, 標(biāo)準(zhǔn)差為54.21。4在本研究以及研究1中, SSO模型擬合最優(yōu)的被試的sp平均估計(jì)值都接近于允許范圍的中間值。造成這一結(jié)果的可能原因是, 發(fā)生策略轉(zhuǎn)換的個體的策略轉(zhuǎn)換節(jié)點(diǎn)位于模型允許范圍內(nèi)的各個位置的可能性大致相當(dāng), 且整體分布呈單峰形態(tài)。單側(cè)Mann-Whitney檢驗(yàn)結(jié)果表明, 無論在哪種轉(zhuǎn)換類型下, 200試次下的平均轉(zhuǎn)換節(jié)點(diǎn)均顯著晚于100試次下的平均轉(zhuǎn)換節(jié)點(diǎn)(值均小于0.001)。
3.2.2 模型復(fù)原測試
本研究使用每個模型模擬了3×321 = 963組個體被試數(shù)據(jù), 并使用4個模型對每組模擬數(shù)據(jù)進(jìn)行了擬合。表7展示了100試次組和200試次組基于AICC的模型復(fù)原測試結(jié)果。不論是在100試次還是200試次下, 所考察的每個模型都能在最大比例的各自模型產(chǎn)生的模擬數(shù)據(jù)上有最好的表現(xiàn)??傮w而言, 試次數(shù)為200時數(shù)據(jù)生成模型被正確復(fù)原的比例(71.74%), 要高于試次數(shù)為100時的比例(64.69%,= 4.70, 單側(cè)< 0.001, 比例差異的95% CI = [0.041, 0.100], Cohen’s= 0.15, 對應(yīng)小的效應(yīng)量)。
表8展示了基于BIC的模型復(fù)原測試結(jié)果??梢钥闯? 和研究1一樣, 當(dāng)使用BIC進(jìn)行模型選擇時, 幾乎在所有情況下, 無論針對哪個模型產(chǎn)生的個體模擬數(shù)據(jù), WSLS模型都能有最好的表現(xiàn), 即BIC不能很好地對WSLS和其他模型進(jìn)行區(qū)分。只有當(dāng)試次數(shù)為200時, PVL2模型和SSO模型才能在各自產(chǎn)生的模擬數(shù)據(jù)上有最好的表現(xiàn)。總體而言, 試次數(shù)為200時數(shù)據(jù)生成模型被正確復(fù)原的比例(59.06%), 要高于試次數(shù)為100時的比例(49.17%,= 6.16, 單側(cè)< 0.001, 比例差異的95% CI = [0.068, 0.130], Cohen’s= 0.20, 對應(yīng)小的效應(yīng)量)。
本研究的目的在于考察試次數(shù)的增加是否會導(dǎo)致被試在IGT中更有可能發(fā)生策略轉(zhuǎn)換。結(jié)果表明, 無論IGT包含標(biāo)準(zhǔn)的100個試次還是更多的200個試次, 和研究1類似, 策略轉(zhuǎn)換模型都在至少一半被試的個體數(shù)據(jù)上有最好的表現(xiàn)。更為重要的是, 同包含100個試次的IGT相比, 當(dāng)IGT包含200個試次時, 策略轉(zhuǎn)換模型在更高比例的個體數(shù)據(jù)上表現(xiàn)最佳。這意味著, 當(dāng)試次數(shù)為200時, 人們更有可能在IGT中發(fā)生策略轉(zhuǎn)換。這一結(jié)果排除了策略轉(zhuǎn)換模型能夠在部分被試的數(shù)據(jù)上有最好的表現(xiàn), 僅僅是由模型比較結(jié)果的隨機(jī)性所致這一解釋, 從而為個體在像IGT這樣的系列決策任務(wù)中可能發(fā)生策略轉(zhuǎn)換提供了進(jìn)一步的支持。此外, 模型復(fù)原測試的結(jié)果表明, 與BIC相比, AICC仍然是更有可能做出正確的模型選擇的指標(biāo)。因此, 本研究繼續(xù)使用AICC作為模型選擇和策略推斷的依據(jù)。最后, 無論是采用AICC還是BIC作為模型選擇指標(biāo), 200試次下的模型復(fù)原表現(xiàn), 都要優(yōu)于100試次下的表現(xiàn)。這與更大的數(shù)據(jù)量將有助于更好地區(qū)分不同模型的傳統(tǒng)看法是一致的。
表8 研究2基于BIC的模型復(fù)原測試結(jié)果
注:表中內(nèi)容的含義同表7。
系列決策任務(wù)既廣泛存在于我們的日常生活中, 也大量出現(xiàn)在有關(guān)決策策略和影響因素的實(shí)證研究之中。例如, 為了招聘各種崗位的職員, 人力資源部門的員工需要頻繁地在求職者間做出選擇, 而像IGT這樣的需要被試在相同的任務(wù)結(jié)構(gòu)下重復(fù)完成多次決策的實(shí)驗(yàn)室任務(wù)也比比皆是。以往有關(guān)系列決策任務(wù)下的決策策略的研究, 一般假設(shè)個體在所有試次中都使用相同的策略。之所以要求進(jìn)行多次重復(fù)決策, 僅僅是為了給推斷決策策略提供更多的信息。但是, 在這樣的決策任務(wù)中, 人們不僅會了解和學(xué)習(xí)任務(wù)刺激的具體特征, 而且可能在更高的水平上, 學(xué)習(xí)和相應(yīng)地調(diào)整他們的決策策略。對于后一種學(xué)習(xí)的充分了解, 將有助于我們得出有關(guān)策略選擇的更為準(zhǔn)確的推斷, 并且考察影響策略選擇及其轉(zhuǎn)換的因素, 從而更好地為改善決策服務(wù)。
本研究以IGT為對象, 較為系統(tǒng)地探討了人們在系列決策任務(wù)中發(fā)生策略轉(zhuǎn)換的可能性。結(jié)果表明, 人們不僅會在IGT中發(fā)生策略轉(zhuǎn)換, 而且這一轉(zhuǎn)換的可能性, 還會隨著任務(wù)試次數(shù)的上升而有所提升。這表明, 在通過各種系列決策任務(wù)探討個體的決策策略時, 需要充分考慮策略轉(zhuǎn)換的可能性, 尤其是在任務(wù)試次數(shù)較多的情況下。具體而言, 可以參照本文所報(bào)告的方式, 開發(fā)允許策略轉(zhuǎn)換的計(jì)算認(rèn)知模型, 并將它們和假定單一策略的模型進(jìn)行比較, 從而推斷個體是否發(fā)生了策略轉(zhuǎn)換, 以及在何時發(fā)生了策略轉(zhuǎn)換。由此, 研究者有望對個體在任務(wù)不同階段的策略使用情況有更加準(zhǔn)確的認(rèn)識, 后續(xù)基于不同階段的模型參數(shù)估計(jì)的分析, 也更有可能產(chǎn)生相對準(zhǔn)確的推斷。
在確認(rèn)了系列決策任務(wù)存在策略轉(zhuǎn)換的可能性后, 一個需要進(jìn)一步探討的關(guān)鍵問題是, 產(chǎn)生策略轉(zhuǎn)換的條件是什么, 或者說怎樣的任務(wù)因素、個體因素或者兩者的交互可能引發(fā)策略轉(zhuǎn)換。例如, 當(dāng)任務(wù)難度或者自身的抱負(fù)水平較高時, 個體可能因?yàn)楝F(xiàn)有策略無法實(shí)現(xiàn)目標(biāo), 而選擇嘗試不同的策略。由此可以推斷, 通過增大任務(wù)難度(比如要求在IGT中必須使得財(cái)富水平有所增長)或者提升個體的抱負(fù)水平的方式, 也許能夠引發(fā)更多的策略轉(zhuǎn)換。此外, 是否存在優(yōu)勢策略也是影響策略轉(zhuǎn)換的一個可能因素。當(dāng)個體在嘗試了不同策略并且發(fā)現(xiàn)了優(yōu)勢策略之后, 其策略轉(zhuǎn)換的傾向可能會有所減弱。反之, 如果多種策略下的任務(wù)表現(xiàn)大致相當(dāng), 那么發(fā)生策略轉(zhuǎn)換的可能性則將取決于個體希望盡可能有更好的表現(xiàn)的意愿, 以及探索不同策略的動機(jī)程度。對于策略轉(zhuǎn)換誘發(fā)因素的考察, 將進(jìn)一步提升我們對于決策策略及其轉(zhuǎn)換的認(rèn)識。
Ahn, W. Y., Busemeyer, J. R., Wagenmakers, E. J., & Stout, J. C. (2008). Comparison of decision learning models using the generalization criterion method.(8), 1376?1402. https://doi.org/10.1080/03640210802352992
Ahn, W. Y., Vasilev, G., Lee, S. H., Busemeyer, J. R., Kruschke, J. K., Bechara, A., & Vassileva, J. (2014). Decision-making in stimulant and opiate addicts in protracted abstinence: Evidence from computational modeling with pure users.849. https://doi.org/10.3389/ fpsyg.2014.00849
Akaike, H. (1974). A new look at the statistical model identification.(6), 716?723.
Bechara, A., Damasio, A. R., Damasio, H., & Anderson, S. W. (1994). Insensitivity to future consequences following damage to human prefrontal cortex.(1?3), 7?15. https://doi.org/10.1016/0010-0277(94)90018-3
Bechara, A., & Damasio, H. (2002). Decision-making and addiction (part I): Impaired activation of somatic states in substance dependent individuals when pondering decisions with negative future consequences.(10),1675?1689. https://doi.org/10.1016/s0028-3932(02)00015-5
Bechara, A., Dolan, S., Denburg, N., Hindes, A., Anderson, S. W., & Nathan, P. E. (2001). Decision-making deficits, linked to a dysfunctional ventromedial prefrontal cortex, revealed in alcohol and stimulant abusers.(4), 376?389. https://doi.org/10.1016/s0028-3932(00)00136-6
Bergert, F. B., & Nosofsky, R. M. (2007). A response-time approach to comparing generalized rational and take-the- best models of decision making.107?129.
Brandst?tter, E., Gigerenzer, G., & Hertwig, R. (2006). The priority heuristic: Making choices without trade-offs.409?432.
Br?der, A., & Schiffer, S. (2006). Adaptive flexibility and maladaptive routines in selecting fast and frugal decision strategies.904?918. https://doi.org/10.1037/ 0278-7393.32.4.904
Broomell, S. B., Budescu, D. V., & Por, H. H. (2011). Pair-wise comparisons of multiple models.(8), 821?831.
Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection.(2), 261?304. https://doi.org/10.1177/0049124104268644
Busemeyer, J. R., & Stout, J. C. (2002). A contribution of cognitive decision models to clinical assessment: Decomposing performance on the Bechara gambling task.(3), 253. https://doi.org/10.1037/1040-3590. 14.3.253
Clerc, M. (2010).(Vol. 93). John Wiley & Sons.
Dai, J., Kerestes, R., Upton, D. J., Busemeyer, J. R., & Stout, J. C. (2015). An improved cognitive model of the Iowa and Soochow Gambling Tasks with regard to model fitting performance and tests of parameter consistency.299. https://doi.org/10.3389/fpsyg.2015.00229
Erev, I., & Roth, A. E. (1998). Predicting how people play games: Reinforcement learning in experimental games with unique, mixed strategy equilibria.(4), 848?881. https://jstor.org/stable/117009
Fang, J., Schooler, L., & Shenghua, L. (2023). Machine learning strategy identification: A paradigm to uncover decision strategies with high fidelity.(1), 263?284.
Hochman, G., Yechiam, E., & Bechara, A. (2010). Recency gets larger as lesions move from anterior to posterior locations within the ventromedial prefrontal cortex.(1), 27?34. https:// doi.org/10.1016/j.bbr.2010.04.023
Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of decision under risk.(2), 263?292. https://jstor.org/stable/1914185
Lee, M. D., & Gluck, K. A. (2021). Modeling strategy switches in multi-attribute decision making.148?163. https://doi.org/10.1007/ s42113-020-00092-w
Lee, M. D., Gluck, K. A., & Walsh, M. M. (2019). Understanding the complexity of simple decisions: Modeling multiple behaviors and switching strategies.(4), 335?368. https://doi.org/10.1037/dec0000105
Lee, M. D., Newell, B. R., & Vandekerckhove, J. (2014). Modeling the adaptation of search termination in human decision making.(4), 223?251. https://doi.org/ 10.1037/dec0000019
Li, L., Zhang, J. Q., Hou, J. W., Li, Y. L., Lu, Y. J., & Guo, Z. J. (2019). Decision-making characteristics assessed by the IOWA Gambling Task in schizophrenia: A meta-analysis.(6),688?691, 695.
[李蕾, 張俊青, 侯繼文, 李亞鈴, 魯玉潔, 郭宗君. (2019). 愛荷華賭博任務(wù)評估精神分裂癥決策特點(diǎn)Meta分析.(6), 688?691, 695.]
Luce, R. D. (1959).New York: Wiley.
Pachur, T., & Galesic, M. (2013). Strategy selection in risky choice: The impact of numeracy, affect, and cross-cultural differences.260?271.
Payne, J. W., Bettman, J. R., & Johnson. E. J. (1988). Adaptive strategy selection in decision making.534?552.
Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A. H. Black, & W. F. Prokasy (Eds.),(pp. 64?99). Appleton-Century-Crofts.
Rieskamp, J., & Otto, P. E. (2006). SSL: A theory of how people learn to select strategies.(2), 207?236. https://doi.org/ 10.1037/0096-3445.135.2.207
Schwarz, G. (1978). Estimating the dimension of a model.,(2), 461?464.
Steingroever, H., Fridberg, D. J., Horstmann, A., Kjome, K. L., Kumari, V., Lane, S. D., … Wagenmakers, E. J. (2015). Data from 617 healthy participants performing the Iowa Gambling Task: A “Many Labs” Collaboration.(1), e5. http://doi.org/10.5334/ jopd.ak
Stout, J. C., Rodawalt, W. C., & Siemers, E. R. (2001). Risky decision making in Huntington's disease.(1), 92?101. https://doi.org/10.1017/s1355617701711095
Sugiura, N. (1978). Further analysis of the data by Akaike’s information criterion and the finite corrections.13?26. http://doi.org/10.1080/03610927808827599
Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction.(5), 1054?1054. https://doi.org/10.1109/tnn.1998.712192
Von Neumann, J., & Morgenstern, O. (1944).Princeton University Press.
Wagenmakers, E. J., Ratcliff, R., Gomez, P., & Iverson, G. J. (2004). Assessing model mimicry using the parametric bootstrap.28?50. https://doi.org/10.1016/j.jmp.2003.11.004
Walsh, M. M., & Gluck, K. A. (2016). Verbalization of decision strategies in multiple-cue probabilistic inference.(1), 78?91. https://doi.org/10.1002/bdm.1878
Worthy, D. A., Hawthorne, M. J., & Otto, A. R. (2012). Heterogeneity of strategy use in the Iowa gambling task: A comparison of win-stay/lose-shift and reinforcement learning models.(2), 364?371. https://doi.org/10.3758/s13423-012-0324-9
Worthy, D. A., Pang, B., & Byrne, K. A. (2013). Decomposing the roles of perseveration and expected value representation in models of the Iowa gambling task.640. https://doi.org/10.3389/fpsyg.2013.00640
Xu, S. H. (2012). Internet addicts’ behavior impulsivity: Evidence from the Iowa Gambling Task.(11), 1523?1534.
[徐四華. (2012). 網(wǎng)絡(luò)成癮者的行為沖動性——來自愛荷華賭博任務(wù)的證據(jù).(11), 1523?1534.]
Yechiam, E., Busemeyer, J. R., Stout, J. C., & Bechara, A. (2005). Using cognitive models to map relations between neuropsychological disorders and human decision-making deficits.973?978.
Yechiam, E., & Ert, E. (2007). Evaluating the reliance on past choices in adaptive learning models.(2), 75?84. https://doi.org/10.1016/j.jmp. 2006.11.002
Strategy switching in a sequence of decisions: Evidence from the Iowa Gambling Task
HU Xinyun, SHEN Yue, DAI Junyi
(Department of Psychology and Behavioral Sciences, Zhejiang University, Hangzhou 310058, China)
Much research has been devoted to studying decision strategies in various tasks. Such research usually involved a sequence of decision trials under the same task structure to provide sufficient information for inferring the underlying decision strategies. By assuming each individual adopted a single decision strategy across all decision trials and comparing corresponding computational cognitive models in terms of their performances in fitting empirical data, such studies have revealed multiple possible decision strategies for many major decision tasks. One common drawback of such research, however, was overlooking the possibility that individuals switched their strategies along the sequence of decisions. This might lead to inappropriate conclusions regarding the decision strategies underlying specific decision tasks or misleading inferences of potential cognitive and affective differences between normal and different clinical populations based on parameter estimates from models assuming single strategies.
To address this critical issue, two studies were conducted to examine the possibility of strategy switching in the Iowa Gambling Task (IGT), an experience-based decision task with a sequence of trials aimed at mimicking real-world decisions under uncertainty. By developing a computational cognitive model that allowed for switches between reinforcement learning strategies and heuristic strategies and comparing its performance with those of single-strategy models, Study 1 showed that data from about half of the 617 healthy participants in 10 previous studies were better fitted by the strategy-switching model than three single-strategy models that performed well in previous research, that is, the WSLS, PVL2, and VPP models as exemplar models assuming heuristic, reinforcement learning, and mixed strategies, respectively. This result provided clear support for the possibility of strategy switching in the IGT.
Since strategy switching might occur with accumulating experience or fatigue and an increasing number of trials is likely to facilitate such changes, 321 participants were recruited in Study 2 to further examine whether a larger number of trials would contribute to more strategy switching in the IGT. Specifically, 160 participants performed a 100-trial IGT, whereas the other 161 participants performed a 200-trial IGT under otherwise the same task structure. It was found that data from a larger proportion of individual participants were best fitted by the strategy-switching model when the IGT involved 200 trials rather than standard 100 trials. This result provided further evidence for strategy switching in the task.
Overall, the current results suggest that strategy switching is likely to occur in a sequence of decisions under the same task structure. Consequently, in order to obtain proper understanding of the decision strategies for various decision tasks, it is necessary to consider seriously the possibility of strategy switching, especially for a long sequence of decisions. For a more refined understanding of psychological mechanisms underlying sequences of decisions, future research might further investigate various forms of strategy switching such as gradual instead of abrupt switches and task and individual factors that trigger such switches.
decision task with a sequence of trials, The Iowa Gambling Task, strategy switching, computational cognitive modeling, reinforcement learning and heuristic strategies
2023-02-02
* 中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2018QNA3014)資助。
戴俊毅, E-mail: junyidai@zju.edu.cn
B842.1