亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        認(rèn)知建模中模型比較的方法

        2024-12-31 00:00:00郭鳴謙潘晚坷胡傳鵬
        心理科學(xué)進(jìn)展 2024年10期
        關(guān)鍵詞:計(jì)算模型

        摘 "要""認(rèn)知建模近年來(lái)在科學(xué)心理學(xué)獲得廣泛應(yīng)用, 而模型比較是認(rèn)知建模中關(guān)鍵的一環(huán): 研究者需要通過(guò)模型比較選擇出最優(yōu)模型, 才能進(jìn)行后續(xù)的假設(shè)檢驗(yàn)或潛變量推斷。模型比較不僅要考慮模型對(duì)數(shù)據(jù)的擬合(平衡過(guò)擬合與欠擬合), 也需要考慮模型的復(fù)雜度。然而, 模型比較指標(biāo)眾多, 紛繁復(fù)雜, 給研究者的選用帶來(lái)困難。本文將認(rèn)知建模常用的模型比較指標(biāo)分為三大類并介紹其計(jì)算方法及優(yōu)劣, 包括擬合優(yōu)度指標(biāo)(包括均方誤差、決定系數(shù)、ROC曲線等)、基于交叉驗(yàn)證的指標(biāo)(包括AIC、DIC等)和基于邊際似然的指標(biāo)。結(jié)合正交Go/No-Go范式的公開(kāi)數(shù)據(jù), 本文展示各指標(biāo)在R語(yǔ)言中如何實(shí)現(xiàn)。在此基礎(chǔ)上, 本文探討各指標(biāo)的適用情境及模型平均等新思路。

        關(guān)鍵詞""認(rèn)知建模, 計(jì)算模型, 模型選擇, 模型比較

        分類號(hào)""B841

        最近20年來(lái), 基于計(jì)算模型(Computational models)對(duì)行為數(shù)據(jù)進(jìn)行認(rèn)知建模(Cognitive modeling)的研究越來(lái)越多受到研究者關(guān)注。例如, 在感知覺(jué)決策(Perceptual decision-making)領(lǐng)域的貝葉斯感知覺(jué)模型(Bayesian perception model) (K?rding amp; Wolpert, 2006)和漂移擴(kuò)散模型(Drift diffusion model) (Forstmann et al., 2016; Ratcliff et"al., 2016)等在認(rèn)知神經(jīng)科學(xué)得到廣泛應(yīng)用。類似的, 強(qiáng)化學(xué)習(xí)模型(Reinforcement learning model)在價(jià)值決策(Value-based decision-making)研究中日益成為主流, 其通過(guò)模型得到隱變量“預(yù)期誤差(Prediction error)”可以有效地預(yù)測(cè)學(xué)習(xí)過(guò)程中多巴胺神經(jīng)元(dopaminergic neuron)活動(dòng)(Schultz et al., 1997; Steinberg et al., 2013)。計(jì)算模型也是計(jì)算精神病學(xué)(Computational psychiatry)這一新興交叉領(lǐng)域的基礎(chǔ)(Geng et al., 2022; Huys et"al., 2016; Montague et al., 2012; 區(qū)健新"等, 2020), 增進(jìn)理解精神疾病人群在認(rèn)知加工上缺陷,"以提高對(duì)精神疾病診斷和分類的準(zhǔn)確度, 提供精準(zhǔn)治療(Pedersen et al., 2021)。

        認(rèn)知模型的步驟大致包括模擬數(shù)據(jù)(Simulation)、參數(shù)估計(jì)(Parameter estimation)、模型比較(Model comparison)和隱變量推斷(Latent variable inference)等步驟(Wilson amp; Collins, 2019)。具體而言, 研究者根據(jù)不同理論提出相應(yīng)的計(jì)算模型, 并設(shè)計(jì)實(shí)驗(yàn)收集數(shù)據(jù), 使用各個(gè)模型擬合數(shù)據(jù), 通過(guò)模型比較來(lái)選出最優(yōu)模型, 最后根據(jù)最優(yōu)模型進(jìn)一步分析數(shù)據(jù), 對(duì)模型的隱變量進(jìn)行推斷或進(jìn)一步將隱變量與神經(jīng)數(shù)據(jù)結(jié)合后進(jìn)行解釋。

        模型比較是認(rèn)知建模至關(guān)重要的一環(huán), 然而心理學(xué)/認(rèn)知科學(xué)等領(lǐng)域研究者對(duì)模型比較的方法較為陌生, 面對(duì)種類繁多的模型比較指標(biāo)常感到困惑。此外, 當(dāng)前文獻(xiàn)中也缺乏對(duì)模型比較的諸多方法進(jìn)行系統(tǒng)梳理。鑒于此, 本文梳理模型比較的原則和常見(jiàn)方法, 以幫助讀者理解當(dāng)前模型比較各指標(biāo)背后的原理和適用情境。盡管本文以認(rèn)知建模作為切入點(diǎn)介紹模型比較的各指標(biāo), 但是這些指標(biāo)也可應(yīng)用于的其他涉及計(jì)算模型的場(chǎng)景中, 例如分層線性回歸、結(jié)構(gòu)方程模型等。

        本文將首先闡述模型比較的基本原則, 接著系統(tǒng)性地介紹常用的模型比較指標(biāo), 包括其原理、優(yōu)點(diǎn)和局限性。隨后結(jié)合實(shí)際數(shù)據(jù)示例, 展示如何在R語(yǔ)言中應(yīng)用這些指標(biāo)。最后, 對(duì)各項(xiàng)指標(biāo)的優(yōu)勢(shì)和在使用過(guò)程的注意事項(xiàng)進(jìn)行總結(jié)和討論。

        1""模型比較的基本原則

        一個(gè)好的模型必須要具備如下兩點(diǎn)特質(zhì): 第一, 它能夠很好地解釋或者擬合當(dāng)前樣本數(shù)據(jù)的模型; 第二, 模型要具有較強(qiáng)泛化能力, 即能夠?qū)τ诋?dāng)前數(shù)據(jù)之外的數(shù)據(jù)同樣提供較好的解釋(即預(yù)測(cè)能力)。如果某個(gè)模型無(wú)法準(zhǔn)確地解釋當(dāng)前樣本數(shù)據(jù), 則可認(rèn)為這個(gè)模型是欠擬合的(Underfitting)。如果某個(gè)模型能夠非常好地解釋當(dāng)前樣本數(shù)據(jù)但無(wú)法解釋樣本外的數(shù)據(jù)時(shí), 則認(rèn)為這個(gè)模型過(guò)擬合的(Overfitting) (Friedman et al., 2001)。

        研究者通常使用泛化誤差(Generalization error),"即模型預(yù)測(cè)和真實(shí)數(shù)據(jù)的差異來(lái)衡量模型的泛化能力。泛化誤差可以被分為偏差(Bias)、方差(Variance)和誤差項(xiàng)(Irreducible error)。偏差衡量的是模型預(yù)測(cè)的期望值與真實(shí)數(shù)據(jù)之間的偏差。偏差高的模型代表模型過(guò)于簡(jiǎn)單, 無(wú)法有效捕捉到數(shù)據(jù)的信息, 從而導(dǎo)致欠擬合。而方差衡量模型在不同訓(xùn)練數(shù)據(jù)集上的預(yù)測(cè)結(jié)果的變異程度。方差高的模型意味著模型過(guò)于復(fù)雜, 學(xué)習(xí)到訓(xùn)練數(shù)據(jù)的隨機(jī)噪聲, 從而導(dǎo)致過(guò)擬合。誤差項(xiàng)是指數(shù)據(jù)本身所包含的不可減少的噪聲和不確定性, 任何模型都存在這部分誤差。如圖1所示, 隨著模型的復(fù)雜度的增大, 模型的偏差會(huì)逐漸減小, 方差則會(huì)增大, 被稱作偏差?方差權(quán)衡(Bias-variance trade-off)。因此, 模型選擇是一個(gè)權(quán)衡模型偏差和方差, 從而使得其泛化誤差最小的過(guò)程(Friedman et al., 2001)。

        模型復(fù)雜度對(duì)該模型泛化能力有著重要作用,"諸多因素都會(huì)對(duì)模型復(fù)雜度有影響。Myung和Pitt (1997)總結(jié)三種常見(jiàn)影響模型復(fù)雜度的因素。第一是模型參數(shù)數(shù)量。一般情況下模型參數(shù)越多復(fù)雜度越高。第二是模型的數(shù)學(xué)形式。例如, 非線性模型通常要比線性模型更復(fù)雜。第三是模型的參數(shù)空間范圍。更大的參數(shù)空間范圍說(shuō)明模型擁有更多的自由度, 也意味著模型更復(fù)雜。

        我們可以根據(jù)模型比較指標(biāo)的關(guān)注點(diǎn)和原理的差異可將它們分為三類。第一類為模型擬合優(yōu)度(Goodness of fit), 這一類指標(biāo)并沒(méi)有考慮模型復(fù)雜度, 只是單純地衡量模型對(duì)于當(dāng)前樣本數(shù)據(jù)的擬合程度。第二類是交叉驗(yàn)證(Cross validation)以及近似交叉驗(yàn)證指標(biāo), 這類指標(biāo)關(guān)注于模型泛化能力(Generalizability), 即基于當(dāng)前樣本數(shù)據(jù)擬合后的模型對(duì)于樣本外數(shù)據(jù)預(yù)測(cè)準(zhǔn)確度(Out of sample prediction accuracy)。第三類是基于邊際似然的指標(biāo), 其中表示觀測(cè)數(shù)據(jù), 表示模型。后二者都能在模型復(fù)雜度和擬合優(yōu)度之間進(jìn)行權(quán)衡。圖2呈現(xiàn)了這三類指標(biāo)下的各具體方法。這些方法會(huì)在下文進(jìn)行介紹。不同的模型比較指標(biāo)各有其優(yōu)缺點(diǎn), 不存在某一個(gè)指標(biāo)全面優(yōu)于他者。因此, 研究者需要根據(jù)實(shí)際情況選擇合適的指標(biāo)。

        值得注意的是, 擬合認(rèn)知模型的方法也對(duì)模型指標(biāo)的選擇有著影響, 一些指標(biāo)僅限于特定的擬合方法才能使用。擬合認(rèn)知模型的方法有點(diǎn)估計(jì)的極大似然法(Maximum likelihood estimation, MLE)和最大化后驗(yàn)概率法(Maximum a posterior estimation, MAP), 以及不基于點(diǎn)估計(jì)而是估計(jì)整個(gè)后驗(yàn)分布的貝葉斯參數(shù)估計(jì)(Bayesian estimation)。貝葉斯參數(shù)估計(jì)相較于其他方法具有明顯的優(yōu)勢(shì)。首先, 貝葉斯估計(jì)提供了參數(shù)后驗(yàn)分布, 有利于進(jìn)行后續(xù)對(duì)參數(shù)的分析。其次, 貝葉斯參數(shù)估計(jì)里的先驗(yàn)分布能起到正則化的作用, 從而減少模型的過(guò)擬合"(Bishop, 2006)。此外, 貝葉斯估計(jì)便于構(gòu)建層級(jí)貝葉斯模型(Hieraricial Bayesian Model)。層級(jí)模型引入組水平(Group"level)先驗(yàn), 不同被試的參數(shù)均服從于組水平參數(shù)分布, 而組水平參數(shù)的估計(jì)本身也受到單個(gè)被試參數(shù)的約束。因此, 單個(gè)被試的參數(shù)值會(huì)通過(guò)組水平的參數(shù)間接受到其他被試數(shù)據(jù)的影響, 向組水平參數(shù)均值方向偏移, 從而減少極端數(shù)據(jù)對(duì)其參數(shù)值的影響, 且層級(jí)模型對(duì)組水平效應(yīng)的估計(jì)也更加準(zhǔn)確(Ahn et al., 2017; Gelman, Carlin, et al., 2013)。

        2""擬合優(yōu)度指標(biāo)

        模型的擬合優(yōu)度(Goodness of fit)主要用于衡量模型在實(shí)驗(yàn)數(shù)據(jù)上預(yù)測(cè)程度或擬合程度。盡管擬合優(yōu)度指標(biāo)未直接考量模型復(fù)雜度, 因此可能忽視過(guò)擬合風(fēng)險(xiǎn), 但其在認(rèn)知建模領(lǐng)域仍至關(guān)重要。擬合優(yōu)度指標(biāo)不僅有助于評(píng)估模型的絕對(duì)性能, 在模型復(fù)雜度相似或存在嵌套模型結(jié)構(gòu)時(shí), 擬合優(yōu)度指標(biāo)亦可適用。在認(rèn)知建模領(lǐng)域里常用的擬合優(yōu)度指標(biāo)包括均方誤差(Mean squared error)、決定系數(shù)(Coefficient of determination, /)、對(duì)數(shù)似然函數(shù)(Log likelihood function)、接收者操作特征曲線(Receiver"operator characteristic, ROC)和后驗(yàn)預(yù)測(cè)檢查(Posterior predictive check)等。表1總結(jié)了各個(gè)指標(biāo)的優(yōu)缺點(diǎn)。

        2.1""均方誤差

        均方誤差, 簡(jiǎn)稱為MSE"(Mean squared error),"又稱均方偏差(Mean squared deviation, MSD), 是評(píng)估一般線性回歸的常用指標(biāo), 其計(jì)算公式為:

        (1)

        其中, 是樣本的數(shù)據(jù)點(diǎn), 是模型的預(yù)測(cè)值。將MSE乘以數(shù)據(jù)點(diǎn)n即為(Residual sum of squares)殘差平方和。 (2)

        MSE常應(yīng)用于建模數(shù)據(jù)是連續(xù)變量的回歸預(yù)測(cè)問(wèn)題中。MSE并不適用于如本文案例一樣的分類問(wèn)題。

        對(duì)MSE開(kāi)根號(hào)可得到均方根誤差(Root mean square deviation, RMSD)。當(dāng)模型使用高斯分布時(shí), MSE乘以數(shù)據(jù)點(diǎn)數(shù)量得到的RSS可用于嵌套模型的F檢驗(yàn)。嵌套模型指的是一個(gè)模型相對(duì)于另一個(gè)模型具有更少的參數(shù)或者某些參數(shù)被限制(例如固定為特定值)。在嵌套模型中, 一個(gè)模型(簡(jiǎn)單模型)是另一個(gè)模型(更為完整模型)的子集。

        F值公式為:

        (3)

        上式中和分別為簡(jiǎn)單模型和完整模型的RSS, 為二者的自由參數(shù)之差, 為完整模型的自由度(Hair et al., 2010)。此外, 高斯分布的RSS還可以在計(jì)算AIC和BIC時(shí)替代對(duì)數(shù)似然函數(shù)(Friedman et al., 2001; Lebreton et al., 2019)。更多關(guān)于AIC和BIC的內(nèi)容請(qǐng)分別參考下文3.1和4.1節(jié)。

        2.2""決定系數(shù)

        決定系數(shù)常被用于衡量線性回歸模型的擬合優(yōu)度, 的值介于0到1之間, 反映了因變量的變異能被自變量所解釋的占比。越接近于1, 模型對(duì)數(shù)據(jù)的擬合效果越好。其計(jì)算公式為: (4)

        (Total sum of squares)為總平方和, 其計(jì)算公式為:

        (5)

        與MSE一樣, 決定系數(shù)常應(yīng)用于建模變量為連續(xù)變量的回歸預(yù)測(cè)問(wèn)題, 并不適用于本文案例中建模數(shù)據(jù)為離散分布的分類問(wèn)題。

        對(duì)于建模數(shù)據(jù)為離散分布的情況, 研究者提出使用衡量其擬合優(yōu)度。有多種計(jì)算公式, 本文以McFadden (1984)提出的一種為例進(jìn)行介紹, 因?yàn)樗^為符合Kv?lseth (1985)提出的8種決定系數(shù)應(yīng)有的性質(zhì)(Menard, 2000)。

        其公式為:

        (6)

        為模型的對(duì)數(shù)似然函數(shù)之和; 為空模型的對(duì)數(shù)似然函數(shù)之和

        (Daw, 2011; McFadden, 1984)??漳P停? model)認(rèn)為實(shí)驗(yàn)刺激對(duì)觀測(cè)數(shù)據(jù)沒(méi)有任何的影響, 觀測(cè)數(shù)據(jù)是均勻分布的。此處空模型指的是參數(shù)為(1/選項(xiàng)數(shù)量)的二項(xiàng)式分布或者多項(xiàng)式分布模型。例如, 在后文的案例里, 可能的選項(xiàng)有兩個(gè), 因此

        二項(xiàng)式分布的參數(shù)為, 即觀察到兩個(gè)選項(xiàng)的可

        能性相同, 而空模型的似然函數(shù)為試次數(shù)量乘上。

        2.3""對(duì)數(shù)似然函數(shù)

        似然函數(shù)是在給定觀測(cè)數(shù)據(jù)的情況下, 各模型參數(shù)產(chǎn)生該觀測(cè)數(shù)據(jù)的概率。似然函數(shù)求對(duì)數(shù)即得到對(duì)數(shù)似然函數(shù), 可以用來(lái)評(píng)估模型參數(shù)與實(shí)際數(shù)據(jù)擬合度, 通常在極大似然法估計(jì)里使用。似然函數(shù)的公式為:

        (7)

        不同任務(wù)的數(shù)據(jù)分布不同, 因此對(duì)數(shù)似然函數(shù)的形式也有所區(qū)別。對(duì)于離散數(shù)據(jù)(如具有多個(gè)選項(xiàng)的數(shù)據(jù)), 對(duì)數(shù)似然函數(shù)?;诓植蓟蚨囗?xiàng)式分布; 而對(duì)于反應(yīng)時(shí)或肌電等連續(xù)數(shù)據(jù), 對(duì)數(shù)似然函數(shù)則基于高斯分布(Ballard et al., 2019;"Ikink et al., 2019; Li et al., 2011)。

        在認(rèn)知建模的模型比較中, 對(duì)數(shù)似然函數(shù)常有兩種用途。第一, 使用平均對(duì)數(shù)似然函數(shù)來(lái)探究模型絕對(duì)的表現(xiàn)(Absolute performance)。當(dāng)實(shí)驗(yàn)范式為二選項(xiàng)任務(wù)(Binary choice task), 個(gè)體空模型/隨機(jī)選擇的概率為50%, 其對(duì)數(shù)為?0.693。因此當(dāng)平均對(duì)數(shù)似然函數(shù)大于?0.693時(shí), 模型的表現(xiàn)要優(yōu)于空模型。

        第二, 對(duì)數(shù)似然可用于計(jì)算似然比檢驗(yàn)(Likelihood-ratio test), 來(lái)推斷嵌套模型之間的表現(xiàn)差異是否顯著。似然比檢驗(yàn)的漸近分布為卡方分布, 其自由度正比于兩個(gè)模型中自由參數(shù)數(shù)量之差(Casella amp; Berger, 2002; Wilks, 1938)。

        似然比檢驗(yàn)的公式為:

        (8)

        其中是完整模型的似然函數(shù), 則是固定某些參數(shù)的模型的似然函數(shù)。具體計(jì)算時(shí), 我們需要將所有被試的全部試次的似然函數(shù)相加來(lái)計(jì)算LRT, 并通過(guò)檢查卡方分布(自由度為參數(shù)之差乘以被試數(shù)量)判斷模型差異是否顯著。

        2.4 "ROC曲線

        ROC曲線是一種用于評(píng)估二分類模型的方法, 在信號(hào)檢測(cè)論有著廣泛的應(yīng)用。ROC曲線根據(jù)不同的分類閾值進(jìn)行繪制, 反映了在不同反應(yīng)閾值下?lián)糁新剩℉it rate或true positive rate, TPR)與虛報(bào)率(False alarm或1 positive rate, FPR)之間的關(guān)系(Bishop, 2006)。在ROC曲線里, 其橫坐標(biāo)為虛報(bào)率, 縱坐標(biāo)為擊中率。

        在ROC曲線里, TPR是指正確分類的正例數(shù)與所有實(shí)際正例數(shù)之比。FPR則是指錯(cuò)誤分類為正例的負(fù)例數(shù)與所有實(shí)際負(fù)例數(shù)之比。這里的正例即正確的反應(yīng), 也即信號(hào)檢測(cè)論的信號(hào), 而負(fù)例則為錯(cuò)誤反應(yīng), 即信號(hào)檢測(cè)論的噪音。為繪制ROC曲線, 我們需要變化反應(yīng)閾值, 計(jì)算不同反應(yīng)閾值下的虛報(bào)率和擊中率。

        ROC曲線展示了在不同反應(yīng)閾值下模型的性能。而AUC(Area under curve)則衡量了"ROC曲線下的面積。AUC的值介于0和1之間, 表示分類器在區(qū)分正例和負(fù)例方面的能力。AUC為0.5時(shí)模型的預(yù)測(cè)是隨機(jī)的。而AUC 的值越接近1, 表示分類器性能越好。一般情況下, 當(dāng)AUC大于0.8時(shí), 我們可以認(rèn)為模型的性能表現(xiàn)較佳。

        值得注意是, ROC曲線在正負(fù)樣本大小均衡時(shí)表現(xiàn)良好, 但當(dāng)正負(fù)樣本差異較大時(shí), 精確率?召回率曲線(Precision-recall curve, PRC)是更適合的指標(biāo)(Davis amp; Goadrich, 2006)。

        2.5""后驗(yàn)預(yù)測(cè)檢查

        后驗(yàn)預(yù)測(cè)檢查(posterior predictive check)雖然通常不被直接歸類為模型擬合優(yōu)度指標(biāo), 但它也可以用來(lái)評(píng)估模型對(duì)原始數(shù)據(jù)的擬合程度。因此, 本文將后驗(yàn)預(yù)測(cè)檢查視為一種評(píng)估模型擬合優(yōu)度的方法。后驗(yàn)預(yù)測(cè)檢驗(yàn)通常被用于檢查模型對(duì)樣本數(shù)據(jù)的重現(xiàn)能力(Palminteri et al., 2017; Steingroever et al., 2014; Vandekerckhove et al., 2011)。其公式為:

        (9)

        其中是模型, 是樣本數(shù)據(jù), 是模型生成的模擬數(shù)據(jù)(Gelman, Carlin, et al., 2013; Zhang et"al., 2020)。

        在實(shí)際應(yīng)用中, 后驗(yàn)預(yù)測(cè)檢查的流程如下: 將擬合后模型的最優(yōu)參數(shù)代入到模型之中生成模擬數(shù)據(jù), 然后通過(guò)繪圖或者計(jì)算一些統(tǒng)計(jì)指標(biāo)(如MSE等)來(lái)比較生成的模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的差異, 從而評(píng)估模型的擬合效果和預(yù)測(cè)能力(van de Schoot et al., 2021)。

        后驗(yàn)預(yù)測(cè)檢查可以用于規(guī)避僅憑模型比較指標(biāo)來(lái)比較模型時(shí)可能遇到的問(wèn)題和錯(cuò)誤。例如, Palminteri等人(2017)通過(guò)模擬研究證明, 即使模型A在模型選擇的指標(biāo)上優(yōu)于模型B, 但是將這兩個(gè)模型所生成的模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)進(jìn)行比較時(shí)發(fā)現(xiàn), 模型B生成的模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的總體變化趨勢(shì)更一致, 表明模型B是更好的模型。

        后驗(yàn)預(yù)測(cè)檢查源于貝葉斯統(tǒng)計(jì), 但其應(yīng)用并不局限于貝葉斯參數(shù)估計(jì)的范疇。對(duì)于只能獲得參數(shù)點(diǎn)估計(jì)的非貝葉斯模型, 我們可以使用點(diǎn)估計(jì)的參數(shù)生成模擬數(shù)據(jù), 再將其與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比。近年來(lái), 越來(lái)越多的研究者使用后驗(yàn)預(yù)測(cè)檢查來(lái)評(píng)估模型??梢灶A(yù)見(jiàn), 在未來(lái)的研究中, 后驗(yàn)預(yù)測(cè)檢查有可能成為必不可少的步驟之一(Zhang et al., 2020)。

        3""交叉驗(yàn)證類的指標(biāo)

        交叉驗(yàn)證是機(jī)器學(xué)習(xí)領(lǐng)域中評(píng)估模型對(duì)未見(jiàn)數(shù)據(jù)泛化能力的一種常見(jiàn)方法, 近來(lái)也得到心理學(xué)研究者的重視(Daniel et al., 2020; Verstynen amp; Kording, 2023)。交叉驗(yàn)證的流程大致如下: 首先將數(shù)據(jù)集分為訓(xùn)練集(Training set)和驗(yàn)證集(Validation"set); 然后在訓(xùn)練集上擬合不同的模型; 最后在驗(yàn)證集上對(duì)比不同模型的預(yù)測(cè)準(zhǔn)確度, 從而選擇出最優(yōu)模型(Friedman et al., 2001; Geisser amp; Eddy, 1979)。值得注意的一點(diǎn)是, 前文介紹的擬合優(yōu)度指標(biāo)均可用于在驗(yàn)證集上驗(yàn)證模型性能。

        交叉驗(yàn)證主要有三個(gè)優(yōu)點(diǎn)。第一, 與許多建立在假設(shè)和推導(dǎo)上的指標(biāo)相比, 交叉驗(yàn)證利用計(jì)算機(jī)的算力替代復(fù)雜的推導(dǎo), 使得它簡(jiǎn)潔且直觀。第二, 交叉驗(yàn)證在權(quán)衡模型擬合優(yōu)度和復(fù)雜度時(shí)自然地將三種模型復(fù)雜度因素(參數(shù)數(shù)量、參數(shù)空間范圍和數(shù)學(xué)形式)考慮在內(nèi), 而這是許多指標(biāo)所不具備的。第三, 交叉驗(yàn)證不僅可以作為模型選擇的相對(duì)指標(biāo), 還可結(jié)合前文提到的MSE、AUC等統(tǒng)計(jì)指標(biāo), 評(píng)估模型數(shù)據(jù)分布擬合能力。

        常見(jiàn)的交叉驗(yàn)證方法包括K折交叉驗(yàn)證(K-fold cross-validation)和留一法交叉驗(yàn)證(Leave-one-out cross-validation, Loo-CV)等。K折交叉驗(yàn)證把數(shù)據(jù)分成K份, 其中K?1份數(shù)據(jù)作為訓(xùn)練集, 剩余一份數(shù)據(jù)作驗(yàn)證集。留一法交叉驗(yàn)證則是K折交叉驗(yàn)證的特例, 它從數(shù)據(jù)集中每次取出一個(gè)樣本作為測(cè)試集, 剩余樣本作為訓(xùn)練集。例如, 在N個(gè)樣本點(diǎn)的數(shù)據(jù)集, N?1個(gè)數(shù)據(jù)樣本將作為訓(xùn)練集, 而剩下一個(gè)樣本是驗(yàn)證集, 即K=N。留一法交叉驗(yàn)證需要進(jìn)行N次評(píng)估才能完成對(duì)所有數(shù)據(jù)樣本的預(yù)測(cè), 因此它的計(jì)算量較大。當(dāng)樣本數(shù)據(jù)噪音較少時(shí), 留一法能做到至少與任意K值的K折交叉驗(yàn)證相同乃至于更優(yōu)的表現(xiàn); 而當(dāng)樣本數(shù)據(jù)噪音較多的情況下, 留一法的泛化誤差則較大(Zhang amp; Yang, 2015)。

        盡管交叉驗(yàn)證是機(jī)器學(xué)習(xí)領(lǐng)域最為常用的驗(yàn)證模型泛化能力的手段之一, 但其在認(rèn)知建模領(lǐng)域里的使用并不廣泛, 蓋因留一法交叉驗(yàn)證的計(jì)算量往往較大, 而K折交叉驗(yàn)證則面臨著如何將數(shù)據(jù)分為K份的問(wèn)題。因?yàn)闃颖玖康妮^小和計(jì)算量較大緣故, 認(rèn)知建模研究者往往使用基于信息準(zhǔn)則的近似指標(biāo)去代替交叉驗(yàn)證, 常見(jiàn)近似指標(biāo)的有4類: AIC、DIC、WAIC和PSIS-Loo-CV。

        3.1 "AIC

        AIC"(Akaike information criterion)是最早被提出模型比較指標(biāo)之一(Akaike, 1974), 有著詳實(shí)的理論基礎(chǔ)。首先, AIC是模型所預(yù)測(cè)的數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布的KL散度(Kullback-Leibler divergence)的近似。其次, AIC還被證明漸進(jìn)于樣本外預(yù)測(cè)能力(Out-of-sample predictive accuracy)和留一法交叉驗(yàn)證(Stone, 1977)。

        AIC的計(jì)算公式為:

        (10)

        其中, 是使用極大似然法估計(jì)或者最大化后驗(yàn)概率估計(jì)求得的最優(yōu)參數(shù)的對(duì)數(shù)似然函數(shù)值, 可以參考2節(jié); 為參數(shù)數(shù)量, 用于對(duì)模型復(fù)雜度的懲罰。AIC的值越小, 表明模型的擬合效果越好。

        AIC在較小的樣本數(shù)據(jù)中可能會(huì)表現(xiàn)不佳(Sugiura, 1978), 有研究者提出基于小樣本偏差修正的AICc (Hurvich amp; Tsai, 1989)。AICc的計(jì)算公式為:

        (11)

        其中表示為試次的數(shù)量。AICc在樣本量較大時(shí)會(huì)趨近AIC。當(dāng)樣本量較小時(shí)AICc對(duì)復(fù)雜的模型的懲罰大于AIC。在認(rèn)知建模領(lǐng)域, 由于行為實(shí)驗(yàn)中被試完成的試次數(shù)量有限, AICc往往是比AIC更合適的指標(biāo)(Li et al., 2020; Li amp; Ma, 2021; Suzuki et al., 2012)。

        對(duì)于AIC的使用, Burnham和Anderson (2004)建議當(dāng)兩個(gè)模型的AIC之差絕對(duì)值小于2時(shí), 兩個(gè)模型幾無(wú)差異; 該值在4到7之間時(shí), 存在較少的證據(jù)支持AIC值更小的模型; 該值大于10時(shí),"則有充足的證據(jù)認(rèn)為AIC小的模型是最優(yōu)模型。此外, AIC漸進(jìn)于卡方分布(Anderson amp; Burnham, 2004), 因此, 研究者可以使用卡方檢驗(yàn)對(duì)比不同模型的AIC值是否存在顯著差異。

        AIC的另一用途在于它可被轉(zhuǎn)換成模型概率, 得到所謂的赤池權(quán)重(Akaike weight) (Wagenmakers amp; Farrell, 2004)。

        假設(shè)共有個(gè)模型, 第個(gè)模型的赤池權(quán)重計(jì)算公式如下:

        (12)

        (13)

        上述兩個(gè)公式中第一個(gè)代表了各模型與最優(yōu)模型之間的差異, 最優(yōu)差異則會(huì)通過(guò)公式(13)映射到01區(qū)間之中, 代表不同模型的權(quán)重。公式(13)被稱作softmax公式, 公式中乘上?0.5則是為了保證AIC更小的模型占據(jù)的權(quán)重更高。Anderson和Burnham (2004)認(rèn)為赤池權(quán)重是對(duì)后文介紹的后驗(yàn)?zāi)P透怕剩≒osterior model probability,"PMP, )的近似, 即在給定樣本數(shù)據(jù)的情況下, 模型被選擇成為候選模型中最優(yōu)模型的概率。

        盡管AIC在認(rèn)知建模領(lǐng)域得到廣泛應(yīng)用, 但是它存在如下不足。第一, 作為對(duì)樣本外預(yù)測(cè)能力的近似, AIC的精確度不如后文介紹的WAIC和PSIS-Loo-CV等指標(biāo)。其次, AIC在推導(dǎo)過(guò)程中使

        用插入預(yù)測(cè)(Plug in prediction)概率評(píng)

        估模型在樣本內(nèi)的預(yù)測(cè)準(zhǔn)確度, 而非對(duì)完整的預(yù)測(cè)分布進(jìn)行評(píng)估, 導(dǎo)致對(duì)樣本外數(shù)據(jù)的預(yù)測(cè)存在一定偏差。最后, AIC在評(píng)估模型復(fù)雜度時(shí)僅將參數(shù)數(shù)量納入考量, 未涉及參數(shù)空間的范圍及其數(shù)學(xué)公式復(fù)雜性。

        3.2 "DIC

        DIC"(Deviance information criterion)是貝葉斯統(tǒng)計(jì)中最常見(jiàn)的模型選擇指標(biāo)之一, 其理論基礎(chǔ)在于評(píng)估貝葉斯模型的樣本外預(yù)測(cè)能力(Expected log pointwise predictive density for a new dataset, elpd)。DIC是對(duì)elpd的近似, 因此DIC僅適用于貝葉斯參數(shù)估計(jì)模型中。貝葉斯參數(shù)近似估計(jì)通常有兩種實(shí)現(xiàn)途徑, 一是以馬爾科夫鏈蒙特卡洛采樣(Markov Chain Monte Carlo, MCMC)為主的采樣近似方法, 另一種則是如變分推斷(Variational Inference, VI)通過(guò)近似后驗(yàn)分布求解的近似方法。采樣近似方法的計(jì)算量更大、速度更慢, 但通常得到的結(jié)果也更為準(zhǔn)確。而DIC的計(jì)算需要MCMC得到的后驗(yàn)樣本的參與。

        DIC通常被認(rèn)為是貝葉斯參數(shù)估計(jì)版的AIC, 但是與AIC不同的是DIC僅適用于基于MCMC (Markov chain Monte Carlo)采樣估計(jì)的模型(Spiegelhalter et al., 2002)。

        DIC的計(jì)算公式為:

        其中為參數(shù)后驗(yàn)分布均值, 而則是真實(shí)數(shù)據(jù)與模型預(yù)測(cè)分布之間的偏差(Deviance), 用以衡量模型的性能。偏差的公式為:

        (14)

        其中代表了MCMC的樣本, 因此是MCMC樣本的參數(shù)值。DIC的公式的第一項(xiàng)是?2乘上參數(shù)后驗(yàn)分布均值的偏差, 是模型擬合的程度, 第二項(xiàng)被稱作為有效參數(shù)(effective number of parameters), 是模型擬合的復(fù)雜度的懲罰項(xiàng), 計(jì)算公式為:

        (15)

        (16)

        除上述公式外, Gelman, Carlin等人(2013)也提出用偏差的方差當(dāng)作有效參數(shù)的方法, 其公式為:

        (17)

        DIC與AIC一樣, 其值越小代表模型擬合越好。當(dāng)我們把DIC除以?2, 即可得到DIC對(duì)elpd的近似。與AIC不同的是, DIC的不僅考慮模型參數(shù)數(shù)量, 同時(shí)還對(duì)Myung和Pitt (1997)總結(jié)的其他模型復(fù)雜度的因素敏感。因?yàn)镈IC這一特性, 它能帶給幫助研究者更多地理解認(rèn)知模型。例如, LBA (Linear ballistic accumulator)模型與DDM (Drift-diffussion model)同屬于對(duì)反應(yīng)時(shí)建模的序列抽樣模型(Brown amp; Heathcote, 2008)。LBA常被認(rèn)為是對(duì)DDM的簡(jiǎn)化。為驗(yàn)證這二者誰(shuí)更復(fù)雜, Donkin等人使用DIC對(duì)二者進(jìn)行對(duì)比后發(fā)現(xiàn), 盡管LBA模型的參數(shù)數(shù)量比漂移擴(kuò)散模型更少, 但是LBA模型DIC指標(biāo)中更大, 這表明LBA模型可能并未真正簡(jiǎn)化DDM"(Donkin et"al., 2009)。

        與AIC相較, DIC對(duì)樣本外預(yù)測(cè)能力的近似更精確, 但DIC有如下局限性。第一DIC的表現(xiàn)受參數(shù)后驗(yàn)分布的形態(tài)以及參數(shù)點(diǎn)估計(jì)穩(wěn)定性的影響較大。其次當(dāng)參數(shù)后驗(yàn)分布的點(diǎn)估計(jì)不能很好地用均值代表, 或模型參數(shù)為非指數(shù)族分布時(shí), DIC的估計(jì)可能存在偏差。例如, 當(dāng)參數(shù)后驗(yàn)分布呈多峰時(shí)DIC均容易小于0 (Evans et al., 2020; Spiegelhalter et al., 2014)。

        3.3 "WAICPSIS-Loo-CV

        WAIC (Widely applicable information criterion)"(Watanabe, 2010)和PSIS-Loo-CV (Pareto smoothed"importance sampling-leave-one-out cross-validation)"(Vehtari et al., 2017)與前面介紹的DIC類似, 是對(duì)elpd的近似, 且也僅適用于基于MCMC采樣的貝葉斯模型。

        與DIC不同, WAIC使用lpd (Log pointwise predictive density, 也在一些文章中縮寫為lppd)作為elpd的近似。lpd是模型在當(dāng)前樣本數(shù)據(jù)點(diǎn)上模型的預(yù)測(cè)力, 其計(jì)算公式為:

        (18)

        其中, i是第i個(gè)樣本數(shù)據(jù)點(diǎn), S是MCMC采樣的后驗(yàn)分布的樣本的數(shù)量。通過(guò)lpd近似elpd時(shí)往往會(huì)高估elpd, 即高估模型的預(yù)測(cè)能力。因此, WAIC在計(jì)算elpd時(shí)引入了一修正項(xiàng), 這一項(xiàng)與AIC里的參數(shù)數(shù)量和DIC里的類似, 都是用于懲罰模型復(fù)雜度。代表了模型的有效參數(shù)的數(shù)量(estimated effective number of parameters), 其計(jì)算公式為:

        (19)

        (20)

        為使WAIC漸近于卡方分布, 需對(duì)其乘上?2。值得注意的是, 越大, 模型的樣本外預(yù)測(cè)能力越好, 而WAIC越小說(shuō)明模型擬合越好。

        與DIC相比, 盡管WAIC也采用插入預(yù)測(cè)的策略來(lái)評(píng)估樣本外泛化能力, 但WAIC具有多個(gè)優(yōu)勢(shì): 第一, WAIC利用整個(gè)后驗(yàn)分布計(jì)算模型復(fù)雜度的懲罰項(xiàng), 其結(jié)果更穩(wěn)定; 第二, WAIC在參數(shù)后驗(yàn)分布為非高斯的模型上的表現(xiàn)也要優(yōu)于DIC"(Myung amp; Pitt, 2018)。

        貝葉斯留一法交叉驗(yàn)證(Bayesian leave-one-"out cross-validation)也可以被用于近似elpd。其計(jì)算公式為:

        (21)

        (22)

        其中, i代表第i個(gè)數(shù)據(jù)樣本的數(shù)據(jù)點(diǎn)。基于的信息準(zhǔn)則指標(biāo)為L(zhǎng)OOIC (Leave-One-Out Cross-Validation Information Criterion), 是乘以?2。對(duì)于留一法交叉驗(yàn)證來(lái)說(shuō), 其對(duì)模型復(fù)雜度的懲罰項(xiàng)為和之間的差異。

        貝葉斯留一法交叉驗(yàn)證計(jì)算量極大。為簡(jiǎn)便計(jì)算, Vehtari等人(2017)提出用PSIS-Loo-CV去近

        似完整的Loo-CV。PSIS-Loo-CV使用MCMC樣

        本, 大幅度降低了計(jì)算量。R語(yǔ)言中l(wèi)oo包納入了該算法, 這使得它被廣泛應(yīng)用于實(shí)際研究中。此外, PSIS-Loo-CV提供了一項(xiàng)模型診斷指標(biāo): 帕累托分布的參數(shù)k值, 若絕大多數(shù)數(shù)據(jù)點(diǎn)的k值大于0.7, 則說(shuō)明模型的設(shè)置可能存在問(wèn)題。

        除過(guò)使用WAIC和PSIS-Loo-CV外, Vehtari等人(2019)還推薦使用結(jié)合PSIS-Loo-CV和集成學(xué)習(xí)里的堆疊(Stacking)方法(Friedman et al., 2001)來(lái)計(jì)算每個(gè)模型的權(quán)重, 具體細(xì)節(jié)可見(jiàn)Yao等人(2018)。與赤池權(quán)重一樣, 堆疊方法的模型權(quán)重可用于模型平均。值得注意的一點(diǎn)是, 當(dāng)堆疊方法的模型權(quán)重用于模型比較時(shí), 表現(xiàn)相似的兩個(gè)模型會(huì)互相“分享”權(quán)重, 導(dǎo)致二者權(quán)重較低且相近(Sivula et al., 2020)。

        與WAIC相比, PSIS-Loo-CV是對(duì)elpd更好的近似(Vehtari et al., 2016), 能更全面地考慮Myung和Pitt (1997)提出的三個(gè)影響模型復(fù)雜度的因素。Vehtari等人(2017)開(kāi)發(fā)的R包loo降低了使用門檻, 研究者只需要輸入MCMC采樣的似然函數(shù)即可計(jì)算WAIC和PSIS-Loo-CV。關(guān)于使用WAIC和PSIS-Loo-CV的具體建議, 可以詳見(jiàn)Vehtari (2022)。

        3.4""交叉驗(yàn)證近似指標(biāo)的小結(jié)

        交叉驗(yàn)證類指標(biāo)在認(rèn)知建模領(lǐng)域的應(yīng)用日益增多。隨著近年來(lái)MCMC軟件的流行, 例如JAGS和Stan, 使得研究者能較為容易地進(jìn)行貝葉斯參數(shù)估計(jì), 這極大地推廣了DIC、WAIC和Loo-CV的使用。

        雖然上述這些指標(biāo)建立在不同的假設(shè)和近似方法的基礎(chǔ)之上, AIC更多地應(yīng)用在極大似然法估計(jì)或者最大后驗(yàn)概率法擬合的模型, 而DIC、WAIC和PSIS-Loo-CV則用于MCMC估計(jì)的貝葉斯參數(shù)估計(jì)的模型中。表2總結(jié)了交叉驗(yàn)證類指標(biāo)的優(yōu)缺點(diǎn)以及其適用的參數(shù)估計(jì)方法。但是在一些認(rèn)知建模的應(yīng)用里, 它們的差異并不明顯。例如, Evans (2019)在LBA模型上對(duì)比AIC、DIC、和WAIC表現(xiàn), 研究結(jié)果發(fā)現(xiàn)DIC和WAIC要略優(yōu)于AIC, 但差異并不大。又比如Westbrook等人(2020)使用AIC和DIC對(duì)比了不同的注意力DDM (Attentional drift-diffusion model, aDDM), 結(jié)果發(fā)現(xiàn)AIC和DIC的表現(xiàn)幾乎一致。

        4""邊際似然

        邊際似然(或稱作模型證據(jù))是另一大類模型評(píng)估指標(biāo), 同時(shí)也是貝葉斯模型選擇(Bayesian model selection, BMS)的核心。貝葉斯模型選則基于貝葉斯公式:

        (23)

        公式的左側(cè)為參數(shù)的后驗(yàn)分布, 右側(cè)分子的第二項(xiàng)是參數(shù)的先驗(yàn)分布, 而第一項(xiàng)則是似然函數(shù)。上式?jīng)]有考慮模型的影響, 增加模型可得:

        (24)

        此時(shí)貝葉斯公式的分母即為模型的邊際似然或稱模型證據(jù)。邊際似然越大, 模型對(duì)樣本數(shù)據(jù)解釋的越好。

        邊際似然可以平衡模型復(fù)雜度和擬合效果。例如, 較簡(jiǎn)單的模型可能具有較低的擬合優(yōu)度, 但是其邊際似然卻較大, 蓋因它們的參數(shù)空間不確定性小。相反, 復(fù)雜的模型可能具有較高的擬合優(yōu)度, 但是其邊際似然卻較小, 這是由它們?cè)趨?shù)空間的不確定性較大導(dǎo)致(MacKay, 2003)。

        邊際似然同時(shí)考量Myung和Pitt (1997)總結(jié)的三種影響模型復(fù)雜度的因素, 如圖3所示。過(guò)于簡(jiǎn)單的模型給予觀測(cè)數(shù)據(jù)的概率往往很少, 因此其邊際似然也較小; 過(guò)于復(fù)雜的模型的數(shù)據(jù)分布更廣, 但是它分給當(dāng)前觀測(cè)數(shù)據(jù)的概率也很小, 由此其邊際似然也較小; 只有當(dāng)復(fù)雜度適中時(shí), 觀測(cè)數(shù)據(jù)對(duì)應(yīng)的邊際似然才會(huì)較大。

        邊際似然在實(shí)際的應(yīng)用中存在兩個(gè)主要問(wèn)題。第一, 邊際似然還對(duì)貝葉斯參數(shù)擬合的先驗(yàn)信息格外地敏感。例如, 當(dāng)使用弱信息的先驗(yàn)分

        布時(shí), 復(fù)雜模型的邊際似然小于簡(jiǎn)單模型; 當(dāng)使用更窄的、信息更豐富的先驗(yàn)分布時(shí), 復(fù)雜模型的邊際似然就有可能大于簡(jiǎn)單模型(Farrell amp; Lewandowsky, 2018)。不恰當(dāng)?shù)南闰?yàn)分布, 尤其是在數(shù)據(jù)點(diǎn)較少的情況下, 可能會(huì)對(duì)參數(shù)估計(jì)的結(jié)果產(chǎn)生顯著影響, 進(jìn)而影響對(duì)邊際似然的計(jì)算(Boehm et al., 2018)。第二, 計(jì)算邊際似然需要對(duì)先驗(yàn)分布和模型的似然函數(shù)的乘積在整個(gè)參數(shù)空間進(jìn)行積分。然而只有極少的簡(jiǎn)單模型的邊際似然可以直接求解, 更多模型的邊際似然是無(wú)法直接求解。因此, 研究者提出許多近似方法和采樣積分方法來(lái)計(jì)算邊際似然。下文將介紹幾種認(rèn)知建模中常見(jiàn)的計(jì)算邊際似然方法。

        4.1 "BIC

        BIC"(Bayesian information criterion) (Schwarz, 1978)是下文所介紹拉普拉斯近似(Laplace approximation)邊際似然的一個(gè)特例(Bishop, 2006), 本文將其作為邊際似然近似的方法之一。但BIC與AIC類似, 是最為經(jīng)典和應(yīng)用最廣泛的模型選擇指標(biāo)之一, 便在此單獨(dú)介紹。

        當(dāng)使用拉普拉斯近似計(jì)算邊際似然, 假設(shè)先驗(yàn)分布為無(wú)信息先驗(yàn), 且當(dāng)數(shù)據(jù)點(diǎn)數(shù)量極多, 根據(jù)大數(shù)定律, 拉普拉斯近似的結(jié)果可被簡(jiǎn)化為BIC。盡管BIC起源于貝葉斯模型比較, 但由于其計(jì)算上的簡(jiǎn)便性, 常被應(yīng)用于不考慮先驗(yàn)分布的極大似然估計(jì)中。BIC的計(jì)算公式為:

        (25)

        其中,是BIC里對(duì)模型復(fù)雜度的懲罰項(xiàng), 是參數(shù)數(shù)量, 其中是每個(gè)被試的試次數(shù)量??梢?jiàn), BIC不僅考慮模型參數(shù)數(shù)量對(duì)懲罰模型復(fù)雜度的影響, 也將數(shù)據(jù)量作為懲罰模型復(fù)雜度的關(guān)鍵因素, BIC與AIC一樣, 其值越小說(shuō)明模型擬合的越好。除此之外, BIC有根據(jù)樣本量矯正的指標(biāo)SABIC (Sample-adjusted BIC) (Sclove, 1987), 然而其缺乏理論依據(jù), 應(yīng)用較少(Dziak et al., 2020)。

        盡管BIC是模型選擇中最常用的指標(biāo)之一(Wilson amp; Collins, 2019), 但它也存在顯著的局限性。第一, BIC對(duì)模型復(fù)雜度的懲罰只考慮模型的參數(shù)和數(shù)據(jù)量, 未考慮Myung和Pitt (1997)指出的另外兩個(gè)影響模型復(fù)雜度的因素, 即參數(shù)空間范圍和模型的數(shù)學(xué)形式。第二, 雖然BIC是在貝葉斯理論的框架下推導(dǎo)而來(lái), 但是先驗(yàn)分布并不會(huì)對(duì)BIC值有影響。

        4.2""近似方法計(jì)算邊際似然

        計(jì)算邊際似然的近似方法包括Savage-Dickey比(Savage-Dickey Ratio, SDR)、拉普拉斯近似(Laplace approximation), 核密度估計(jì)方法(Kernel density estimation, KDE)以及變分推斷。與BIC不同, 這些方法考慮到先驗(yàn)分布的影響, 且計(jì)算成本無(wú)顯著增加。與后文介紹的采樣方法相比, 這些近似方法的誤差更大, 但其計(jì)算量遠(yuǎn)小于采樣方法, 因此也被廣泛應(yīng)用。

        Savage-Dickey比適用于嵌套模型的模型比較, 用于計(jì)算兩個(gè)模型的貝葉斯因子(Dickey, 1973; Dickey, 1976; Wagenmakers et al., 2010)。假定簡(jiǎn)單模型不包括參數(shù)為, Savage-Dickey 比將嵌套模型的貝葉斯因子計(jì)算簡(jiǎn)化為完整模型等于0時(shí)的后驗(yàn)概率與先驗(yàn)概率之比, 其公式為:

        (26)

        此處貝葉斯因子簡(jiǎn)單模型和復(fù)雜模型的邊際似然之比, 即支持簡(jiǎn)單模型的證據(jù)大小, 這種做法與用于假設(shè)檢驗(yàn)的貝葉斯因子相同(如: 胡傳鵬等, 2018)。Savage-Dickey比適用于各個(gè)參數(shù)共線性較低的情況, 但很多認(rèn)知模型之間的參數(shù)往往具有一定的共線性, 因此可能存在局限性(Heck, 2019)。

        當(dāng)研究者使用最大化后驗(yàn)概率進(jìn)行參數(shù)估計(jì)時(shí)可使用拉普拉斯近似, 其主旨在于使用多維高斯分布來(lái)近似參數(shù)的分布, 并用泰勒展開(kāi)避免積分問(wèn)題。與BIC相比, 拉普拉斯近似的邊際似然考慮了先驗(yàn)分布的影響, 且其計(jì)算誤差更小。拉普拉斯近似的計(jì)算邊際似然的公式為:

        (27)

        其中為負(fù)對(duì)數(shù)后驗(yàn)的海森矩陣(Hessian matrix)行列式。拉普拉斯近似是心理學(xué)里最常見(jiàn)的近似計(jì)算邊際似然的方法之一(Gershman, 2016;"Huys et"al., 2011; Myung amp; Pitt, 1997), 其關(guān)鍵步驟在于計(jì)算海森矩陣的行列式, 但當(dāng)海森矩陣為非正定矩陣時(shí), 這一項(xiàng)有可能為非數(shù)值(NaN), 從而導(dǎo)致無(wú)法得到近似邊際似然。

        核密度估計(jì)方法則利用MCMC采樣得到的參數(shù)后驗(yàn)樣本來(lái)計(jì)算邊際似然。該方法使用非參統(tǒng)計(jì)方法的核密度估計(jì)來(lái)計(jì)算參數(shù)后驗(yàn)概率

        。其中, 為密度核函數(shù), 通常

        為高斯分布(Wasserman, 2006), 而是密度核的帶寬(Band width), 是MCMC采樣獲得的各個(gè)參數(shù)樣本, 而是MCMC采樣分布的點(diǎn)估計(jì)代表,"一般是概率密度最高的點(diǎn)。通過(guò)核密度估計(jì)得到參數(shù)的后驗(yàn)概率后, 根據(jù)貝葉斯公式可直接計(jì)算邊際似然:

        (28)

        核密度估計(jì)方法計(jì)算簡(jiǎn)便, 且不受海森矩陣的限制, 一些模擬研究還發(fā)現(xiàn)它的表現(xiàn)要比拉普拉斯近似等方法更好(Bos, 2002)。

        變分推斷是除采樣方法外另一常見(jiàn)的貝葉斯參數(shù)估計(jì)的方法。與采樣方法不同的是, 變分推斷試圖用變分分布來(lái)近似參數(shù)后驗(yàn)分布, 從而將貝葉斯公式里的積分問(wèn)題變換成優(yōu)化問(wèn)題(Bishop, 2006)。變分推斷不僅在貝葉斯參數(shù)估計(jì)里有著許多應(yīng)用, 它還可以被當(dāng)作理解認(rèn)知過(guò)程的理論(Friston et al., 2006)。變分推斷的優(yōu)化函數(shù)被稱作證據(jù)下界ELBO(Evidence Lower Bound)或者負(fù)自由能(Negative free energy) (Bishop, 2006; Friston et al., 2007), 它是對(duì)數(shù)邊際似然的下限。最大化ELBO時(shí)能獲得邊際似然的估計(jì)值, ELBO的公式為:

        (29)

        ELBO的公式表明邊際似然可被分為兩部分, 第一部分是似然函數(shù)在變分分布上的期望值, 代表模型擬合的好壞; 第二部分是變分分布和先驗(yàn)分布的KL散度, 代表后驗(yàn)和先驗(yàn)的差異。當(dāng)模型擬合程度越差或者先驗(yàn)分布與后驗(yàn)分布之間的差異越大時(shí), 邊際似然越小(Stephan et al., 2009)。

        在實(shí)際應(yīng)用里, 基于Matlab的變分推斷的工具包VBA在擬合模型完畢時(shí)可以返回優(yōu)化ELBO"(Daunizeau et al., 2014)。此外, 基于Stan或者Python的PyMC擬合的模型也會(huì)返回未標(biāo)準(zhǔn)化的后驗(yàn)分布概率和變分分布概率, 可用于計(jì)算ELBO。變分推斷方法問(wèn)題在于它得到的是邊際似然的下限, 少有理論研究關(guān)注ELBO對(duì)邊際似然的近似誤差(Blei et al., 2017)。

        4.3""采樣方法計(jì)算的邊際似然

        蒙特卡洛采樣方法通過(guò)重復(fù)的隨機(jī)抽樣來(lái)逼近積分的解。當(dāng)復(fù)雜模型的邊際似然的積分無(wú)法通過(guò)解析形式求解時(shí), 研究者使用蒙特卡洛采樣來(lái)計(jì)算邊際似然。用于計(jì)算邊際似然的采樣方法種類繁多, 包括熱力學(xué)積分(Thermodynamic integration)、序列蒙特卡洛采樣(Sequential monte carlo sampler, SMC)、粒子MCMC方法、重要性采樣(Gamerman amp; Lopes, 2006; Hammersley, 2013)和橋采樣(Bridge sampling) (Gronau et al., 2017; Meng amp; Wong, 1996)。前三種方法由于缺少易用的軟件而受眾較?。―oucet amp; Johansen, 2009; Murphy, 2023), 后兩種方法則因其計(jì)算簡(jiǎn)便或易于操作的軟件支持, 在心理學(xué)研究中得到廣泛應(yīng)用。其中重要性采樣更多應(yīng)用于數(shù)值積分, 而橋采樣則主要用于貝葉斯參數(shù)擬合。

        重要性采樣的關(guān)鍵在于引入重要性采樣分布。當(dāng)從一個(gè)分布里采樣困難或者它的樣本質(zhì)量不高時(shí), 我們就可以退而求其次, 從重要性分布里采樣(Bishop, 2006)。在計(jì)算邊際似然時(shí), 我們首先引入重要性采樣分布, 從而得到:

        (30)

        因此, 邊際似然可由下式得到:

        (31)

        從重要性分布里不斷采樣, 代入到貝葉斯公式里計(jì)算, 再將不同樣本的結(jié)果求和即可得到邊際似然。在重要性采樣分布里, 重要性分布的選擇對(duì)結(jié)果影響極大。為保證估計(jì)結(jié)果有較小的方差, 通常是有一個(gè)較厚尾部的分布。此外,

        當(dāng)使用重要性采樣計(jì)算邊際似然的倒數(shù)

        時(shí), 此時(shí)的重要性采樣也被稱作RIS(Reverse importance sampling) (Gelfand amp; Dey, 1994)。相對(duì)的, RIS的采樣分布更需要一個(gè)有著較薄尾部的分布。

        利用MCMC采樣得到參數(shù)后驗(yàn)的樣本來(lái)計(jì)算邊際似然能顯著減低計(jì)算量, 此時(shí)的重要性采樣被稱為調(diào)和平均估計(jì)器(Harmonic mean estimator)。調(diào)和平均器易于計(jì)算, 但是計(jì)算結(jié)果方差較大。提高調(diào)和平均估計(jì)器性能的常見(jiàn)方法有如下幾種。第一, 使用加權(quán)重要性采樣(Acerbi et al., 2018)。此法需要RIS乘上一個(gè)有著較薄尾部的函數(shù), 且, 因此可以是多維高

        斯分布。RIS計(jì)算公式為:

        (32)

        第二是將MCMC樣本替換為均勻分布或者高斯分布與MCMC樣本的混合分布(Steingroever et al., 2016; Vandekerckhove et al., 2015), 該方法因?yàn)楸阌谟?jì)算, 在心理學(xué)有著很多應(yīng)用。

        橋采樣是對(duì)重要性采樣的改善和提升, 與重要性采樣一樣, 橋采樣也利用MCMC樣本。橋采樣的特點(diǎn)在于引入一個(gè)連接目標(biāo)分布和提議分布的橋分布(Bridge distribution), 減小計(jì)算邊際似然的方差并提高計(jì)算的精度(Meng amp; Wong, 1996)。相較于計(jì)算更為簡(jiǎn)單的重要性采樣, 橋采樣避開(kāi)選擇分布的步驟, 其計(jì)算結(jié)果的方差更小, 并且更適合于分層模型。橋采樣的缺點(diǎn)在于, 其計(jì)算較為復(fù)雜, 需要反復(fù)迭代直至結(jié)果穩(wěn)定, 計(jì)算的時(shí)間較長(zhǎng), 計(jì)算細(xì)節(jié)具體可見(jiàn)Gronau等人(2017)。Gronau等人開(kāi)發(fā)的R包bridgesampling簡(jiǎn)化計(jì)算過(guò)程, 使用JAGS和Stan擬合的模型均可使用該包計(jì)算邊際似然。

        4.4""邊際似然計(jì)算方法的小結(jié)

        計(jì)算邊際似然的方法種類繁多, 選擇何種方法依賴于具體的使用情景。BIC是最簡(jiǎn)單的方法, 但它的誤差也最大。此外, 因?yàn)锽IC是無(wú)先驗(yàn)信息的邊際似然的近似, 理論上使用BIC會(huì)更傾向于選擇更簡(jiǎn)單的模型。Evans (2019)認(rèn)為, 當(dāng)研究者使用有信息的先驗(yàn)分布擬合的模型時(shí)BIC是不恰當(dāng)?shù)摹S?jì)算邊際似然的先驗(yàn)分布應(yīng)與擬合模型的先驗(yàn)保持一致。

        表3總結(jié)各個(gè)邊際似然指標(biāo)的優(yōu)缺點(diǎn)。當(dāng)使用最大化后驗(yàn)概率法擬合模型時(shí), 拉普拉斯近似是更簡(jiǎn)便的方法。如果使用MCMC采樣, 且模型非

        分層模型時(shí), 則重要性采樣、拉普拉斯近似或核密度估計(jì)方法更為合適, 因?yàn)樗鼈兊挠?jì)算量更小。對(duì)于分層模型來(lái)說(shuō), 拉普拉斯近似的海森矩陣的行列式不易計(jì)算, 重要性采樣則面臨著采樣分布選擇的困難, 此時(shí)橋采樣是更為合理的選擇。

        5""模型比較計(jì)算的案例

        前文介紹認(rèn)知建模里常用的模型比較指標(biāo), 本小節(jié)以正交Go /No Go范式為示例展示部分模型指標(biāo)的計(jì)算以及使用(Cavanagh et al., 2013; Dorfman amp; Gershman, 2019; Guitart-Masip et al., 2012)。模型比較指標(biāo)的計(jì)算使用R語(yǔ)言完成, 具體代碼見(jiàn)在線材料: https://github.com/zaizibai/model_comparison。

        正交Go/No Go范式常用于研究巴浦洛夫?qū)W習(xí)和工具性學(xué)習(xí)之間的關(guān)系, 圖4展示該范式的基本流程。該范式是2×2的被試內(nèi)實(shí)驗(yàn)設(shè)計(jì), 其中第一個(gè)變量是刺激反應(yīng)動(dòng)作: Go和No Go; 第二個(gè)變量是行為反應(yīng)后的反饋類型: 獲得獎(jiǎng)勵(lì)和避免懲罰。刺激反應(yīng)動(dòng)作和反饋類型兩個(gè)條件結(jié)合起來(lái)共形成4種實(shí)驗(yàn)條件: Go-獲得獎(jiǎng)賞、Go-避免懲罰、No Go-獲得獎(jiǎng)賞和No Go-避免懲罰。每種條件下的反饋均非100%確定性的事件, 在“Go-避免懲罰”條件下, 正確反應(yīng)(即Go)有80%的概率避免懲罰, 但有20%的概率無(wú)法避免; 而錯(cuò)誤反應(yīng)(即No-Go)則有80%的概率受到懲罰, 20%的概率避免懲罰。試次開(kāi)始第一屏的圖片在該范式中被稱作提示符號(hào)cue, 共有4種, 與實(shí)驗(yàn)條件一一對(duì)應(yīng)。實(shí)驗(yàn)開(kāi)始時(shí), 被試并不知道每類條件下正確的反應(yīng), 需要根據(jù)反饋不斷地來(lái)學(xué)習(xí)提示符號(hào)的正確反應(yīng)。根據(jù)學(xué)習(xí)理論, 在該范式里當(dāng)反饋是獲得獎(jiǎng)賞時(shí), 人們易有Go反應(yīng); 當(dāng)反饋是避免懲罰時(shí), 則更容易產(chǎn)生No Go反應(yīng)(Dayan et al., 2006)。

        研究者通常使用簡(jiǎn)單的強(qiáng)化學(xué)習(xí)模型對(duì)該范式下的數(shù)據(jù)進(jìn)行建模。該模型認(rèn)為人類決策受兩種學(xué)習(xí)因素影響: 巴浦洛夫?qū)W習(xí)和工具性學(xué)習(xí)。工具性學(xué)習(xí)源自斯金納的工具性學(xué)習(xí)理論, 是刺激?反應(yīng)?結(jié)果(Stimulus-Response-Outcome, SRO)的聯(lián)結(jié), 而巴浦洛夫?qū)W習(xí)則是刺激?結(jié)果的聯(lián)結(jié), 與反應(yīng)無(wú)關(guān)。具體而言, 選擇Go或No Go反應(yīng)的決策權(quán)重的公式如下:

        (33)

        這其中代表個(gè)體對(duì)Go或No Go反應(yīng)的天然的偏好, 被稱作Go bias參數(shù), 而是工具性學(xué)習(xí)的決策變量, 而則是巴浦洛夫效應(yīng)的決策變量, 是它的度量參數(shù)。關(guān)于該模型的具體細(xì)節(jié), 可以詳見(jiàn)Betts等人(2020)或Swart等人(2017)。

        本文中我們使用源自Raab和Hartley (2020)的公開(kāi)數(shù)據(jù), 具體數(shù)據(jù)地址為: https://osf.io/4h6ne/。該份數(shù)據(jù)包含61名被試。圖5呈現(xiàn)4個(gè)條件下選擇Go反應(yīng)的原始數(shù)據(jù)。針對(duì)這份數(shù)據(jù), 我們總計(jì)擬合4種模型: 包含巴浦洛夫效應(yīng)和Go bias完整模型(模型一), 沒(méi)有巴浦洛夫效應(yīng)和Go bias參數(shù)的模型(模型二), 沒(méi)有巴浦洛夫效應(yīng)但是有Go bias參數(shù)的模型(模型三)和沒(méi)有Go bias參數(shù)但卻有巴浦洛夫效應(yīng)的模型(模型四)。使用點(diǎn)估計(jì)的最大化后驗(yàn)概率法和層級(jí)貝葉斯參數(shù)估計(jì)擬合上述4個(gè)模型。層級(jí)貝葉斯參數(shù)估計(jì)通過(guò)概率編程軟件Stan實(shí)現(xiàn)(Carpenter et al., 2017)。

        5.1""擬合優(yōu)度指標(biāo)的計(jì)算

        本案例為離散變量的選項(xiàng)數(shù)據(jù), 因此可計(jì)算似然函數(shù), 和ROC曲線等指標(biāo)。此處僅以為例進(jìn)行演示。根據(jù)公式7, 分別計(jì)算4個(gè)模型的。模型一的為0.157, 模型二為0.132, 模型三為0.147, 模型四為0.139。這表明模型一的絕對(duì)擬合優(yōu)于其余模型。

        盡管模型一的絕對(duì)擬合優(yōu)于其余模型, 但擬合優(yōu)度未考慮模型復(fù)雜度。我們可以采用交叉驗(yàn)證指標(biāo)和邊際似然指標(biāo)來(lái)彌補(bǔ)這一點(diǎn)。

        5.2""交叉驗(yàn)證指標(biāo)的計(jì)算和使用

        交叉驗(yàn)證指標(biāo)的計(jì)算通常先在所有數(shù)據(jù)點(diǎn)上得到該指標(biāo), 然后進(jìn)行平均或求知得到整體的檢驗(yàn)比較指標(biāo)。作為展示, 此處使用最大化后驗(yàn)概率法的結(jié)果計(jì)算AIC, 并用分層貝葉斯參數(shù)估計(jì)的結(jié)果計(jì)算DIC、WAIC和PSIS-Loo-CV。如圖6所示, 不同指標(biāo)進(jìn)行模型比較的結(jié)果一致, 均發(fā)現(xiàn)模型一和模型三的表現(xiàn)優(yōu)于其余二者。

        Devine等人(2023)通過(guò)模擬研究發(fā)現(xiàn), 僅僅比較模型指標(biāo)的均值的假陽(yáng)性可能較高, 如果同時(shí)考慮個(gè)體水平上模型比較指標(biāo)的不確定性, 能提升模型比較的正確率。因此, 他們建議使用Vehtari等人(2017)的方法, 通過(guò)Wald檢驗(yàn)對(duì)以上貝葉斯模型的指標(biāo)進(jìn)行比較(相關(guān)公式見(jiàn)補(bǔ)充材料)。對(duì)模型一和模型三進(jìn)行Wald檢驗(yàn)的結(jié)果表明, 兩模型在DIC、WAIC和Loo-CV上存在顯著差異, 模型一均優(yōu)于模型三。具體結(jié)果為為:

        (34)

        其中表示模型一與模型三交叉驗(yàn)證指標(biāo)差異, 而則是模型差異標(biāo)準(zhǔn)誤。

        5.3""邊際似然指標(biāo)的計(jì)算和使用

        交叉驗(yàn)證的模型比較方法通常會(huì)選擇更復(fù)雜的模型。例如在本文的案例中, 最復(fù)雜的模型一在交叉驗(yàn)證類指標(biāo)上表現(xiàn)最好。但為避免假陽(yáng)性的問(wèn)題, 許多研究選擇匯報(bào)邊際似然的近似指標(biāo)或者同時(shí)匯報(bào)這兩類指標(biāo)。以下我們簡(jiǎn)單介紹BIC、橋采樣和拉普拉斯近似這三種方法在實(shí)例中的應(yīng)用。

        與交叉似然的指標(biāo)不同, 邊際似然并不會(huì)偏向最復(fù)雜的模型。使用BIC時(shí)作為指標(biāo)時(shí), 最優(yōu)模型為最簡(jiǎn)單的模型二; 橋采樣則支持模型一; 拉普拉斯近似表明模型三最優(yōu)(見(jiàn)圖7)。值得注意的是, 不同邊際似然指標(biāo)在數(shù)值上的差異不僅是因?yàn)榻七呺H似然的精度不同, 同時(shí)與模型擬合方法有關(guān)。橋采樣基于貝葉斯層級(jí)模型, 其參數(shù)估計(jì)結(jié)果更準(zhǔn)確, 且邊際似然計(jì)算誤差更小, 因此其結(jié)果更為取信。

        不同模型的邊際似然指標(biāo)除過(guò)可以直接比較大小外, 也可以使用邊際似然的比值來(lái)比較其優(yōu)劣, 這種做法也被稱為貝葉斯因子(Bayes factor, 公式見(jiàn)補(bǔ)充材料) (Kass amp; Raftery, 1995)。計(jì)算各個(gè)邊際似然指標(biāo)下最優(yōu)模型和次優(yōu)模型的對(duì)數(shù)貝葉斯因子, 發(fā)現(xiàn)BIC的模型二和模型三對(duì)數(shù)貝葉斯因子為42.24; 橋采樣的模型一和模型三的對(duì)數(shù)貝葉斯因子為82.98; 拉普拉斯近似的模型三和模型四的對(duì)數(shù)貝葉斯因子為49.72。這表明, 三個(gè)邊際似然指標(biāo)下, 最優(yōu)模型均明顯優(yōu)于次優(yōu)模型。

        6""總結(jié)與展望

        在過(guò)去的十余年中, 計(jì)算模型在心理學(xué)研究應(yīng)用日益增多。模型比較是認(rèn)知建模過(guò)程的一個(gè)關(guān)鍵步驟, 不當(dāng)?shù)谋容^方法可能導(dǎo)致研究者得出錯(cuò)誤的結(jié)論。因此, 合理地使用模型比較指標(biāo)對(duì)基于計(jì)算模型的研究來(lái)說(shuō)至關(guān)重要。本文總結(jié)在認(rèn)知建模領(lǐng)域常見(jiàn)和新興的模型選擇指標(biāo), 并結(jié)合一個(gè)簡(jiǎn)單的案例, 提供具體的計(jì)算方法。

        值得注意的是, 過(guò)往許多使用計(jì)算模型的研究均采用較為簡(jiǎn)單的模型比較指標(biāo), 如AIC和BIC等。這些指標(biāo)盡管有著許多優(yōu)點(diǎn), 但卻忽視了影響模型復(fù)雜度的諸多重要因素。近年來(lái), WAIC和基于近似/采樣方法計(jì)算的邊際似然等較為復(fù)雜的指標(biāo)逐漸被認(rèn)可, 這些指標(biāo)對(duì)模型復(fù)雜度的考量更加的完善, 基于這些指標(biāo)的模型比較的結(jié)果也更加穩(wěn)定可靠。隨著越來(lái)越多成熟且易于操作的工具的發(fā)展, 這些指標(biāo)將更多地被應(yīng)用在研究里。

        除此之外, 早期認(rèn)知建模的研究側(cè)重于使用相對(duì)指標(biāo)來(lái)評(píng)估模型優(yōu)劣, 忽視了模型擬合絕對(duì)好壞。這種做法存在一個(gè)潛在的問(wèn)題: 模型比較選擇出來(lái)的最優(yōu)模型也不一定能較好地刻畫數(shù)據(jù)的模式。因此在進(jìn)行模型比較時(shí), 我們不僅需要使用相對(duì)指標(biāo)選擇出候選模型中最優(yōu)模型, 也需要通過(guò)擬合優(yōu)度指標(biāo)評(píng)估模型對(duì)當(dāng)前數(shù)據(jù)擬合絕對(duì)優(yōu)良度。只有當(dāng)某個(gè)模型在相對(duì)指標(biāo)上勝出其他候選模型, 且在數(shù)據(jù)上有著良好的絕對(duì)擬合優(yōu)度時(shí), 我們才能將它當(dāng)作最優(yōu)模型。最后, 隨著后驗(yàn)預(yù)測(cè)檢查等方法的普及, 今后的研究應(yīng)當(dāng)采用更為綜合的方法, 以此綜合地衡量模型的相對(duì)和絕對(duì)表現(xiàn)。

        6.1""邊際似然和交叉驗(yàn)證的爭(zhēng)論

        本文著重介紹邊際似然與交叉驗(yàn)證這兩類最常見(jiàn)的模型比較方法。盡管二者的理論基礎(chǔ)不同, 但也有研究表明二者間存在不少聯(lián)系。例如, Fong和Holmes (2020)證明邊際似然在一些特定情況下與交叉驗(yàn)證等價(jià)。然而, 二者更適合哪些研究場(chǎng)景以及如何在實(shí)際研究中進(jìn)行選則和解釋, 仍存在諸多爭(zhēng)議。

        建模中通常有M-Closed和M-Open這兩種場(chǎng)景。M-Closed場(chǎng)景假設(shè)在候選模型中存在一個(gè)“真實(shí)”模型, 能完美地描述數(shù)據(jù)的生成過(guò)程。M-Open場(chǎng)景假設(shè)所有的候選模型都不能完美地描述數(shù)據(jù)的生成過(guò)程。在M-Open場(chǎng)景下, 模型選擇的目標(biāo)是找到一個(gè)在所有候選模型中表現(xiàn)最好的模型, 而不是尋找真實(shí)模型(Burnham amp; Anderson, 2004; Gelman, Hwang, amp; Vehtari, 2013)。在M-Closed場(chǎng)景下且數(shù)據(jù)數(shù)量接近無(wú)限, 此時(shí)邊際似然能選擇出“真實(shí)”模型。而在M-Open場(chǎng)景下, 交叉驗(yàn)證則更適合, 它能找出KL散度距離“真實(shí)”模型最小的模型。雖然在M-Closed環(huán)境下, 交叉驗(yàn)證也能找到與數(shù)據(jù)KL散度最小的模型, 但它卻無(wú)法找出“真實(shí)”模型。有研究表明邊際似然和交叉驗(yàn)證兩者的優(yōu)勢(shì)是無(wú)法被結(jié)合的(Vrieze, 2012; Yang, 2005)。對(duì)這兩種情形下交叉驗(yàn)證法與邊際似然的優(yōu)劣爭(zhēng)議感興趣的讀者, 可以進(jìn)一步閱讀Gronau和Wagenmakers (2019)、Vehtari等人(2019)和Gelman等人(2013)。

        6.2""模型選擇指標(biāo)的使用建議

        首先, 當(dāng)我們進(jìn)行模型比較時(shí)應(yīng)當(dāng)注意每個(gè)指標(biāo)所適用的情況。對(duì)各模型比較指標(biāo)數(shù)值的比較必須是對(duì)同一數(shù)據(jù)進(jìn)行建模的前提下進(jìn)行。例如, 基于反應(yīng)時(shí)和選項(xiàng)數(shù)據(jù)的DDM的AIC無(wú)法和基于選項(xiàng)數(shù)據(jù)建模的強(qiáng)化學(xué)習(xí)模型的AIC進(jìn)行比較(Fontanesi et al., 2019)。

        其次, 當(dāng)模型比較的相對(duì)指標(biāo)無(wú)法區(qū)分不同的模型時(shí), 后驗(yàn)預(yù)測(cè)檢測(cè)也可以作為選擇模型的方法。例如, Steingroever等人(2014)發(fā)現(xiàn)在愛(ài)荷華賭博實(shí)驗(yàn)里, BIC等指標(biāo)很難區(qū)分不同模型, 而后驗(yàn)預(yù)測(cè)檢查則能很好地選擇出最優(yōu)模型。

        此外, 使用模型復(fù)現(xiàn)(Model recovery)的方法來(lái)決定使用何種指標(biāo)也是一種可行的選擇(Wilson"amp; Collins, 2019)。例如, Collins和Frank (2012)使用更復(fù)雜的模型模擬數(shù)據(jù), 再同時(shí)使用簡(jiǎn)單和復(fù)雜模型擬合該數(shù)據(jù)。他們發(fā)現(xiàn), 當(dāng)使用BIC作為模型比較指標(biāo)時(shí), 擬合結(jié)果會(huì)支持簡(jiǎn)單模型。也就是說(shuō), BIC往往過(guò)于懲罰復(fù)雜的模型, 導(dǎo)致無(wú)法復(fù)現(xiàn)出模擬數(shù)據(jù)背后的真實(shí)模型, 而AIC卻可以復(fù)現(xiàn)出更為復(fù)雜的真實(shí)模型(Collins amp; Frank, 2018)。最后, 也有不少研究者推薦同時(shí)匯報(bào)AIC和BIC。如果二者的結(jié)果一致, 則模型比較結(jié)果也更為可靠。如果二者相悖, 則可根據(jù)不同的原則進(jìn)行分門別類的討論(Farrell amp; Lewandowsky, 2018)。

        最后, 不同參數(shù)估計(jì)的方法也會(huì)限制模型比較方法的使用。對(duì)于使用貝葉斯參數(shù)估計(jì)的模型, 我們可以利用MCMC樣本計(jì)算邊際似然或者選則Loo-CV等更精確的近似指標(biāo)。而在使用點(diǎn)估計(jì)的最大化后驗(yàn)概率法時(shí), 我們也可使用拉普拉斯近似計(jì)算邊際似然。在有信息的先驗(yàn)分布時(shí), 邊際似然的表現(xiàn)會(huì)優(yōu)于WAIC對(duì)近似交叉驗(yàn)證的指標(biāo)。因此, 當(dāng)我們對(duì)模型的先驗(yàn)有足夠的認(rèn)識(shí)并設(shè)置有信息的先驗(yàn)時(shí), 邊際似然可能是更好的選擇; 當(dāng)使用無(wú)信息先驗(yàn), 或設(shè)置有信息的先驗(yàn)但并不確定其是否恰當(dāng)時(shí), 對(duì)先驗(yàn)不敏感的WAIC, DIC和Loo-CV是更恰當(dāng)?shù)闹笜?biāo)。

        6.3""模型比較的新發(fā)展

        與認(rèn)知模型的發(fā)展相似, 模型比較的指標(biāo)也在發(fā)展與變化。前述模型比較指標(biāo)多建立在被試上的總和或平均值, 但這種方法不僅忽略被試間的個(gè)體差異, 還可能使極端值對(duì)模型比較結(jié)果產(chǎn)生顯著影響。源于DCM"(Dynamic causal modelling)中隨機(jī)效應(yīng)的貝葉斯模型比較(Random effect Bayseian model selection, RE-BMS) (Stephan et al., 2009)能有效地減少極端值的影響, 在認(rèn)知建模中也取得廣泛的應(yīng)用。RE-BMS利用貝葉斯分層模型來(lái)考慮被試的差異, 使用多項(xiàng)式分布和狄利克雷分布以避免數(shù)據(jù)點(diǎn)非對(duì)稱分布形態(tài)的影響。此外, RE-BMS引入超出概率(Protected exceedence probability, PXP), 代表在當(dāng)前樣本數(shù)據(jù)下, 某一模型的邊際似然大于等于其余模型并可以作為生產(chǎn)當(dāng)前數(shù)據(jù)的“真實(shí)模型”的概率, 即。

        PXP大于0.95就可以像傳統(tǒng)的假設(shè)檢驗(yàn)一樣認(rèn)為該模型要顯著地優(yōu)于其余模型(Iglesias et al., 2013)。Matlab的工具包SPM、VBA和R的bmsR包均可實(shí)現(xiàn)PXP的計(jì)算(Daunizeau et"al., 2014), 使其在認(rèn)知建模得到廣泛應(yīng)用。

        傳統(tǒng)的模型比較的另一個(gè)特點(diǎn)是要選擇出一個(gè)最優(yōu)模型。但單一的模型既可能過(guò)擬合, 也忽視模型的不確定性, 因此研究者提出貝葉斯模型平均, 即同時(shí)考慮多個(gè)模型影響的權(quán)重, 以增強(qiáng)基于模型所做出推斷的魯棒性(Clyde et al., 2011; Hinne et al., 2020; Merlise amp; Edward, 2004)。通過(guò)貝葉斯模型平均, 研究者可以計(jì)算"(Inclusion bayes factor)來(lái)比較不同類型的模型, 其公式為:

        (35)

        這其中和是類型一和類型二的模型先驗(yàn)概率, 和則是類型一和類型二的模型后驗(yàn)概率。模型的后驗(yàn)概率計(jì)算公式為:

        (36)

        是邊際似然, 是模型的先驗(yàn)概率, 通常情況下為均勻分布。將不同類型的模型綜合在一起進(jìn)行比較, 減少了模型不確定性的影響。

        模型平均在變量選擇、元分析等等領(lǐng)域都有著廣泛的應(yīng)用。例如JASP統(tǒng)計(jì)軟件的ANOVA部分集成了貝葉斯模型平均方法(王允宏 等, 2023)。該方法在認(rèn)知建模也開(kāi)始應(yīng)用。最近的一項(xiàng)研究使用模型平均探究速度?準(zhǔn)確性權(quán)衡對(duì)DDM參數(shù)的影響, 研究發(fā)現(xiàn), 使用貝葉斯模型平均能減少模型過(guò)擬合對(duì)DDM參數(shù)估計(jì)的影響, 使得對(duì)DDM參數(shù)分析的結(jié)果更加準(zhǔn)確(Boehm et"al., 2023)。但貝葉斯模型平均也有其局限: 其受限于邊際似然的計(jì)算, 在邊際似然計(jì)算困難的情況下, 難以計(jì)算后驗(yàn)?zāi)P透怕省R环N可行的方法是使用赤池權(quán)重或者BIC來(lái)替代后驗(yàn)?zāi)P透怕?。此外?結(jié)合模型集成的堆疊方法(Stacking)和PSIS-Loo-CV的模型權(quán)重也可以用于替代后驗(yàn)?zāi)P透怕剩╕ao et"al., 2018)??偠灾?, 隨著計(jì)算方法和技術(shù)不斷進(jìn)步, 模型平均等技術(shù)的應(yīng)用將可能提高認(rèn)知建模的精確性和泛化能力, 推動(dòng)心理學(xué)向更廣泛的領(lǐng)域發(fā)展。

        參考文獻(xiàn)

        胡傳鵬, 孔祥禎, Wagenmakers, E.-J., Ly, A., 彭凱平. (2018)."貝葉斯因子及其在JASP中的實(shí)現(xiàn). 心理科學(xué)進(jìn)展,"26(6),"951?965. https://doi.org/10.3724/sp.J.1042.2018.00951

        區(qū)健新, 吳寅, 劉金婷, 李紅. (2020). 計(jì)算精神病學(xué): 抑郁癥研究和臨床應(yīng)用的新視角. 心理科學(xué)進(jìn)展,"28(1), 111?127. https://doi.org/10.3724/sp.J.1042.2020.00111

        王允宏, van den Berg, D., Aust, F., Ly, A., Wagenmaker, E.-J., 胡傳鵬. (2023). 貝葉斯方差分析在JASP中的實(shí)現(xiàn). 心理技術(shù)與應(yīng)用, 11(9), 528?541. http://dx.doi.org/"10.16842/j.cnki.issn2095-5588.2023.09.002

        Acerbi, L., Dokka, K., Angelaki, D. E., amp; Ma, W. J. (2018). Bayesian comparison of explicit and implicit causal inference strategies in multisensory heading perception. PLoS Computational Biololgy,"14(7), e1006110. https://doi.org/"10.1371/journal.pcbi.1006110

        Ahn, W. Y., Haines, N., amp; Zhang, L. (2017). Revealing neurocomputational mechanisms of reinforcement learning"and decision-making with the hBayesDM package. Computational Psychiatry,"1, 24?57. https://doi.org/10."1162/CPSY_a_00002

        Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control,"19(6), 716?723. https://doi.org/10.1109/TAC.1974.1100705

        Anderson, D., amp; Burnham, K. (2004). Model selection and multi-model inference"(Vol. 63). Springer.

        Ballard, I. C., Wagner, A. D., amp; McClure, S. M. (2019). Hippocampal pattern separation supports reinforcement learning. Nature Communications,"10(1), 1073. https://doi."org/10.1038/s41467-019-08998-1

        Betts, M. J., Richter, A., de Boer, L., Tegelbeckers, J., Perosa, V., Baumann, V., ... Krauel, K. (2020). Learning in anticipation of reward and punishment: Perspectives across the human lifespan. Neurobiology of Aging,"96, 49?57. https://doi.org/10.1016/j.neurobiolaging.2020.08.011

        Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.

        Blei, D. M., Kucukelbir, A., amp; McAuliffe, J. D. (2017). Variational inference: A review for statisticians. Journal of the American Statistical Association,"112(518), 859?877. https://doi.org/10.1080/01621459.2017.1285773

        Boehm, U., Annis, J., Frank, M. J., Hawkins, G. E., Heathcote, A., Kellen, D., ... Wagenmakers, E.-J. (2018). Estimating across-trial variability parameters of the Diffusion Decision"Model: Expert advice and recommendations. Journal of Mathematical Psychology,"87, 46?75. https://doi.org/10."1016/j.jmp.2018.09.004

        Boehm, U., Evans, N. J., Gronau, Q. F., Matzke, D., Wagenmakers, E.-J., amp; Heathcote, A. J. (2023). Inclusion Bayes factors for mixed hierarchical diffusion decision models. Psychological Methods. https://doi.org/10.1037/"met0000582Bos, C. S. (2002). A comparison of marginal likelihood computation methods. In: H?rdle, W., amp; R?nz, B. (Eds.), Compstat: Physica, Heidelberg.

        Brown, S. D., amp; Heathcote, A. (2008). The simplest complete model of choice response time: linear ballistic accumulation."Cognitive Psychology,"57(3), 153?178. https://doi.org/10."1016/j.cogpsych.2007.12.002

        Burnham, K. P., amp; Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection. Sociological Methods amp; Research,"33(2), 261?304. https://doi.org/10.1177/0049124104268644

        Carpenter, B., Gelman, A., Hoffman, M. D., Lee, D., Goodrich,"B., Betancourt, M., ... Riddell, A. (2017). Stan: A probabilistic"programming language. Journal of Statistical Software"76(1), 1?32. https://doi.org/10.18637/jss.v076."i01

        Casella, G., amp; Berger, R. L. (2002). Statistical inference. Cengage Learning.

        Cavanagh, J. F., Eisenberg, I., Guitart-Masip, M., Huys, Q., amp; Frank, M. J. (2013). Frontal theta overrides pavlovian learning biases. The Journal of Neuroscience,"33(19), 8541?8548. https://doi.org/10.1523/JNEUROSCI.5754-12."2013

        Clyde, M. A., Ghosh, J., amp; Littman, M. L. (2011). Bayesian adaptive sampling for variable selection and model averaging."Journal of Computational and Graphical Statistics,"20(1), 80?101. https://doi.org/10.1198/jcgs.2010.09049

        Collins, A. G., amp; Frank, M. J. (2012). How much of reinforcement learning is working memory, not reinforcement learning? A behavioral, computational, and neurogenetic analysis. European Journal Of Neuroscience,"35(7), 1024?"1035. https://doi.org/10.1111/j.1460-9568.2011.07980.x

        Collins, A. G. E., amp; Frank, M. J. (2018). Within- and across-"trial dynamics of human EEG reveal cooperative interplay between reinforcement learning and working memory. Proceedings of the National Academy of Sciences,"115(10), 2502?2507. https://doi.org/10.1073/pnas.1720963115

        Daniel, R., Radulescu, A., amp; Niv, Y. (2020). Intact reinforcement"learning but impaired attentional control during multidimensional probabilistic learning in older adults. The Journal of Neuroscience,"40(5), 1084?1096. https://doi."org/10.1523/JNEUROSCI.0254-19.2019

        Daunizeau, J., Adam, V., amp; Rigoux, L. (2014). VBA: A probabilistic treatment of nonlinear models for neurobiological"and behavioural data. PLoS Computational Biology,"10(1), e1003441. https://doi.org/10.1371/journal.pcbi.1003441

        Davis, J., amp; Goadrich, M. (2006). The relationship between Precision-Recall and ROC curves."Proceedings of the 23rd international conference on Machine learning, Pittsburgh, Pennsylvania, USA. https://doi.org/10.1145/1143844.1143874

        Daw, N. D. (2011). Trial-by-trial data analysis using computational models. In Delgado, M. R. (Ed.), Decision making, affect, learning: Attention performance XXIII"(Vol. 23, pp. 3?38). Oxford University Press.

        Dayan, P., Niv, Y., Seymour, B., amp; Daw, N. D. (2006). The misbehavior of value and the discipline of the will. Neural Networks,"19(8), 1153?1160. https://doi.org/10.1016/j."neunet.2006.03.002

        Devine, S., Falk, C. F., amp; Fujimoto, K. A. (2023). Comparing the accuracy of three predictive information criteria for Bayesian linear multilevel model selection. PsyArXiv. https://doi.org/10.31234/osf.io/p2n8a

        Dickey, J. (1973). Scientific reporting and personal probabilities: Student's hypothesis. Journal of the Royal Statistical Society: Series B (Methodological),"35(2), 285?305. https://doi."org/10.1111/j.2517-6161.1973.tb00959.x

        Dickey, J. M. (1976). Approximate posterior distributions. Journal of the American Statistical Association"71(355), 680?689. https://doi.org/10.2307/2285601

        Donkin, C., Heathcote, A., amp; Brown, S. (2009)."Is the linear ballistic accumulator model really the simplest model of choice response times: A Bayesian model complexity analysis. Ninth International Conference on Cognitive Modeling—"ICCM2009, Manchester,

        Dorfman, H. M., amp; Gershman, S. J. (2019). Controllability governs the balance between Pavlovian and instrumental action selection. Nature Communications,"10(1), 5826. https://doi.org/10.1038/s41467-019-13737-7

        Doucet, A., amp; Johansen, A. M. (2009). A tutorial on particle filtering and smoothing: Fifteen years later. In Crisan, D. (Ed.), Handbook of nonlinear filtering ."Oxford University Press.

        Dziak, J. J., Coffman, D. L., Lanza, S. T., Li, R., amp; Jermiin, L. S. (2020). Sensitivity and specificity of information criteria. Briefings in Bioinformatics,"21(2), 553?565. https://doi.org/10.1093/bib/bbz016

        Evans, N. J. (2019). Assessing the practical differences between"model selection methods in inferences about choice response time tasks. Psychonomic Bulletin amp; Review,"26(4), 1070?"1098. https://doi.org/10.3758/s13423-018-01563-9

        Evans, N. J., Hawkins, G. E., amp; Brown, S. D. (2020). The role"of passing time in decision-making. Journal of Experimental"Psychology: Learning, Memory, and Cognition,"46(2), 316?326. https://doi.org/10.1037/xlm0000725

        Farrell, S., amp; Lewandowsky, S. (2018). Computational modeling"of cognition and behavior. Cambridge University Press.

        Fong, E., amp; Holmes, C. C. (2020). On the marginal likelihood"and cross-validation. Biometrika"107(2), 489?496. https://doi.org/10.1093/biomet/asz077

        Fontanesi, L., Gluth, S., Spektor, M. S., amp; Rieskamp, J. (2019)."A reinforcement learning diffusion decision model for value-based decisions. Psychonomic Bulletin amp; Review"26(4), 1099?1121. https://doi.org/10.3758/s13423-018-"1554-2

        Forstmann, B. U., Ratcliff, R., amp; Wagenmakers, E. J. (2016). Sequential sampling models in cognitive neuroscience: Advantages, applications, and extensions. Annual Review of Psychology,"67, 641?666. https://doi.org/10.1146/"annurev-psych-122414-033645

        Friedman, J., Hastie, T., amp; Tibshirani, R. (2001). The elements of statistical learning. Springer

        Friston, K., Kilner, J., amp; Harrison, L. (2006). A free energy principle for the brain. Journal of Physiology,"100(1-3), 70?87. https://doi.org/10.1016/j.jphysparis.2006.10.001

        Friston, K., Mattout, J., Trujillo-Barreto, N., Ashburner, J., amp; Penny, W. (2007). Variational free energy and the Laplace approximation. NeuroImage,"34(1), 220?234. https://doi."org/10.1016/j.neuroimage.2006.08.035

        Gamerman, D., amp; Lopes, H. F. (2006). Markov chain Monte Carlo: Stochastic simulation for Bayesian inference. Chapman amp; Hall/CRC, Boca Raton, FL.

        Geisser, S., amp; Eddy, W. F. (1979). A predictive approach to model selection. Journal of the American Statistical Association,"74(365), 153?160. https://doi.org/10.1080/"01621459.1979.10481632

        Gelfand, A. E., amp; Dey, D. K. (1994). Bayesian model choice: Asymptotics and exact calculations. Journal of the Royal Statistical Society: Series B (Methodological),"56(3), 501?514. https://doi.org/10.1111/j.2517-6161.1994.tb01996.x

        Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., amp; Rubin, D. B. (2013). Bayesian data analysis (3rd ed.). Chapman and Hall/CRC.

        Gelman, A., Hwang, J., amp; Vehtari, A. (2013). Understanding predictive information criteria for Bayesian models. Statistics and Computing"24(6), 997?1016. https://doi."org/10.1007/s11222-013-9416-2

        Geng, H., Chen, J., Hu, C.-P., Jin, J., Chan, R. C. K., Li, Y., ... Zhang, L. (2022). Promoting computational psychiatry in China. Nature Human Behaviour"6(5), 615?617. https://doi.org/10.1038/"s41562-022-01328-4

        Gershman, S. J. (2016). Empirical priors for reinforcement learning models. Journal of Mathematical Psychology,"71, 1?6. https://doi.org/10.1016/j.jmp.2016.01.006

        Gronau, Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U., Marsman, M., ... Steingroever, H. (2017). A tutorial on bridge sampling. Journal of Mathematical Psychology,"81, 80?97. https://doi.org/10.1016/j.jmp.2017.09.005

        Gronau, Q. F., amp; Wagenmakers, E. J. (2019). Limitations of Bayesian Leave-One-Out Cross-Validation for model selection. Computational Brain amp; Behavior, 2(1), 1?11. https://doi.org/10.1007/s42113-018-0011-7

        Guitart-Masip, M., Huys, Q. J., Fuentemilla, L., Dayan, P., Duzel, E., amp; Dolan, R. J. (2012). Go and no-go learning in reward and punishment: Interactions between affect and effect. Neuroimage"62(1), 154?166. https://doi.org/10."1016/j.neuroimage.2012.04.024

        Hair, J. F., Black, W. C., Babin, B. J., amp; Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson Prentice Hall.

        Hammersley, J. (2013). Monte carlo methods. Springer Science amp; Business Media.

        Heck, D. W. (2019). A caveat on the Savage–Dickey density ratio: The case of computing Bayes factors for regression parameters. British Journal of Mathematical and Statistical"Psychology,"72(2), 316?333. https://doi.org/https://doi."org/10.1111/bmsp.12150

        Hinne, M., Gronau, Q. F., van den Bergh, D., amp; Wagenmakers,"E.-J. (2020). A conceptual introduction to Bayesian model averaging. Advances in Methods and Practices in Psychological Science,"3(2), 200?215. https://doi.org/10."1177/2515245919898657

        Hurvich, C. M., amp; Tsai, C.-L. (1989). Regression and time series model selection in small samples. Biometrika,"76(2), 297?307. https://doi.org/10.1093/biomet/76.2.297

        Huys, Q. J., Cools, R., G?lzer, M., Friedel, E., Heinz, A., Dolan, R. J., amp; Dayan, P. (2011). Disentangling the roles of approach, activation and valence in instrumental and pavlovian responding. PLoS Computational Biology,"7(4), e1002028. https://doi.org/10.1371/journal.pcbi.1002028

        Huys, Q. J., Maia, T. V., amp; Frank, M. J. (2016). Computational"psychiatry as a bridge from neuroscience to clinical applications. Nature Neuroscience,"19(3), 404?413. https://doi.org/10.1038/nn.4238

        Iglesias, S., Mathys, C., Brodersen, K. H., Kasper, L., Piccirelli, M., den Ouden, H. E., amp; Stephan, K. E. (2013). Hierarchical prediction errors in midbrain and basal forebrain during sensory learning. Neuron"80(2), 519?530. https://doi.org/10.1016/j.neuron.2013.09.009

        Ikink, I., Engelmann, J. B., van den Bos, W., Roelofs, K., amp; Figner, B. (2019). Time ambiguity during intertemporal decision-making is aversive, impacting choice and neural value coding. Neuroimage,"185, 236?244. https://doi.org/"10.1016/j.neuroimage.2018.10.008

        Kass, R. E., amp; Raftery, A. E. (1995). Bayes factors. Journal of the American Statistical Association"90(430), 773?795. https://doi.org/10.1080/01621459.1995.10476572

        K?rding, K. P., amp; Wolpert, D. M. (2006). Bayesian decision theory in sensorimotor control. Trends in Cognitive Science,"10(7), 319?326. https://doi.org/10.1016/j.tics."2006.05.003

        Kv?lseth, T. O. (1985). Cautionary note about R2. The American Statistician,"39(4), 279?285. https://doi.org/10."1080/00031305.1985.10479448

        Lebreton, M., Bacily, K., Palminteri, S., amp; Engelmann, J. B. (2019). Contextual influence on confidence judgments in human reinforcement learning. PLoS Computational Biololgy,"15(4), e1006973. https://doi.org/10.1371/journal.pcbi.1006973

        Li, J., Schiller, D., Schoenbaum, G., Phelps, E. A., amp; Daw, N. D. (2011). Differential roles of human striatum and amygdala in associative learning. Nature Neuroscience,"14(10), 1250?1252. https://doi.org/10.1038/nn.2904

        Li, J. A., Dong, D., Wei, Z., Liu, Y., Pan, Y., Nori, F., amp; Zhang, X. (2020). Quantum reinforcement learning during human decision-making. Nature Human Behaviour"4(3), 294?307. https://doi.org/10.1038/s41562-019-0804-2

        Li, Z.-W., amp; Ma, W. J. (2021). An uncertainty-based model of the effects of fixation on choice. PLOS Computational Biology,"17(8), e1009190. https://doi.org/10.1371/journal."pcbi.1009190

        MacKay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge University Press.

        McFadden, D. L. (1984). Chapter 24 Econometric analysis of qualitative response models. In "Durlauf, S. N. (Ed.), "Handbook of Econometrics"(Vol. 2, pp. 1395?1457). Elsevier. https://doi.org/10.1016/S1573-4412(84)02016-X

        Menard, S. (2000). Coefficients of determination for multiple logistic regression analysis. The American Statistician,"54(1),"17?24. https://doi.org/10.1080/00031305.2000.10474502

        Meng, X.-L., amp; Wong, W. H. (1996). Simulating ratios of normalizing constants via a simple identity: A theoretical exploration. Statistica Sinica, 6(4), 831?860. https://www."jstor.org/stable/24306045

        Merlise, C., amp; Edward, I. G. (2004). Model uncertainty. Statistical Science"19(1), 81?94. https://doi.org/10.1214/"088342304000000035

        Montague, P. R., Dolan, R. J., Friston, K. J., amp; Dayan, P. (2012). Computational psychiatry. Trends in Cognitive Science"16(1), 72?80. https://doi.org/10.1016/j.tics.2011."11.018

        Murphy, K. P. (2023). Probabilistic machine learning: An introduction. The MIT Press.

        Myung, I. J., amp; Pitt, M. A. (1997). Applying Occam’s razor in modeling cognition: A Bayesian approach. Psychonomic"Bulletin amp; Review,"4(1), 79?95. https://doi.org/10.3758/"BF03210778

        Myung, J., amp; Pitt, M. (2018). Model comparison in psychology."In Wagenmakers, E.J. (Ed.), Stevens' handbook of experimental psychology and cognitive neuroscience"(Vol. 5, pp. 1?34). https://doi.org/10.1002/9781119170174.epcn503

        Palminteri, S., Wyart, V., amp; Koechlin, E. (2017). The importance"of falsification in computational cognitive modeling. Trends in Cognitive Sciences"21(6), 425?433. https://doi."org/10.1016/j.tics.2017.03.011

        Pedersen, M. L., Ironside, M., Amemori, K. I., McGrath, C. L., Kang, M. S., Graybiel, A. M., Pizzagalli, D. A., amp; Frank, M. J. (2021). Computational phenotyping of brain-"behavior dynamics underlying approach-avoidance conflict in major depressive disorder. PLoS Computational Biololgy,"17(5), e1008955. https://doi.org/10.1371/journal.pcbi."1008955

        Raab, H. A., amp; Hartley, C. A. (2020). Adolescents exhibit reduced Pavlovian biases on instrumental learning. Scientific reports, 10(1), 15770. https://doi.org/10.1038/s41598-020-"72628-w

        Ratcliff, R., Smith, P. L., Brown, S. D., amp; McKoon, G. (2016). Diffusion decision model: Current issues and history. Trends in Cognitive Sciences,"20(4), 260?281. https://doi."org/10.1016/j.tics.2016.01.007

        Schultz, W., Dayan, P., amp; Montague, P. R. (1997). A neural substrate of prediction and reward. Science,"275(5306), 1593. https://doi.org/10.1126/science.275.5306.1593

        Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics,"6(2), 461?464. https://www.jstor."org/stable/2958889

        Sclove, S. L. (1987). Application of model-selection criteria to some problems in multivariate analysis. Psychometrika,"52(3), 333?343. https://doi.org/10.1007/BF02294360

        Sivula, T., Magnusson, M., Matamoros, A. A., amp; Vehtari, A. (2020). Uncertainty in Bayesian leave-one-out cross-"validation based model comparison. arXiv. https://doi.org/"10.48550/arXiv.2001.00980

        Spiegelhalter, D. J., Best, N. G., Carlin, B. P., amp; Van Der Linde, A. (2002). Bayesian measures of model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology),"64(4), 583?639. https://doi.org/"10.1111/1467-9868.00353

        Spiegelhalter, D. J., Best, N. G., Carlin, B. P., amp; Van Der Linde, A. (2014). The deviance information criterion: 12 years on. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 76(3), 485?493. http://www."jstor.org/stable/24774528

        Steinberg, E. E., Keiflin, R., Boivin, J. R., Witten, I. B., Deisseroth, K., amp; Janak, P. H. (2013). A causal link between prediction errors, dopamine neurons and learning. Nature Neuroscience,"16(7), 966?973. https://doi.org/10."1038/nn.3413

        Steingroever, H., Wetzels, R., amp; Wagenmakers, E.-J. (2014). Absolute performance of reinforcement-learning models for the Iowa Gambling Task. Decision"1(3), 161?183. https://doi.org/10.1037/dec0000005

        Steingroever, H., Wetzels, R., amp; Wagenmakers, E.-J. (2016). Bayes factors for reinforcement-learning models of the Iowa gambling task. Decision,"3(2), 115?131. https://doi."org/10.1037/dec0000040

        Stephan, K. E., Penny, W. D., Daunizeau, J., Moran, R. J., amp; Friston, K. J. (2009). Bayesian model selection for group studies. Neuroimage"46(4), 1004?1017. https://doi.org/10."1016/j.neuroimage.2009.03.025

        Stone, M. (1977). An asymptotic equivalence of choice of model by cross-validation and Akaike's criterion. Journal of the Royal Statistical Society: Series B,"39(1), 44?47. https://doi.org/10.1111/j.2517-6161.1977.tb01603.x

        Sugiura, N. (1978). Further analysis of the data by akaike's information criterion and the finite corrections: Further analysis of the data by akaike's. Communications in Statistics-theory Methods,"7(1), 13?26. https://doi.org/10."1080/03610927808827599

        Suzuki, S., Harasawa, N., Ueno, K., Gardner, J. L., Ichinohe, N., Haruno, M., Cheng, K., amp; Nakahara, H. (2012). Learning to simulate others' decisions. Neuron,"74(6), 1125?1137. https://doi.org/10.1016/j.neuron.2012.04.030

        Swart, J. C., Fr?bose, M. I., Cook, J. L., Geurts, D. E., Frank, M. J., Cools, R., amp; den Ouden, H. E. (2017). Catecholaminergic challenge uncovers distinct Pavlovian and instrumental mechanisms of motivated (in)action. Elife,"6. https://doi.org/10.7554/eLife.22169

        Vandekerckhove, J., Matzke, D., amp; Wagenmakers, E.-J. (2015). Model comparison and the principle of parsimony. In Busemeyer, J. R., Wang, Z., Townsend, J. T., amp; Eidels, A. (Eds.), The Oxford handbook of computational and mathematical psychology."(pp. 300?319). Oxford University"Press.

        Vandekerckhove, J., Tuerlinckx, F., amp; Lee, M. D. (2011). Hierarchical diffusion models for two-choice response times. Psychological Methods,"16(1), 44?62. https://doi."org/10.1037/a0021765

        van de Schoot, R., Depaoli, S., King, R., Kramer, B., M?rtens,"K., Tadesse, M. G., ... Yau, C. (2021). Bayesian statistics and modelling. Nature Reviews Methods Primers,"1(1), 1?26. https://doi.org/10.1038/s43586-021-00017-2

        Vehtari, A. (2022). Cross-validation FAQ."https://avehtari."github.io/modelselection/CV-FAQ.html

        Vehtari, A., Gelman, A., amp; Gabry, J. (2017). Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC. Statistics and Computing,"27(5), 1413?1432. https://doi.org/10.1007/s11222-016-9696-4

        Vehtari, A., Mononen, T., Tolvanen, V., Sivula, T., amp; Winther, O. (2016). Bayesian leave-one-out cross-validation approximations for Gaussian latent variable models. The Journal of Machine Learning Research"17(1), 3581?3618. http://jmlr.org/papers/v17/14-540.html

        Vehtari, A., Simpson, D. P., Yao, Y., amp; Gelman, A. (2019). Limitations of “Limitations of Bayesian Leave-one-out Cross-Validation for Model Selection”. Computational Brain amp; Behavior, 2(1), 22?27. https://doi.org/10.1007/"s42113-018-0020-6

        Verstynen, T., amp; Kording, K. P. (2023). Overfitting to ‘predict’ suicidal ideation. Nature Human Behaviour, 7(5), 680?681. https://doi.org/10.1038/s41562-023-01560-6

        Vrieze, S. I. (2012). Model selection and psychological theory: A discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC). Psychological Methods,"17(2), 228?243. https://doi.org/10.1037/a0027127

        Wagenmakers, E.-J., amp; Farrell, S. (2004). AIC model selection"using Akaike weights. Psychonomic Bulletin amp; Review"11(1), 192?196. https://doi.org/10.3758/BF03206482

        Wagenmakers, E. J., Lodewyckx, T., Kuriyal, H., amp; Grasman, R. (2010). Bayesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method. Cognitive Psychology,"60(3), 158?189. https://doi.org/10.1016/j.cogpsych.2009."12.001

        Wasserman, L. (2006). All of nonparametric statistics. Springer Science amp; Business Media.

        Watanabe, S. (2010). Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. Journal of Machine Learning Research,"11(12). http://jmlr.org/papers/v11/watanabe10a."html

        Westbrook, A., van den Bosch, R., M??tt?, J., Hofmans, L., Papadopetraki, D., Cools, R., amp; Frank, M. J. (2020). Dopamine promotes cognitive effort by biasing the benefits"versus costs of cognitive work. Science"367(6484),"1362?"1366. https://doi.org/10.1126/science.aaz5891

        Wilks, S. S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. The Annals of Mathematical Statistics"9(1), 60?62. http://www."jstor.org/stable/2957648

        Wilson, R. C., amp; Collins, A. G. (2019). Ten simple rules for the computational modeling of behavioral data. Elife,"8. https://doi.org/10.7554/eLife.49547

        Yang, Y. (2005). Can the strengths of AIC and BIC be shared? A conflict between model indentification and regression estimation. Biometrika,"92(4), 937?950. https://doi.org/10."1093/biomet/92.4.937

        Yao, Y., Vehtari, A., Simpson, D., amp; Gelman, A. (2018). Using stacking to average Bayesian predictive distributions (with discussion). Bayesian Analysis,"13(3), 917?1007. https://doi."org/10.1214/17-BA1091

        Zhang, L., Lengersdorff, L., Mikus, N., Gl?scher, J., amp; Lamm, C. (2020). Using reinforcement learning models in social neuroscience: Frameworks, pitfalls and suggestions of best practices. Social Cognitive and Affective Neuroscience"15(6), 695?707. https://doi.org/10.1093/scan/nsaa089

        Zhang, Y., amp; Yang, Y. (2015). Cross-validation for selecting a model selection procedure. Journal of Econometrics,"187(1), 95?112. https://doi.org/10.1016/j.jeconom.2015.02.006

        附錄:

        Wald檢驗(yàn)

        Wald檢驗(yàn)在被試個(gè)體水平上得到某模型比較指標(biāo)(如DIC)后, 計(jì)算其均值和標(biāo)準(zhǔn)誤, 如果均值大于1.96個(gè)標(biāo)準(zhǔn)誤時(shí), 就判斷為模型之間的差異顯著。根據(jù)Vehtari等人(2017), 單個(gè)模型比較指標(biāo)的標(biāo)準(zhǔn)誤計(jì)算公式為:

        (S1)

        其中是樣本數(shù)據(jù)點(diǎn), 在心理學(xué)實(shí)驗(yàn)里即為所有被試的所有試次, 是該指標(biāo)的均值。

        同理, 當(dāng)計(jì)算兩個(gè)模型比較指標(biāo)之差的標(biāo)準(zhǔn)誤時(shí), 先計(jì)算每個(gè)數(shù)據(jù)點(diǎn)上模型比較指標(biāo)之差, 然后再計(jì)算N個(gè)差異的標(biāo)準(zhǔn)誤, 其公式為:

        (S2)

        其中是兩個(gè)模型比較指標(biāo)之差的均值。Wald檢驗(yàn)將模型指標(biāo)的不確定性考慮在內(nèi), 其假

        陽(yáng)性的概率更低。

        邊際似然比較的貝葉斯因子

        例如, BIC作為邊際似然的近似, 可被用于計(jì)算貝葉斯因子和后驗(yàn)?zāi)P透怕剩╓agenmakers, 2007): 將兩個(gè)模型的BIC之差乘以–0.5, 通過(guò)指數(shù)函數(shù)可以將其轉(zhuǎn)化為貝葉斯因子:

        (S3)

        需要注意的是,這里貝葉斯因子中比較的是任意兩個(gè)研究者感興趣的模型。用于假設(shè)檢驗(yàn)的貝葉斯因子則是備擇假設(shè)和零假設(shè)的模型。

        Model comparison in cognitive modeling

        GUO Mingqian, PAN Wanke, HU Chuanpeng

        1"Behavioral Science Institute, Radboud University, Nijmegen"6525XZ, the Netherlands)(2"School of Psychology, Nanjing Normal University, Nanjing"210097, China

        Abstract: Cognitive modeling has gained widespread application in psychological research. Model comparison plays a crucial role in cognitive modeling, as researchers need to select the best model for subsequent analysis or latent variable inference. Model comparison involves considering not only the fit of the models to the data (balancing overfitting and underfitting) but also the complexity of the parameter data and mathematical forms. This article categorizes and introduces three major classes of model comparison metrics commonly used in cognitive modeling, including: goodness-of-fit metrics (such as mean squared error, coefficient of determination, and ROC curves), cross-validation-based metrics (such as AIC, DIC), and marginal likelihood-based metrics. The computation methods and pros and cons of each metric are discussed, along with practical implementations in R using data from the orthogonal Go/No-Go paradigm. Based on this foundation, the article identifies the suitable contexts for each metric and discusses new approaches such as model averaging in model comparison.

        Keywords:"cognitive modeling, computational models, model comparison, model selection

        猜你喜歡
        計(jì)算模型
        密封段開(kāi)孔的滑閥間隙與泄流量分析
        公路工程投標(biāo)中最優(yōu)報(bào)價(jià)的研究
        廣西高職院校招生效益計(jì)算模型構(gòu)建與應(yīng)用研究
        農(nóng)村公路勘測(cè)中線快速測(cè)量方法探討
        關(guān)于房產(chǎn)測(cè)繪共用面積分?jǐn)倖?wèn)題的探究分析
        大型土石方工程造價(jià)計(jì)算方法與應(yīng)用
        卷宗(2016年11期)2017-03-24 10:58:53
        大數(shù)據(jù)環(huán)境下準(zhǔn)確驗(yàn)證計(jì)算模型效率的方法
        方法論視野下的計(jì)算思維
        干熄焦碳燒損率實(shí)時(shí)計(jì)算與監(jiān)控系統(tǒng)
        懸索橋更換加勁梁施工過(guò)程模擬計(jì)算分析
        久草福利国产精品资源| 久久频这里精品99香蕉| 亚洲中文字幕有综合久久| 中文字幕一区二区av| 亚洲中文字幕一区精品自拍| 永久免费av无码网站性色av| 亚洲一区二区久久青草| 性色国产成人久久久精品二区三区| 国产亚洲av无码av男人的天堂| 久久久久久国产精品无码超碰动画 | 中字幕久久久人妻熟女| 亚洲国产一区二区三区在观看| 国产精品一区二区三区在线观看| 亚洲日韩激情无码一区| 中文字幕 人妻熟女| 激情综合五月天开心久久| 国产tv不卡免费在线观看| 亚洲精品乱码8久久久久久日本| 日韩毛片在线看| 一区二区视频网站在线观看| 文字幕精品一区二区三区老狼| 中文日韩亚洲欧美制服| 久久久AV无码精品免费| 我的美艳丝袜美腿情缘| 大ji巴好深好爽又大又粗视频| 天天干成人网| 日韩美女av二区三区四区| 美女人妻中出日本人妻| 亚洲精品午夜无码专区| 伊人网在线视频观看| 亚洲国产一区中文字幕| 乱老年女人伦免费视频| 亚洲精品永久在线观看| 国产偷闻隔壁人妻内裤av| 精品福利一区二区三区蜜桃| 天堂а√在线中文在线新版 | 中文字幕在线人妻视频| 精品综合一区二区三区| 老色鬼永久精品网站| 欧洲人体一区二区三区| 精品国产自在现线看久久|