亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關于假設檢驗的爭議:問題的澄清與解決*

        2016-02-01 03:18:45仲曉波
        心理科學進展 2016年10期
        關鍵詞:假設檢驗學派貝葉斯

        仲曉波

        (嘉應學院教育科學學院, 廣東梅州 514015)

        1 問題的提出

        自心理學開始使用實驗方法起, 傳統(tǒng)的假設檢驗方法就一直是其分析實驗數(shù)據(jù)和報告實驗結(jié)果的主要工具。但是也幾乎是從開始使用這一方法的時候起, 在心理學中就有著斷斷續(xù)續(xù)的對它的批評(Balluerka, Gómez, & Hidalgo, 2005)。心理統(tǒng)計學中的這一輪新的關于傳統(tǒng)假設檢驗的爭議發(fā)軔于 Cohen等人對其邏輯基礎的否定(Cohen,1994; Hagen, 1997)。

        在 Cohen等批評者們看來, 傳統(tǒng)假設檢驗確定研究假設(備擇假設)接受域的推演邏輯是:首先把假設空間(由實驗結(jié)果能夠得出的所有可能結(jié)論組成)分為零假設H0和備擇假設H1兩個互補的部分; 然后在樣本空間(由實驗所有的可能結(jié)果組成)中尋得一個區(qū)域, 使得在零假設成立的情況下, 實驗結(jié)果落在這個區(qū)域的概率小到這樣的程度——以至于可以近似地認為:在零假設成立的情況下, 實驗結(jié)果不可能落在這個區(qū)域; 根據(jù)“條件命題的逆否命題和原條件命題等價”的邏輯學原理, 當發(fā)現(xiàn)實驗結(jié)果確實落在這個區(qū)域中時,就可以拒絕零假設; 由于零假設和備擇假設的互補性, 拒絕零假設就意味著接受備擇假設(Cohen,1994; Hagen, 1997; Balluerka et al., 2005)。這種對傳統(tǒng)假設檢驗原理的論述也常常見諸于心理統(tǒng)計學等非數(shù)學專業(yè)的統(tǒng)計學教科書中。

        批評者們指出:傳統(tǒng)假設檢驗這一推演邏輯意味著把在樣本空間子集M中能夠拒絕零假設的標準建立在上, 然而是否拒絕零假設應該以為標準(Cohen, 1994; Hagen,1997)。而和有如下的由貝葉斯公式所確定的關系:

        Cohen等人的這些批評在心理統(tǒng)計學中引起熱烈的反響, 研究者們提出各種取代、改進或者補充傳統(tǒng)假設檢驗的方案, 但是這些方案大都由于自身的缺陷也受到質(zhì)疑和批評(Balluerka et al.,2005)。關于傳統(tǒng)假設檢驗的爭議之所以至今尚未得到平息, 其中的一個關鍵原因是它和統(tǒng)計學中的頻率學派和貝葉斯學派的對立交織在一起。屬于頻率學派的傳統(tǒng)假設檢驗在心理學中所遭受的批評使得一些心理學研究人員傾向于認為應該使用貝葉斯學派中的假設檢驗方法(Morey & Rouder,2011)。Cohen等人的對傳統(tǒng)假設檢驗的邏輯基礎的上述批評使用的也正是貝葉斯統(tǒng)計學派中的概念和方法。

        統(tǒng)計學家們一致地認為:取決于問題本身的性質(zhì), 有些問題適合用頻率學派的方法, 而有些問題則適合用貝葉斯學派的方法(張堯庭, 陳漢峰,1991)。所以, 為平息心理學中這場關于假設檢驗的爭議, 首先必須澄清和解決的問題是:心理學實驗的數(shù)據(jù)分析適宜用哪個學派的方法?文章下面的第二部分將通過分析指出:心理學實驗的性質(zhì)決定了其數(shù)據(jù)處理仍然應該用頻率學派的統(tǒng)計學方法; 在頻率學派的框架下, 傳統(tǒng)的假設檢驗實際上有著合法的邏輯基礎, 但是同時它在效用性方面卻存在缺陷。在澄清這些問題之后, 第三部分將說明:為了克服這些缺陷, 應該對傳統(tǒng)的假設檢驗做怎樣的改進和補充?置信區(qū)間怎樣能夠集成地表示這些改進和補充?文章的第四部分將說明:為什么現(xiàn)行的面向總體的實驗設計和數(shù)據(jù)分析方法需要轉(zhuǎn)向為面向個體?

        2 問題的澄清

        2.1 貝葉斯學派和頻率學派關于假設檢驗的不同觀念

        貝葉斯學派和頻率學派的區(qū)別并不在于是否使用貝葉斯公式(事實上兩個學派都使用這一公式), 就心理學實驗數(shù)據(jù)的處理來說, 頻率學派認為自變量影響因變量的強度(效應值)是個固定值(盡管這個固定值的大小研究者不知道), 而貝葉斯學派則認為這個效應值是隨機變量。由于認為效應值是隨機變量, 貝葉斯學派認為關于效應值取值范圍的任何假設H成立的概率都是0和1之間的某個數(shù)值。設從實驗獲得的結(jié)果為x, 由貝葉斯公式可得:

        從貝葉斯學派的觀念來看, 實驗在假設檢驗方面的價值就在于把H成立的概率從先驗概率更新為后驗概率, 而能否接受H的依據(jù)就應該是P(H|x)。如果后面的研究者針對相同的問題又做了一個實驗, 那么他在應用上述公式時所涉及的先驗概率就是上一個研究者獲得的。因此貝葉斯假設檢驗強調(diào)研究者在根據(jù)當下的實驗結(jié)果做出統(tǒng)計推斷時, 需要考慮以前的相關實驗的結(jié)果。正是由于這個原因, 元分析被認為是貝葉斯假設檢驗的內(nèi)在要求(Balluerka et al., 2005)。

        與貝葉斯學派的觀念不同, 頻率學派把效應值當作固定值, 認為關于效應值取值范圍的任何假設(包括零假設或者備擇假設)要么成立要么不成立, 即或者P(H)=0。從公式2可以看出:當時, 不管x取什么值, 都有;而當時, 不管x取什么值, 都有。所以在頻率學派中, 不存在假設成立的概率隨實驗結(jié)果變化的問題。

        在幾乎所有的心理學實驗情境中, 自變量的取值都得到研究者嚴格的操縱, 這決定了自變量對因變量的影響強度(即效應值)應該看作固定值而不是隨機變量。所以, 心理學實驗的基礎條件和頻率學派的前提吻合, 它的數(shù)據(jù)分析應該用頻率學派的統(tǒng)計學方法。在頻率學派統(tǒng)計學中,只可能是0或者1決定了也只可能是0或者是1, 非此即彼。這使得根據(jù)的大小決定是否拒絕H0的說法是沒有意義的,所以Cohen等人通過公式1對傳統(tǒng)的假設檢驗邏輯基礎的批評的出發(fā)點就是錯誤的。

        另一方面, 認為傳統(tǒng)的假設檢驗是建立在“小概率事件在一次試驗中幾乎不可能”原理上也是對它的誤解。根據(jù)這一原理實際上根本不可能唯一地確定零假設的拒絕域:除了與M的位置有關外, 還與M的大小有關; 對于任何一個從實驗獲得的可能結(jié)果x, 我們總可以選取足夠小的包括x的集合M, 使得很小, 并根據(jù)上述“小概率事件在一次試驗中幾乎不可能”原理拒絕H0從而接受H1。這顯然是不合理的。事實上, 嚴謹?shù)慕y(tǒng)計學教科書都明確地指出, 傳統(tǒng)的假設檢驗確定零假設的拒絕域(備擇假設的接受域)的方法規(guī)定是奈曼-皮爾遜原則:在維持α足夠小(一般規(guī)定為不大于 0.05或者 0.01)的情況下, 尋找使得 β最小的區(qū)域(梁之舜, 鄧集賢,楊維權(quán), 司徒榮, 鄧永錄, 1980)。這一原則在樣本空間中唯一地確定零假設的拒絕域。

        2.2 傳統(tǒng)的假設檢驗的缺陷和使用者常犯的錯誤

        傳統(tǒng)的假設檢驗依據(jù)奈曼-皮爾遜原則確定零假設拒絕域這一事實說明它實際上是考慮降低第二類錯誤的概率的。但是, 一方面由于兩類錯誤概率的相互牽制:在實驗設計和樣本容量確定的情況下——一個的減小必然導致另一個的增加,另一方面由于這個原則采取優(yōu)先降低第一類錯誤的策略, 因此在實際應用中, 第二類錯誤的概率β一般都比第一類錯誤的概率α大得多。

        比如, 設有一研究者探究一種新的干預方法相比于舊的干預方法是否對兒童自閉癥的治療更有效。在這里零假設是, 備擇假設是(2μ和1μ分別是新方法和舊方法干預效果的量化表示),在中等效應(效應值為0.5個標準差)、組間設計被試數(shù)為25的情況下, 可以算得第二類錯誤概率達到 0.59。所以, 當實驗結(jié)果越過臨界值時,可以做出新方法好于舊方法的統(tǒng)計推斷(即接受備擇假設), 并且這個推斷錯誤的概率小于 0.05;但是, 當實驗結(jié)果沒有越過臨界值并且研究者因此而做出新方法不比舊方法好的結(jié)論(即接受零假設)時, 那么這個結(jié)論錯誤的概率將達到0.59。易于看出, 雙尾檢驗也存在同樣的問題。

        所以, 盡管當實驗結(jié)果落在備擇假設接受域中時, 可以作出接受備擇假設同時拒絕零假設的統(tǒng)計推斷(這個推斷錯誤的概率小于等于α); 但是當實驗結(jié)果沒有落在備擇假設的接受域中時, 卻不能拒絕備擇假設或者接受零假設(如果做出這個推斷, 這個推斷錯誤的概率將達到 β), 此時實際上處于不能做出統(tǒng)計推斷的境地。因此, 在傳統(tǒng)的假設檢驗的范式中, 零假設不可能被接受,相應地備擇假設不可能被否定, 而這違背了研究假設可證偽這一科學研究的基本原則。

        有相當多的研究者意識到傳統(tǒng)假設檢驗的零假設不可能被接受的缺陷, 當實驗結(jié)果沒有越過臨界值時, 他們給出的研究結(jié)論是“不顯著大于(或小于)” (針對單尾檢驗)和“沒有顯著差異” (針對雙尾檢驗)。但是, “顯著”卻無法解釋成效應值的大小, 因為實驗結(jié)果能否越過臨界值除了取決于效應大小外, 還取決于樣本容量和實驗設計方法。

        傳統(tǒng)的假設檢驗的上述缺陷導致人們在使用它時傾向于犯下面的兩個錯誤:

        (1) “當樣本觀察值沒有落在零假設的拒絕域中時, 就接受零假設” (Monterde-i-Bort, Frías-Navarro, & Pascual-Llobell, 2010; Nickerson, 2000)。從某種意義上說, 使用者的這一錯誤是被“逼”出來的, 因為他們?nèi)绻环高@樣的錯誤, 就會落入備擇假設不可證偽的尷尬境地。與這個錯誤相對應, 將第二類錯誤的概率 β稱為“取偽”的概率實際上也是不恰當?shù)?Nickerson, 2000)。

        (2)由于當樣本觀察值沒有落在零假設拒絕域中時, 實際上既不能接受備擇假設, 也不能接受零假設。這使得一些心理學研究人員認為:當實驗數(shù)據(jù)沒有落在零假設拒絕域中時, 實驗就是失敗的(Monterde-i-Bort et al., 2010)。使用者的這一錯誤傾向是元分析研究中效應估計系統(tǒng)誤差的主要來源; 另一方面除了在效應值估計方面的價值之外, 那些沒有達到顯著性水平的實驗在統(tǒng)計推斷方面也是有價值的:元分析方法作用于若干沒有達到顯著性水平的實驗, 也有可能取得達到顯著性水平的結(jié)果(Ferguson & Brannick, 2012; Coburn& Vevea, 2015; Rothstein & Bushman, 2012)。

        傳統(tǒng)假設檢驗的另一個經(jīng)常為人們提及的缺陷是:即使在接受備擇假設的情況下, 它也只能判斷自變量是否對因變量有影響(雙尾檢驗)和這種影響的方向(單尾檢驗), 但是卻不能告訴這種影響的大小。所以假設檢驗給出的結(jié)論實際上只是定性的, 它不能提供自變量影響因變量強度的定量說明(Balluerka et al., 2005; Nickerson, 2000)。為克服這一缺陷, 大部分研究者認為應該以效應估計作為假設檢驗的補充(Kelley & Preacher,2012)。

        3 問題的解決

        上面的論述所要表達的結(jié)論是:心理學實驗的數(shù)據(jù)分析適宜用頻率學派的統(tǒng)計學方法; 按照頻率學派統(tǒng)計學的觀念, 傳統(tǒng)的假設檢驗確定零假設拒絕域(備擇假設接受域)的依據(jù)不是“小概率事件在一次試驗中幾乎不可能”原理, 而是奈曼-皮爾遜原則; 但是作為一種數(shù)據(jù)處理方法, 傳統(tǒng)的假設檢驗在效用性方面卻是有缺陷的。這決定了:對傳統(tǒng)假設檢驗的恰當?shù)膽B(tài)度是改進和補充, 而不是拋棄; 而且, 這種改進和補充的價值也應該在頻率學派的框架中得到說明。在研究者們提出的各種各樣的改進措施中, 最引人注目的是將傳統(tǒng)假設檢驗結(jié)果的兩分法改造為三分法;在研究者們提出的各種各樣的補充措施中, 最重要的是效應值估計和對實驗結(jié)果可重復性的評估。

        3.1 假設檢驗結(jié)果的三分法

        對于心理學中典型的比較平均值的實驗, 可以把假設空間分割為三個部分:

        當實驗結(jié)果落在兩個臨界值之間時, 則說明從實驗獲得的數(shù)據(jù)還不足以作出接受HR或者的推斷。但是在頻率學派的統(tǒng)計學中, 這種模棱兩可的狀態(tài)是暫時的。由中心極限定理可以證明:不管1μ和2μ的差異多么小, 通過增加樣本容量或者借助于元分析方法, 最終都能使得實驗結(jié)果或者元分析結(jié)果按照1μ和2μ差異的方向越過臨界值, 從而使得研究者最終作出接受HR或者明確推斷。所以, 這種三分法的假設檢驗和元分析方法在邏輯上也是連貫的。

        而在貝葉斯統(tǒng)計學中, 由于認為自變量影響因變量的效應值是隨機變量, 樣本容量的增加或者元分析研究卻不一定能夠達成擺脫這種模棱兩可狀態(tài)。

        3.2 效應值的點估計和及其估計精度

        其統(tǒng)計學含義是:這個區(qū)間覆蓋δ的概率是1?a。置信區(qū)間不僅可以通過它的中點給出效應的點估計值d, 而且還可以通過區(qū)間的寬度對這個點估計值的精確度進行估計:區(qū)間越窄,d和δ在統(tǒng)計上就越接近, 因而這個點估計值越精確(Geoff& Fiona, 2009)。

        公式 3的得出及其對δ的估計價值只有在δ為固定值而不是隨機變量的前提下才有可能。所以, 近來為越來越多的心理統(tǒng)計學研究人員所提倡的以置信區(qū)間報告心理學實驗結(jié)果的主張也恰恰說明了心理學實驗數(shù)據(jù)的分析適宜用頻率學派的統(tǒng)計學方法。

        由于雙尾檢驗的左臨界值對應于效應值置信區(qū)間右邊界等于 0的情形, 右臨界值對應于置信區(qū)間左邊界值等于0的情形。所以前述的三分結(jié)果的假設檢驗方法可以作為一個子集包含于效應值置信區(qū)間中。

        3.3 實驗結(jié)果的可重復性

        在這次關于假設檢驗的爭議中, 心理學實驗的可重復性也引起研究者們的關注和討論(Killeen, 2005, 2010; Iverson, Wagenmakers, & Lee,2010; Lecoutre, Lecoutre, & Poitevineau, 2010)。人們普遍地認為:和其他科學的實驗一樣, 可重復性也應該是評估心理學實驗的一個核心標準, 因為不具備可重復性的研究成果不可能產(chǎn)生應用價值(Miller & Schwarz, 2011; Maraun & Gabriel,2010; Lilienfeld, 2012; Serlin, 2010)。傳統(tǒng)的假設檢驗由于其備擇假設的不可證偽性, 使得基于它的對實驗可重復性的說明存在著這樣的問題:前后兩個同質(zhì)的實驗只要有一個實驗的結(jié)果沒有越過臨界值, 就不能對后一個實驗是否重復了前一個實驗的結(jié)果做出判斷。為避免這個問題, Killeen提出將第二次實驗的結(jié)果重復了第一次的實驗的結(jié)果定義為兩次實驗的樣本效應值的正負號相同(Killeen, 2005, 2010)。但是, 他的定義卻有著這樣的缺陷:在樣本效應值符號相同這一限制下前后兩個實驗的樣本效應值可能相差很大, 而在符號不同的情況下兩個樣本效應值也可能相差很小。

        Schmidt提出應該區(qū)別兩種不同性質(zhì)的實驗的可重復性問題:一種是如Killeen所說的前后兩個實驗同質(zhì)的情形; 另一種是實驗控制條件變化的情況下, 由控制變量和自變量的交互作用而引起的實驗可重復性的問題(Schmidt, 2009)。顯然,對于前者, 只需要對兩個實驗的結(jié)果是否相同做出量的評估, 而不必要也不應該對它們做出質(zhì)的區(qū)分。在頻率學派統(tǒng)計學中, 同質(zhì)的兩個實驗的樣本效應值d1和d2相互獨立并且滿足, 由此可得d2的1?a置信水平的預測區(qū)間如下:

        其含義是d2以1?a的概率處于上述區(qū)間中。所以這個區(qū)間可以這樣表示實驗結(jié)果的可重復性程度:區(qū)間的寬度越窄,d2和d1在統(tǒng)計上越接近,從而實驗的可重復性也就越好。將上式和公式 3比較可以看出:兩個區(qū)間的中間值相同, 前者的寬度是后者寬度的倍。因此, 也可以直接用CIδ表示實驗結(jié)果的可重復程度(Cumming, 2010)。

        于是, 以置信區(qū)間表示心理學實驗的結(jié)果能夠集中地實現(xiàn)假設檢驗結(jié)果的三分法、效應值估計及其精度的估計以及表示實驗結(jié)果的可重復性這三方面的功能。而實驗數(shù)據(jù)分析精度, 無論是檢驗效力、效應估計精度還是實驗結(jié)果的可重復性程度都表現(xiàn)在置信區(qū)間的寬度上:區(qū)間的寬度越小, 這三方面的精度越高。如前所述, 置信區(qū)間所有的這些價值只有在頻率學派統(tǒng)計學中才有可能。

        4 從面向總體轉(zhuǎn)向面向個體

        上述頻率學派統(tǒng)計學中的平均值差異的t檢驗、效應值估計、實驗結(jié)果可重復性的評估以及將這三者合而為一的置信區(qū)間方法都以不同自變量水平下因變量的方差齊性(相等)為前提, 因此在使用這些數(shù)據(jù)分析方法之前, 都應該進行方差齊性的假設檢驗。但是和在其他情境下使用假設檢驗的過程一樣, 在方差齊性檢驗中, 人們也總習慣于犯這樣的錯誤:當檢驗數(shù)據(jù)沒有越過臨界值時, 就接受方差齊性這一結(jié)論。心理統(tǒng)計學中這場關于假設檢驗的討論使研究者們認識到:在方差齊性檢驗中, 方差相等作為零假設, 在原理上實際上不可能被接受; 而且如前所述, 在備擇假設(在這里就是方差非齊性)接受域的余集中,備擇假設(方差非齊性)成立的概率仍有可能相當大; 這說明:方差非齊性的情況要比人們所判斷的普遍(Rosopa, Schaffer, & Schroeder, 2013)。

        對于在實驗設計方面合法的心理學實驗, 實驗處理前不同自變量取值水平下的被試應該是同質(zhì)的, 因此實驗前各組被試與因變量有關的各項指標的方差應該是齊性的。那么經(jīng)歷實驗處理之后, 不同自變量取值水平下因變量的方差不相等只能歸因于實驗處理和被試的某一(或者某一些)個性特征發(fā)生了交互作用(即 Person×Situation interaction, 簡稱PSI) (Tucker-Drob, 2011)。另一方面 PSI也必然導致方差非齊性, 所以對方差非齊性普遍性的低估同時也意味著對 PSI普遍性的低估。Scott指出:忽視這種交互作用正是制約心理學實驗應用價值的一個重要原因(Lilienfeld, 2012)。

        我們認為:和任何其他科學的研究一樣, 心理學研究(包括心理學實驗)的終極目標也應該是預測; 因為預測是對理論最令人信服的檢驗, 預測也是科學研究應用價值的最直接的保證; 而且心理學的這種預測應該體現(xiàn)在具體的個體上, 因為應用總是針對具體的個體的。當實驗處理和被試的個性特征不存在交互作用時, 實驗處理作用在不同的被試上所產(chǎn)生的效應相同, 都等于實驗處理的總體效應。自變量和被試個性特征的交互作用意味著:實驗處理作用在不同個性特征的被試上, 產(chǎn)生不同的效應, 所以, 當存在PSI時, 前述的面向總體效應的實驗數(shù)據(jù)分析方法就不再合適。

        設實驗操縱的自變量為T, 和T產(chǎn)生交互作用的被試個性特征變量為X, 那么因變量和它們的關系可表示成如下的形式(其中,e代表不涉及PSI的被試個性特征對因變量的影響):

        T和X的交互作用使得它們在公式中不可分離。因此, 此時是用頻率學派的統(tǒng)計學方法還是貝葉斯學派的統(tǒng)計學方法處理實驗數(shù)據(jù)(即將δ(T,X)看著普通變量還是隨機變量)取決于是否把X看作隨機變量。

        正如當實驗中兩個可操縱自變量存在交互作用時, 人們更關注簡單效應一樣, 當存在 PSI時,我們也更應該關注實驗處理對X取某個具體數(shù)值x的個體所產(chǎn)生的效應, 即δ(T,x)。雖然我們也會考察δ(T,x)隨x的變化規(guī)律, 但此時X和仍然只是一般變量, 而不是隨機變量?;谶@樣的理由, 我們認為:關于δ(T,X)的統(tǒng)計推斷和參數(shù)估計仍然應該用頻率學派的方法。借助于線性回歸中的數(shù)據(jù)分析程序, 可得關于X取某個具體數(shù)值x的個體的效應δ(T,x)的置信區(qū)間。和公式 3所表示的置信區(qū)間一樣,δ(T,x)的置信區(qū)間也具有統(tǒng)計推斷、效應值及其精度的估計以及評估實驗結(jié)果的可重復性的三重功能。

        從預測的角度來看, 心理學實驗追求的是由T對Y的預測, 而由X對Y的預測——由被試的一些個性特征預測其他的個性特征——則是心理測量學的主題。到目前為止, 心理學中這兩個研究取向基本上是分離的。早在上個世紀中葉Cronbach就提醒人們注意心理學實驗中實驗處理和被試個性特征交互作用, 同時他還指出這種交互作用必然要求把心理學研究中的實驗取向和測量學取向整合在一起(Cronbach, 1957)。只是到了現(xiàn)在, 由于結(jié)構(gòu)方程建模這些統(tǒng)計工具在心理學中的使用和普及, 心理學研究人員才開始在實踐中對Cronbach的這個要求做出響應(Tucker-Drob,2011; Geiser et al., 2015)。有學者斷言:這種整合將會帶來心理學方法論的革命(Sharpe, 2013)。

        5 結(jié)束語

        問題的解決以問題的澄清為必要條件, 在這場因?qū)鹘y(tǒng)的假設檢驗的批評而引發(fā)的一系列爭議中, 首先需要澄清的問題是:心理學實驗數(shù)據(jù)的處理適宜用貝葉斯學派的統(tǒng)計學方法還是頻率學派的統(tǒng)計學方法?我們認為:對于絕大部分心理學實驗, 其數(shù)據(jù)分析適宜用頻率學派的方法。正因為如此, 傳統(tǒng)的假設檢驗作為頻率學派中的統(tǒng)計學方法, 其缺陷只能也應該在頻率學派統(tǒng)計學的框架中得到解決; 而以效應值置信區(qū)間表示心理學實驗數(shù)據(jù)分析的結(jié)果能夠集中地體現(xiàn)對傳統(tǒng)假設檢驗的改進和補充。此外, 對假設檢驗使用錯誤的澄清也將會使得心理學實驗的設計和數(shù)據(jù)分析由面向總體轉(zhuǎn)向面向個體。

        梁之舜, 鄧集賢, 楊維權(quán), 司徒榮, 鄧永錄. (1980).概率論及數(shù)理統(tǒng)計(下冊). 北京: 高等教育出版社.

        張堯庭, 陳漢峰. (1991).貝葉斯統(tǒng)計推斷.北京: 科學出版社.

        Balluerka, N., Gómez, J., & Hidalgo, D. (2005). The controversy over null hypothesis significance testing revisited.Methodology,1(2), 55–70.

        Coburn, K. M., & Vevea, J. L. (2015). Publication bias as a function of study characteristics.Psychological Methods,20(3), 310–330.

        Cohen, J. (1994). The earth is round (p<.05).American Psychologist, 49(12), 997–1003.

        Cronbach, L. J. (1957). The two disciplines of scientific psychology.American Psychologist, 12, 671–684.

        Cumming, G., & Fidler, F. (2009). Confidence intervals: Better answers to better questions.Zeitschrift für Psychologie/Journal of Psychology, 217(1), 15–26.

        Cumming, G. (2010). Replication, prep, and confidence intervals:Comment prompted by Iverson, Wagenmakers, and Lee(2010); Lecoutre, Lecoutre, and Poitevineau (2010); and Maraun and Gabriel (2010).Psychological Methods, 15(2),192–198.

        Ferguson, C. J., & Brannick, M. T. (2012). Publication bias in psychological science: Prevalence, methods for identifying and controlling, and implications for the use of metaanalyses.Psychological Methods, 17(1), 120–128.

        Geiser, C., Litson, K., Bishop, J., Keller, B., Burns, G. L.,Servera, M., & Shiffman, S. (2015). Analyzing person,situation and person × situation interaction effects: Latent state-trait models for the combination of random and fixed situations.Psychological Methods, 20(2), 165–192.

        Hagen, R. L. (1997). In praise of the null hypothesis statistical test.American Psychologist, 52(1), 15–24.

        Harris, R. J. (1997). Significance tests have their place.Psychological Science, 8(1), 8–11.

        Iverson, G. J., Wagenmakers, E. J. & Lee, M. D. (2010). A modelaveraging approach to replication: The case of prep.Psychological Methods, 15(2), 172–181.

        Kelley, K., & Preacher, K. J. (2012). On effect size.Psychological Methods,17(2), 137–152.

        Killeen, P. R. (2005). An alternative to null-hypothesis significance tests.Psychological Science, 16, 345–352.

        Killeen, P. R. (2010).Prepreplicates: Comment prompted by Iverson, Wagenmakers, and Lee (2010); Lecoutre,Lecoutre, and Poitevineau (2010); and Maraun and Gabriel(2010).Psychological Methods, 15(2), 199–202.

        Lecoutre, B., Lecoutre, M. P., & Poitevineau, J. (2010). Killeen's probability of replication and predictive probabilities:How to compute, use, and interpret them.Psychological Methods, 15(2), 158–171.

        Lilienfeld, S. O. (2012). Public skepticism of psychology:Why many people perceive the study of human behavior as unscientific.American Psychologist, 67(2), 111–129.

        Maraun, M., & Gabriel, S. (2010). Killeen's (2005)prepcoefficient: Logical and mathematical problems.Psychological Methods, 15(2), 182–191.

        Miller, J., & Schwarz, W. (2011). Aggregate and individual replication probability within an explicit model of the research process.Psychological Methods, 16(3), 337–360.

        Monterde-i-Bort, H., Frías-Navarro, D., & Pascual-Llobell, J.(2010). Uses and abuses of statistical significance tests and other statistical resources: A comparative study.European Journal of Psychology of Education, 25, 429–447.

        Morey, R. D., & Rouder, J. N. (2011). Bayes factor approaches for testing interval null hypotheses.Psychological Methods,16(4), 406–419.

        Nickerson, R. S. (2000). Null hypothesis significance testing:A review of an old and continuing controversy.Psychological Methods, 5(2), 241–301.

        Rosopa, P. J., Schaffer, M. M., & Schroeder, A. N. (2013).Managing heteroscedasticity in general linear models.Psychological Methods, 18(3), 335–351.

        Rothstein, H. R., & Bushman, B. J. (2012). Publication bias in psychological science: Comment on Ferguson and Brannick (2012).Psychological Methods, 17(1), 129–136.

        Schmidt, S. (2009). Shall we really do it again? The powerful concept of replication is neglected in the social sciences.Review of General Psychology, 13(2), 90–100.

        Serlin, R. C. (2010). Regardingprep: Comment prompted by Iverson, Wagenmakers, and Lee (2010); Lecoutre, Lecoutre,and Poitevineau (2010); and Maraun and Gabriel (2010).Psychological Methods, 15(2), 203–208.

        Sharpe, D. (2013). Why the resistance to statistical innovations?Bridging the communication gap.Psychological Methods,18(4), 572–582.

        Tucker-Drob, E. M. (2011). Individual differences methods for randomized experiments.Psychological Methods, 16(3),298–318.

        猜你喜歡
        假設檢驗學派貝葉斯
        創(chuàng)建梵凈山學派 培育梵凈山學
        貝葉斯公式及其應用
        統(tǒng)計推斷的研究
        時代金融(2017年6期)2017-03-25 12:02:43
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設檢驗
        Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
        統(tǒng)計學教學中關于假設檢驗問題探討
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        法蘭克福學派自由觀的探析
        試析子思學派的“誠敬”論
        亚洲中文字幕午夜精品| 日本在线一区二区三区视频观看| 亚洲不卡在线免费视频| 色综合久久中文字幕综合网| 亚洲一区 日韩精品 中文字幕| 久久免费的精品国产v∧| 久久尤物AV天堂日日综合| 免费观看的av毛片的网站| 最近日韩激情中文字幕| 丁香六月久久| 日韩一区二区三区天堂| 一区二区三区四区亚洲免费| 亚洲av高清一区二区三| 97久久综合区小说区图片区 | 在线观看国产视频午夜| 亚洲 日韩 激情 无码 中出| 中文字幕日韩人妻不卡一区| 国产精自产拍久久久久久蜜 | 精品国精品无码自拍自在线| www.91久久| 免费人成黄页网站在线一区二区| 日韩在线观看入口一二三四| 国产人成无码视频在线观看| 熟女熟妇伦av网站| 亚洲色图视频在线| 在线观看av片永久免费| 91久久国产露脸国语对白| 免费在线观看播放黄片视频| 一本精品99久久精品77| 免费观看黄网站| 国产精品23p| 人妻少妇喷水意淫诱惑| 男人的精品天堂一区二区在线观看| 狠狠97人人婷婷五月| 国产精品igao视频| 久久成人免费电影| 99久久国产一区二区三区| 国产自拍91精品视频| 北条麻妃国产九九九精品视频| 国农村精品国产自线拍| 久久婷婷是五月综合色狠狠|