溫忠麟 謝晉艷 方 杰 王一帆
·國(guó)內(nèi)心理統(tǒng)計(jì)方法研究熱點(diǎn)回顧(Section of Research Methods)·
心理學(xué)在中國(guó)的發(fā)展方興未艾, 而用以支撐心理學(xué)研究的各種統(tǒng)計(jì)方法也取得了長(zhǎng)足的發(fā)展。本期刊發(fā)溫忠麟教授研究團(tuán)隊(duì)撰寫的一組專欄文章, 主題為“新世紀(jì)20年國(guó)內(nèi)心理統(tǒng)計(jì)方法研究熱點(diǎn)回顧”, 涵蓋了6個(gè)熱點(diǎn)方向。目的有兩個(gè):一是總結(jié)新世紀(jì)20年國(guó)內(nèi)期刊作者在心理統(tǒng)計(jì)方法研究上的貢獻(xiàn), 讓讀者了解國(guó)內(nèi)期刊作者長(zhǎng)期致力于“將科研成果寫在祖國(guó)大地上”, 并且在許多熱點(diǎn)問題的研究上緊跟國(guó)際前沿, 部分方向還做出了具有國(guó)際先進(jìn)水平的研究成果。二是關(guān)注讀者興趣, 就相關(guān)議題如何在實(shí)際中應(yīng)用, 根據(jù)需要通過借鑒發(fā)表于英文期刊的研究成果填補(bǔ)空缺, 并讓讀者了解前沿研究進(jìn)展情況。該組文章在綜述的基礎(chǔ)上提出了不少創(chuàng)新性的總結(jié)和推論。例如, 在社科研究領(lǐng)域, 存在大量“橘生淮南則為橘, 生于淮北則為枳”這類因調(diào)節(jié)作用導(dǎo)致的不可重復(fù)性, 因而“心理學(xué)研究有可重復(fù)性危機(jī)”可能是一個(gè)偽命題; 零假設(shè)顯著性檢驗(yàn)(NHST)已經(jīng)發(fā)展成一套組合方法, 各種試圖取代NHST的復(fù)雜統(tǒng)計(jì)方法, 不能只是滿足于驗(yàn)證是否比NHST更好, 而應(yīng)當(dāng)看看是否能比這套組合方法更好; 如果一個(gè)統(tǒng)計(jì)模型中的每個(gè)變量的合成分?jǐn)?shù)的信度都不小于0.95, 使用顯變量分析與使用潛變量分析的結(jié)果差別不大; 等等。希冀該組文章有助于讀者恰當(dāng)應(yīng)用所論的統(tǒng)計(jì)方法, 并為心理學(xué)的進(jìn)一步發(fā)展帶來方法上的啟發(fā)。
新世紀(jì)20年國(guó)內(nèi)假設(shè)檢驗(yàn)及其關(guān)聯(lián)問題的方法學(xué)研究*
溫忠麟1謝晉艷1方 杰2王一帆1
(1華南師范大學(xué)心理學(xué)院/心理應(yīng)用研究中心, 廣州 510631)(2廣東財(cái)經(jīng)大學(xué)新發(fā)展研究院/應(yīng)用心理學(xué)系, 廣州 510320)
新世紀(jì)20年來國(guó)內(nèi)假設(shè)檢驗(yàn)方法學(xué)研究?jī)?nèi)容可分為如下幾類: 零假設(shè)顯著性檢驗(yàn)的不足、值的使用問題、心理學(xué)研究的可重復(fù)性問題、效應(yīng)量、檢驗(yàn)力、等效性檢驗(yàn)、其他與假設(shè)檢驗(yàn)關(guān)聯(lián)的研究。零假設(shè)顯著性檢驗(yàn)已經(jīng)發(fā)展成一套組合流程: 為了保證檢驗(yàn)力和節(jié)省成本, 實(shí)驗(yàn)研究需要做先驗(yàn)檢驗(yàn)力分析預(yù)估樣本容量, 但問卷超過160人在傳統(tǒng)統(tǒng)計(jì)中就沒有必要這樣做。當(dāng)拒絕零假設(shè)時(shí), 應(yīng)當(dāng)結(jié)合效應(yīng)量做出結(jié)論。當(dāng)不拒絕零假設(shè)時(shí), 需要報(bào)告后驗(yàn)檢驗(yàn)力; 如果效應(yīng)量中或大而檢驗(yàn)力不夠高, 則可增加被試再行分析, 但這一過程應(yīng)主動(dòng)披露, 報(bào)告最后的實(shí)際值并對(duì)可能犯的第一類錯(cuò)誤率做出評(píng)估。
假設(shè)檢驗(yàn),值, 效應(yīng)量, 檢驗(yàn)力, 等效性檢驗(yàn)
假設(shè)檢驗(yàn)是推斷統(tǒng)計(jì)中的重要內(nèi)容, 通過樣本信息來判斷對(duì)總體參數(shù)或總體分布的假設(shè)是否可信, 包括參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)(溫忠麟, 2016; 張厚粲, 徐建平, 2015)。常用的均值差異檢驗(yàn)屬于參數(shù)檢驗(yàn), 而正態(tài)性檢驗(yàn)、獨(dú)立性檢驗(yàn)屬于非參數(shù)檢驗(yàn)。通常報(bào)告最多的統(tǒng)計(jì)檢驗(yàn)結(jié)果是根據(jù)零假設(shè)顯著性檢驗(yàn)(Null Hypothesis Significance Testing, NHST)做出的。零假設(shè)也稱為原假設(shè)。
國(guó)內(nèi)外不同學(xué)科研究者對(duì)假設(shè)檢驗(yàn)都有深入的討論。在國(guó)內(nèi), 上世紀(jì)90年代開始零星出現(xiàn)介紹性質(zhì)的文章, 后面將會(huì)提到。新世紀(jì)后, 相關(guān)的研究多了起來, 尤其是2003年之后。以中國(guó)知網(wǎng)(https://www.cnki.net/)全文數(shù)據(jù)庫(kù)為數(shù)據(jù)源, 出版年限設(shè)為2001~2020年, 關(guān)鍵詞包括“假設(shè)檢驗(yàn)”、“顯著性檢驗(yàn)”、“顯著性水平”、“值”、“效應(yīng)量”、“效果量”、“檢驗(yàn)力”、“檢驗(yàn)功效”、“統(tǒng)計(jì)功效”和“統(tǒng)計(jì)效力”, 經(jīng)篩查得到期刊上發(fā)表的有關(guān)假設(shè)檢驗(yàn)方法學(xué)研究論文169篇(不計(jì)應(yīng)用為主的文章)。各學(xué)科發(fā)文統(tǒng)計(jì)情況見表1, 發(fā)文較多的學(xué)科為: 數(shù)學(xué)與統(tǒng)計(jì)62篇、醫(yī)藥學(xué)33篇、心理學(xué)29篇, 其中心理學(xué)期刊上的文章在最近20年快速增長(zhǎng)。這些文章可以分為如下幾類: 對(duì)NHST的認(rèn)識(shí), NHST的不足,值的使用問題, 心理學(xué)研究的可重復(fù)性問題, 效應(yīng)量指標(biāo)及其大小標(biāo)準(zhǔn), 檢驗(yàn)力, 等效性檢驗(yàn), 其他假設(shè)檢驗(yàn)關(guān)聯(lián)研究。本文對(duì)各類研究進(jìn)行回顧并做出總結(jié)。
效應(yīng)量(effect seize)和統(tǒng)計(jì)檢驗(yàn)力(power of statistical test, 以下簡(jiǎn)稱檢驗(yàn)力)是溫忠麟等(2021)總結(jié)的新世紀(jì)20年國(guó)內(nèi)心理統(tǒng)計(jì)方法研究10個(gè)熱點(diǎn)之一, 本文將其拓展為假設(shè)檢驗(yàn)及其關(guān)聯(lián)問題, 發(fā)現(xiàn)數(shù)學(xué)與統(tǒng)計(jì)和醫(yī)藥學(xué)期刊發(fā)表的論文更多, 這與其他熱點(diǎn)以心理學(xué)期刊論文居多的情況不同, 相信這是因?yàn)榧僭O(shè)檢驗(yàn)是統(tǒng)計(jì)學(xué)的基礎(chǔ), 各學(xué)科研究者都會(huì)感興趣。
表1 2001~2020年國(guó)內(nèi)不同學(xué)科假設(shè)檢驗(yàn)及其關(guān)聯(lián)問題發(fā)文數(shù)量一覽
注: 綜合性刊物主要包括各高校學(xué)報(bào), 工科類包括測(cè)繪、系統(tǒng)仿真、武器裝備試驗(yàn)、軍事工程等。
研究者們對(duì)NHST的認(rèn)識(shí)主要分為兩個(gè)部分, 一是深化對(duì)假設(shè)檢驗(yàn)本身的認(rèn)識(shí), 二是澄清應(yīng)用研究中對(duì)假設(shè)檢驗(yàn)的誤解, 并提出相應(yīng)的解決對(duì)策。
已有研究從不同角度深化了對(duì)假設(shè)檢驗(yàn)的認(rèn)識(shí), 包括假設(shè)的確定、兩類錯(cuò)誤率、區(qū)間估計(jì)與假設(shè)檢驗(yàn)、單尾檢驗(yàn)、其他假設(shè)檢驗(yàn)方法等。
楊桂元和劉德志(2012)較為全面地介紹了參數(shù)假設(shè)檢驗(yàn)中的一些概念, 包括基本原理、檢驗(yàn)的值、兩類錯(cuò)誤、單尾檢驗(yàn)的假設(shè)與拒絕域等。吳啟富和張玉春(2012)從小概率原理入手, 揭示了假設(shè)檢驗(yàn)的方法論基礎(chǔ), 羅榮華和吳錕(2014)則從正態(tài)分布下抽樣極限誤差角度分析了假設(shè)檢驗(yàn)的相關(guān)問題。
對(duì)于零假設(shè)和備擇假設(shè)的確定, 研究者形成如下共識(shí): 零假設(shè)與備擇假設(shè)的地位是非對(duì)稱的, 要根據(jù)具體問題謹(jǐn)慎選擇合適的零假設(shè), 應(yīng)當(dāng)將希望其為真的假設(shè)(即研究假設(shè))的對(duì)立面作為零假設(shè)(韓兆洲, 魏章進(jìn), 2005; 賀文武, 2004; 金曉峰, 2004; 牛莉, 2005; 楊少華, 楊林濤, 2009; 張凌翔, 2006)。
以下研究同時(shí)考慮了兩類錯(cuò)誤。徐浪和馬丹(2001)指出零假設(shè)的選擇要考慮兩類錯(cuò)誤率。李文華和雷金星(2005)分析了單均值統(tǒng)計(jì)檢驗(yàn)中的兩類錯(cuò)誤, 認(rèn)為兩類錯(cuò)誤不能同時(shí)減少。郭寶才和孫利榮(2010)討論了兩類錯(cuò)誤率受樣本容量的影響情況。房祥忠和陳家鼎(2003)將Expectation- Maximum算法運(yùn)用于假設(shè)檢驗(yàn)中, 不僅分析了兩類錯(cuò)誤率和臨界值, 還簡(jiǎn)化了比較復(fù)雜的假設(shè)檢驗(yàn)問題。張曉敏(2008)基于馬氏樣本的最優(yōu)勢(shì)檢驗(yàn)來估計(jì)兩類錯(cuò)誤率, 推廣了經(jīng)典的Neyman-Pearson基本引理。甘倫知(2011)探討了對(duì)第二類錯(cuò)誤的控制, 提出需要給出能辨別的最小相對(duì)差距, 通過選擇樣本容量可在一定程度上控制兩類錯(cuò)誤。
就參數(shù)的區(qū)間估計(jì)與假設(shè)檢驗(yàn)的關(guān)系而言, 假設(shè)檢驗(yàn)和區(qū)間估計(jì)都利用了樣本數(shù)據(jù)的信息來推斷總體(樊明智, 王芬玲, 2006; 紀(jì)竹蓀, 2003), 且兩者所得的檢驗(yàn)結(jié)論相同(戴金輝, 2019; 唐寶珍, 2004)。不同之處在于: 第一, 假設(shè)檢驗(yàn)是在統(tǒng)計(jì)對(duì)象的總體參數(shù)未知時(shí), 通過對(duì)總體的部分了解對(duì)參數(shù)做出某種假設(shè)(即零假設(shè)0, 通常是研究者希望為真的研究假設(shè)的對(duì)立面), 然后根據(jù)樣本數(shù)據(jù)信息判斷是否拒絕0。區(qū)間估計(jì)則是在選定置信水平1? α后根據(jù)樣本數(shù)據(jù)求得參數(shù)可能的范圍(區(qū)間) (紀(jì)竹蓀, 2003)。第二, 假設(shè)檢驗(yàn)是判斷結(jié)論是否成立, 而區(qū)間估計(jì)要分析的是范圍問題(樊明智, 王芬玲, 2006)。第三, 區(qū)間估計(jì)中的置信水平和假設(shè)檢驗(yàn)中的顯著性水平不同(戴金輝, 2019), 即置信水平為1? α, 顯著性水平為α。第四, 假設(shè)檢驗(yàn)和置信區(qū)間檢驗(yàn)中標(biāo)準(zhǔn)誤的計(jì)算不一樣, 假設(shè)檢驗(yàn)中標(biāo)準(zhǔn)誤的估計(jì)需要假定0成立, 而置信區(qū)間檢驗(yàn)則不需要(何平平, 2004)。
在單尾假設(shè)檢驗(yàn)的研究中, 鐘路(2004)提出當(dāng)樣本統(tǒng)計(jì)量恰好位于兩個(gè)臨界值之間時(shí), 應(yīng)做出由于樣本信息不足無法進(jìn)行統(tǒng)計(jì)推斷的結(jié)論。而彭玉兵(2010)借鑒韋伯?費(fèi)希納定律, 提出了一種考慮顯著性水平相對(duì)增減率的方法, 來解決樣本統(tǒng)計(jì)量落在接受域與拒絕域的邊界時(shí)的研究結(jié)果問題。另外, 王雪琴(2010)認(rèn)為均值單尾檢驗(yàn)有局限性, 必須進(jìn)行兩次單尾檢驗(yàn)(即雙側(cè)檢驗(yàn))才能使檢驗(yàn)更完善。
一些研究者也提出了新的假設(shè)檢驗(yàn)方法, 如灰色統(tǒng)計(jì)假設(shè)檢驗(yàn)方法(李勇, 2011, 2012, 2016)、以模糊集合理論為基礎(chǔ)建立用隸屬度描述的假設(shè)檢驗(yàn)(林曉輝, 2006a, 2006b; 夏新濤, 王中宇, 2006)、多元模糊數(shù)據(jù)的假設(shè)檢驗(yàn)方法(鄭文瑞, 丁棟全, 2007)、另類區(qū)間估計(jì)檢驗(yàn)方法等(江海峰, 2009), 但這些方法還極少用于實(shí)踐。
不同學(xué)科都對(duì)NHST存在一些誤解現(xiàn)象, 研究者對(duì)此進(jìn)行了澄清, 如統(tǒng)計(jì)顯著性與實(shí)際顯著性的差別(龔鳳乾, 2003; 焦璨, 張敏強(qiáng), 2014), 參數(shù)的顯著性檢驗(yàn)不應(yīng)該被稱為信度檢驗(yàn)(黃嘉佑, 2005; 施能等, 2009), 統(tǒng)計(jì)結(jié)果顯著無法說明實(shí)際的效應(yīng)有多大(陳啟山, 2006), 但顯示了差異不是由抽樣誤差造成(何曉東, 2004; 孫紅衛(wèi)等, 2012), 顯著性檢驗(yàn)不能夠避免兩類錯(cuò)誤的發(fā)生(李世明等, 2004)。假設(shè)檢驗(yàn)方法的使用要考慮不同的研究設(shè)計(jì)和數(shù)據(jù)類型(田慶豐, 張功員, 2002; 王偉, 2004; 張功員, 2002), 研究者抽樣前應(yīng)當(dāng)確定合適的樣本容量, 并在結(jié)果中報(bào)告研究的效應(yīng)量(郭璐, 2016)。另外, 假設(shè)檢驗(yàn)用于軍事工程中要關(guān)注兩類錯(cuò)誤的關(guān)聯(lián)性和樣本大小(夏佩倫等, 2015), 而醫(yī)學(xué)研究的結(jié)果要注意統(tǒng)計(jì)學(xué)意義和臨床意義的區(qū)別(姚晨, 2007)。當(dāng)實(shí)際應(yīng)用中出現(xiàn)真值與假設(shè)值差異微小的情況時(shí), 為使決策更加客觀應(yīng)當(dāng)限定樣本容量的范圍(王雅玲, 2006)。
隨著對(duì)NHST認(rèn)識(shí)的加深, 其本身的局限和不足也逐漸顯現(xiàn)出來, 進(jìn)而引發(fā)了研究者們的質(zhì)疑和討論。
NHST的不足主要表現(xiàn)在以下幾個(gè)方面。第一, 研究結(jié)果的顯著性無法代表實(shí)際顯著性(焦璨,張敏強(qiáng), 2014; 吳艷, 溫忠麟, 2011)。檢驗(yàn)結(jié)果顯著反映了統(tǒng)計(jì)上的顯著性, 僅表明差異不是由偶然因素造成的(段乃華, 王元佳, 2011), 不同處理組(如實(shí)驗(yàn)組與對(duì)照組、多種教學(xué)方法組等)之間確實(shí)存在差異。但統(tǒng)計(jì)顯著性不等于實(shí)際顯著性, 讀者不應(yīng)該對(duì)統(tǒng)計(jì)術(shù)語(yǔ)與日常術(shù)語(yǔ)做出同樣的理解(溫忠麟, 2016; 吳艷, 溫忠麟, 2011)。第二, 顯著性檢驗(yàn)的分析過程要求控制第一類錯(cuò)誤率(正態(tài)情形即顯著性水平α), 通常不考慮第二類錯(cuò)誤率(β), 因而對(duì)檢驗(yàn)力(1?β)的關(guān)注也不足。第三, 顯著性的檢驗(yàn)結(jié)果具有不穩(wěn)定性(焦璨, 張敏強(qiáng), 2014; 張靜, 2012), 檢驗(yàn)研究假設(shè)的過程中選擇不同的統(tǒng)計(jì)量可能會(huì)得出不一致的結(jié)論(黃閃閃, 高瑞華, 2014)。第四, 零假設(shè)的選擇可能是任意指派的(黃閃閃, 高瑞華, 2014), 導(dǎo)致其設(shè)定主觀性太強(qiáng)(羅曉娟, 2011)。此外, 假設(shè)檢驗(yàn)的不足還有不能同時(shí)考察多個(gè)研究假設(shè)(張靜, 2012)和依賴樣本容量(焦璨, 張敏強(qiáng), 2014)。
NHST自身存在的不足引發(fā)了學(xué)術(shù)界的討論, 有研究者認(rèn)為NHST存在邏輯漏洞, 應(yīng)用價(jià)值不大(辛自強(qiáng), 2010)。但溫忠麟和吳艷(2010)回應(yīng)了這一說法, 認(rèn)為NHST是可用的, 因?yàn)轱@著性已經(jīng)告訴了研究者根據(jù)樣本推斷的結(jié)果多大程度是由抽樣造成的。他們還介紹了國(guó)外爭(zhēng)議的情況, 結(jié)論是NHST可以繼續(xù)使用, 但僅僅報(bào)告NHST結(jié)果是不夠的。
從假設(shè)檢驗(yàn)遭受的爭(zhēng)議來看, 呂小康(2012)在分析了假設(shè)檢驗(yàn)思想的提出者Fisher與Neyman- Pearson在統(tǒng)計(jì)模型方法論、兩類錯(cuò)誤率、顯著性水平等方面存在的分歧后, 認(rèn)為NHST存在的爭(zhēng)議是心理統(tǒng)計(jì)的教育模式造成的, 是對(duì)于統(tǒng)計(jì)推論背后的思想了解匱乏導(dǎo)致的。而仲曉波等(2008)的研究回應(yīng)了心理學(xué)中對(duì)假設(shè)檢驗(yàn)的批評(píng), 還提出對(duì)于絕大部分心理學(xué)實(shí)驗(yàn)來說, 數(shù)據(jù)分析適合采用頻率學(xué)派的方法, 建議報(bào)告效應(yīng)量及其置信區(qū)間作為對(duì)傳統(tǒng)假設(shè)檢驗(yàn)的改進(jìn)和補(bǔ)充(仲曉波, 2010a, 2010b, 2016)。
盡管NHST飽受爭(zhēng)議和批評(píng), 但它依然是社會(huì)科學(xué)實(shí)證研究中常用的假設(shè)檢驗(yàn)方法, 因?yàn)樗鼭M足了研究者追求知識(shí)的客觀性與確定性, 以及將自身學(xué)科發(fā)展成為一門科學(xué)分支的期望, 從這個(gè)意義上來說, NHST已從普通的統(tǒng)計(jì)工具上升為了一種科學(xué)范式(呂小康, 2014)。
值是零假設(shè)0為真時(shí), 樣本數(shù)據(jù)結(jié)果或更極端結(jié)果出現(xiàn)的概率(簡(jiǎn)記為(樣本|0))。但值的含義容易引起誤解, 下面文獻(xiàn)指出了在應(yīng)用中對(duì)值的各種誤解。誤解1:值是給定樣本數(shù)據(jù)條件下0的正確概率, 衡量了零假設(shè)成立的可能性(傅軍和, 2009; 呂佳, 喬克林, 2010; 孫紅衛(wèi)等, 2012), 實(shí)際上是將條件概率(樣本|0)誤解為條件概率(0|樣本)了。誤解2:值表示了實(shí)際效應(yīng)差異大小(王偉, 2004; 張弓, 肖景榕, 2006),值越小反映組間差異越大(陳薇等, 2011; Lu & Belitskaya-Levy, 2015; 孫紅衛(wèi)等, 2012)。誤解3:值越小表明重復(fù)實(shí)驗(yàn)中出現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)果的可能性越大(孫紅衛(wèi)等, 2012)。誤解4:值越大反映了支持零假設(shè)的證據(jù)越強(qiáng)(陳薇等, 2011)。此外,值還有一個(gè)缺點(diǎn), 即當(dāng)樣本容量很大時(shí), 總能得到很小的值(呂佳, 喬克林, 2010; 孫紅衛(wèi)等, 2012)。因此, 應(yīng)用工作者需要正確理解值, 并報(bào)告具體的值(陳薇等, 2011; 李康, 2005; 張弓, 肖景榕, 2006)。
2016年美國(guó)統(tǒng)計(jì)協(xié)會(huì)發(fā)表了《關(guān)于統(tǒng)計(jì)顯著性與值》的官方聲明, 提出了6條正確使用值的準(zhǔn)則(Wasserstein & Lazar, 2016), 這份聲明再次引起了國(guó)內(nèi)科研工作者對(duì)值的廣泛討論。不同領(lǐng)域的研究者從各自的研究視角討論了值的使用情況, 并提出了一些補(bǔ)充和改進(jìn)方法。郝麗等(2016)建議基于值的推理要有完整的研究報(bào)告和透明的研究過程, 余紅梅(2017)提出要報(bào)告準(zhǔn)確的值并綜合使用假設(shè)檢驗(yàn), 在計(jì)算值前給出顯著性水平α(沈光輝等, 2019), 并引入置信區(qū)間(程開明, 李泗娥, 2019; 金輝, 鄒莉玲, 2017; 余紅梅, 2017)、效應(yīng)量(程開明, 李泗娥, 2019; 沈光輝等, 2019; 宋爽, 曹一鳴, 2019; 余紅梅, 2017)、檢驗(yàn)力(程開明, 李泗娥, 2019)、貝葉斯因子(程開明, 李泗娥, 2019; 余紅梅, 2017)、錯(cuò)誤發(fā)現(xiàn)率(程開明, 李泗娥, 2019)等指標(biāo)作為值的替代和補(bǔ)充, 多進(jìn)行重復(fù)實(shí)驗(yàn)(程開明, 李泗娥, 2019), 也可使用元分析方法(余紅梅, 2017)。
2015年開放科學(xué)協(xié)作組的科學(xué)家團(tuán)隊(duì)在上發(fā)表了一項(xiàng)研究“Estimating the reproducibility of psychological science”, 重復(fù)了刊登在心理學(xué)頂級(jí)期刊上的100項(xiàng)研究, 結(jié)果只有36%的實(shí)驗(yàn)結(jié)果得到重現(xiàn)(Open Science Collaboration, 2015)。這一研究受到了心理學(xué)及整個(gè)社會(huì)科學(xué)領(lǐng)域的關(guān)注, 展開了關(guān)于心理學(xué)研究可重復(fù)性問題的探討。
不少人將心理學(xué)研究可重復(fù)性危機(jī)歸因于NHST體系(胡傳鵬等, 2016; 劉佳等, 2018; 駱大森, 2017)。具體地, 駱大森(2017)得出心理學(xué)研究可重復(fù)性危機(jī)有兩大來源, 一個(gè)是傳統(tǒng)虛無假設(shè)顯著性檢驗(yàn)體系的制約, 另一個(gè)是非統(tǒng)計(jì)學(xué)因素, 包括人為偏誤、發(fā)表偏見和可疑研究操作等。仲曉波(2015)認(rèn)為是過多的額外變量導(dǎo)致了心理學(xué)實(shí)驗(yàn)研究的可重復(fù)性較低。聶丹丹等(2016)認(rèn)為統(tǒng)計(jì)顯著性檢驗(yàn)的不確定性、樣本和檢驗(yàn)力問題、統(tǒng)計(jì)方法和模型誤用、實(shí)驗(yàn)設(shè)計(jì)靈活和選擇性報(bào)告是可重復(fù)性問題的原因。劉佳等(2018)提出研究人員的偏差性操作是影響可重復(fù)性的重要原因。胡傳鵬等(2016)認(rèn)為心理學(xué)研究的可重復(fù)性問題是因?yàn)榘l(fā)表的研究假陽(yáng)性過高, 而更深層的原因卻是出版偏見和過度依賴虛無假設(shè)。
就如何提高研究的可重復(fù)性, 研究者一方面建議心理學(xué)的研究結(jié)果要報(bào)告效應(yīng)量及其置信區(qū)間作為檢驗(yàn)結(jié)果的補(bǔ)充(吳艷, 溫忠麟, 2011; 仲曉波, 2010b, 2015, 2016), 另一方面提出使用貝葉斯學(xué)派的統(tǒng)計(jì)檢驗(yàn)方法作為NHST的替代或補(bǔ)充, 計(jì)算貝葉斯因子來做出統(tǒng)計(jì)決策(胡傳鵬等, 2018;吳凡等, 2018)。但目前貝葉斯因子的應(yīng)用還很有限, 分析軟件也少(許岳培等, 印刷中)。
效應(yīng)量, 也稱為效果量, 是衡量實(shí)驗(yàn)處理效應(yīng)的指標(biāo)。它不僅反映了統(tǒng)計(jì)檢驗(yàn)效應(yīng)的大小, 也反映了兩個(gè)總體受某事物影響后的差異程度(胡竹菁, 2010)。效應(yīng)量能夠區(qū)分統(tǒng)計(jì)顯著性和實(shí)際顯著性, 估計(jì)檢驗(yàn)力, 并通過元分析方法比較前人的研究結(jié)果(鄭昊敏等, 2011)。張力為和祁國(guó)鷹(1998)率先介紹并在運(yùn)動(dòng)心理學(xué)研究中使用了效應(yīng)量。國(guó)內(nèi)學(xué)者對(duì)效應(yīng)量的研究主要分為以下幾類: 一是介紹科學(xué)研究報(bào)告中常用的幾種效應(yīng)量, 并采用具體例子對(duì)效應(yīng)量的計(jì)算方法和使用標(biāo)準(zhǔn)進(jìn)行闡述, 二是對(duì)多種類型的效應(yīng)量指標(biāo)進(jìn)行了歸納和分類, 以便讀者在不同的條件下選擇和報(bào)告合適的效應(yīng)量; 三是探討了什么樣的統(tǒng)計(jì)量可以作為效應(yīng)量的指標(biāo), 分析了效應(yīng)量指標(biāo)應(yīng)具備的性質(zhì)。
續(xù)志琦和辛自強(qiáng)(2018)分析了單被試實(shí)驗(yàn)的5種基于非重疊法的效應(yīng)量指標(biāo)(即擴(kuò)速線指數(shù)、提高率差異、非重疊對(duì)占比、控制基線趨勢(shì)的非重疊Tau值和非重疊數(shù)據(jù)占比), 并結(jié)合實(shí)際例子進(jìn)行了闡述, 最后提出了非重疊法效應(yīng)量的選擇和評(píng)價(jià)標(biāo)準(zhǔn): 不僅要根據(jù)實(shí)驗(yàn)數(shù)據(jù)特征選擇合適的效應(yīng)量指標(biāo), 還需要考慮效應(yīng)量指標(biāo)的鑒別力、精度和檢驗(yàn)力等因素。
研究者對(duì)目前存在的多種類型的效應(yīng)量指標(biāo)進(jìn)行了分析和總結(jié), 詳見表2。鄭昊敏等(2011)將效應(yīng)量劃分為差異類、相關(guān)類和組重疊類三種類型, 盧謝峰等(2011)則將效應(yīng)量區(qū)分為標(biāo)準(zhǔn)差異型和關(guān)聯(lián)強(qiáng)度型兩類。焦璨和張敏強(qiáng)(2014)根據(jù)湯普森的劃分標(biāo)準(zhǔn), 將效應(yīng)量指標(biāo)區(qū)分為三類, 即標(biāo)準(zhǔn)化平均數(shù)差異效應(yīng)量, 未調(diào)校的考慮方差的效應(yīng)量和調(diào)校的考慮方差的效應(yīng)量。蒲顯偉(2016)認(rèn)為效應(yīng)量可分為組間差異類(類)和相關(guān)系數(shù)類(類)兩類, 但未具體介紹對(duì)應(yīng)的效應(yīng)量指標(biāo), 而是按照參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)的不同方法詳細(xì)介紹了效應(yīng)量??偟膩砜? 效應(yīng)量的分類較為類似, 一致的意見是將效應(yīng)量指標(biāo)分為差異類和其他類別。
表2 效應(yīng)量指標(biāo)分類
效應(yīng)量表示了研究結(jié)果的實(shí)際顯著性, 是元分析和檢驗(yàn)力分析不可缺少的參數(shù)。那究竟哪些統(tǒng)計(jì)量適合作為效應(yīng)量的指標(biāo)呢?溫忠麟等(2016)提出了效應(yīng)量指標(biāo)應(yīng)當(dāng)具有的一些性質(zhì): (1)與測(cè)量單位無關(guān), 而得到與測(cè)量單位無關(guān)的效應(yīng)量有兩種方式, 一是標(biāo)準(zhǔn)化效應(yīng), 二是將效應(yīng)量定義為一種比例。(2)相對(duì)于效應(yīng)而言具有單調(diào)性, 即其他條件不變的情況下, 研究中感興趣的效應(yīng)(絕對(duì)值)越大, 效應(yīng)量(絕對(duì)值)也應(yīng)該越大。(3)不受樣本容量的影響, 也就是效應(yīng)量不會(huì)隨樣本容量的增大而系統(tǒng)變大。其他還可考慮的性質(zhì)有非負(fù)性、有界性和正規(guī)性。
美國(guó)心理協(xié)會(huì)寫作手冊(cè)從1994年起要求研究者報(bào)告心理學(xué)實(shí)驗(yàn)的效應(yīng)量和檢驗(yàn)力, 我國(guó)心理學(xué)重要期刊則從2013年開始明確要求報(bào)告效應(yīng)量, 報(bào)告效應(yīng)量已成為心理學(xué)研究論文發(fā)表的標(biāo)準(zhǔn)之一。而效應(yīng)量作為假設(shè)檢驗(yàn)的補(bǔ)充, 不少研究者還建議增加報(bào)告效應(yīng)量的置信區(qū)間(盧謝峰等, 2011; 吳艷, 溫忠麟, 2011; 仲曉波, 2010b, 2015, 2016), 因?yàn)檫@樣有利于比較不同研究間的誤差大小, 提供更豐富的信息, 也能幫助研究者得出正確的結(jié)論(王珺等, 2019)。為增強(qiáng)應(yīng)用工作者對(duì)效應(yīng)量置信區(qū)間的理解和應(yīng)用, 王珺等(2019)以檢驗(yàn)中和方差分析中的η2為例, 展示了效應(yīng)量置信區(qū)間的計(jì)算公式和軟件實(shí)現(xiàn)過程。
在不同的研究條件和實(shí)驗(yàn)設(shè)計(jì)下, 可供選擇的效應(yīng)量指標(biāo)很多。綜合國(guó)內(nèi)外已有的效應(yīng)量研究結(jié)果, 表3總結(jié)了常見統(tǒng)計(jì)方法的常用效應(yīng)量指標(biāo)及其評(píng)價(jià)標(biāo)準(zhǔn)。
當(dāng)然, 提高實(shí)驗(yàn)研究的效應(yīng)量更應(yīng)該通過完善研究設(shè)計(jì)和減少實(shí)驗(yàn)誤差來實(shí)現(xiàn)。效應(yīng)量的評(píng)價(jià)標(biāo)準(zhǔn)并不存在唯一準(zhǔn)則, 需要結(jié)合研究主題、理論背景、研究設(shè)計(jì)類型、實(shí)驗(yàn)控制過程等多種因素來確定(盧謝峰等, 2011), 也可以參考元分析報(bào)告或者同類研究的結(jié)果。
檢驗(yàn)力, 有的文獻(xiàn)也稱為統(tǒng)計(jì)功效、檢驗(yàn)效能、檢驗(yàn)功效、統(tǒng)計(jì)效力等, 是0為假時(shí)正確拒絕0的概率。金炳陶和馬承霈(1992)率先介紹了檢驗(yàn)力。國(guó)內(nèi)有關(guān)檢驗(yàn)力的研究可分為統(tǒng)計(jì)方法的檢驗(yàn)力分析和研究效應(yīng)的檢驗(yàn)力分析。統(tǒng)計(jì)方法的檢驗(yàn)力指的是某種統(tǒng)計(jì)方法能有多大的可能性檢測(cè)到真實(shí)存在的差異, 而研究效應(yīng)的檢驗(yàn)力指的是研究者感興趣的某些研究效應(yīng)被不同研究重復(fù)發(fā)現(xiàn)的可能性。影響檢驗(yàn)力的因素有效應(yīng)量、樣本容量和顯著性水平, 如果保持其他條件不變, 檢驗(yàn)力會(huì)隨效應(yīng)量、樣本容量和顯著性水平的增大而提高(溫忠麟, 2016; 吳艷, 溫忠麟, 2011)。
統(tǒng)計(jì)方法的檢驗(yàn)力分析主要集中于統(tǒng)計(jì)學(xué)和醫(yī)藥學(xué)兩個(gè)領(lǐng)域。統(tǒng)計(jì)學(xué)的研究探討了重復(fù)測(cè)量試驗(yàn)?zāi)P?侯紫燕, 廖靖宇, 2007)和多元重復(fù)測(cè)量試驗(yàn)?zāi)P?侯紫燕, 原新鳳, 2007)的似然比檢驗(yàn)的統(tǒng)計(jì)功效, 功效函數(shù)的蒙特卡洛模擬(張建俠, 鞠銀, 2012), 雙冪變換下正態(tài)線性回歸模型的功效函數(shù)分析(丘甜等, 2017), 三種非參數(shù)檢驗(yàn)方法(卡方檢驗(yàn)、Mann-Whitney和Kolmogorov-Smirnov檢驗(yàn))的功效分析(劉遵雄, 2018)。而醫(yī)藥學(xué)領(lǐng)域研究了logistic回歸(劉韻源等, 2001; 王慧等, 2019)、值分布的百分位數(shù)(丁守鑾等, 2004)、變量變換(魏杰, 吳學(xué)森, 2006)、兩組檢驗(yàn)與秩和檢驗(yàn)(顏杰等, 2004)、非參數(shù)檢驗(yàn)方法(Wilcoxon、Kruskal- Wallis、Median和Kolmogorov-Smirnov)的檢驗(yàn)功效(曾艷等, 2011; 張超等, 2008)。
表3 研究報(bào)告中常見效應(yīng)量及其評(píng)價(jià)標(biāo)準(zhǔn)
注:檢驗(yàn)、相關(guān)分析、方差分析效應(yīng)量評(píng)價(jià)標(biāo)準(zhǔn)參見Cohen (1988); 回歸分析則按其中的效應(yīng)量2的標(biāo)準(zhǔn)(0.02為小, 0.15為中, 0.35為大)換算得到, 不過, 如果自變量只有一個(gè), 應(yīng)將相關(guān)系數(shù)的平方作為效應(yīng)量。有文獻(xiàn)(如蒲顯偉, 2016)指出, 這些切分點(diǎn)(如= 0.2)可看成是效應(yīng)量(小)的區(qū)間下限。中介效應(yīng)和調(diào)節(jié)效應(yīng)分析未見到有標(biāo)準(zhǔn), 但對(duì)于傳統(tǒng)的中介模型, 總效應(yīng)應(yīng)當(dāng)達(dá)到0.2左右、中介效應(yīng)占比超過20%才有意義; 對(duì)于調(diào)節(jié)效應(yīng), 有元分析發(fā)現(xiàn)調(diào)節(jié)項(xiàng)額外解釋因變量比例通常為3%~8% (Champoux & Peters, 1987), 應(yīng)當(dāng)不低于2%才有意義(溫忠麟, 葉寶娟, 2014)。
就研究效應(yīng)的檢驗(yàn)力而言, 吳艷和溫忠麟(2011)認(rèn)為檢驗(yàn)力分析可以分為先驗(yàn)檢驗(yàn)力分析(prior power analysis)和后驗(yàn)檢驗(yàn)力分析(post-hoc power analysis), 可用于檢驗(yàn)力分析的軟件有nQuery Advisor Release、Sample Power、G*Power、UnifyPow和PASS等。先驗(yàn)檢驗(yàn)力分析側(cè)重于實(shí)驗(yàn)前計(jì)算研究所需的樣本容量, 后驗(yàn)檢驗(yàn)力分析則關(guān)注數(shù)據(jù)收集和分析后的實(shí)驗(yàn)效應(yīng)的檢驗(yàn)力有多高。下面分別來看一下這兩種檢驗(yàn)力分析的相關(guān)研究。
6.2.1 先驗(yàn)檢驗(yàn)力分析
在研究開展前根據(jù)給定的顯著性水平、效應(yīng)量和檢驗(yàn)力, 估計(jì)研究所需的樣本容量可節(jié)省實(shí)際研究的成本, 這也就是進(jìn)行了先驗(yàn)檢驗(yàn)力的分析。醫(yī)藥學(xué)領(lǐng)域中陳平雁(2015)介紹了臨床試驗(yàn)中常用的樣本容量估計(jì)方法和專業(yè)軟件操作, 萬霞和劉建平(2007)推導(dǎo)了截面研究、觀察性研究的樣本容量計(jì)算公式, 其他研究者也提供了logistic回歸(劉韻源等, 2001; 王慧等, 2019)、兩樣本均數(shù)比較、兩樣本率比較和分層設(shè)計(jì)的樣本容量計(jì)算公式(萬霞等, 2007)。其他學(xué)科領(lǐng)域也有部分先驗(yàn)檢驗(yàn)力的研究, 如方差檢驗(yàn)(郭文, 2012)、方差區(qū)間估計(jì)和假設(shè)檢驗(yàn)(耿修林, 2008)、正態(tài)總體期望研究中Bayes假設(shè)檢驗(yàn)(賈旭山, 金振中, 2012)、泊松分布參數(shù)的序貫概率比檢驗(yàn)(趙盼, 宋學(xué)力, 2016)、Bayes最小樣本容量截尾值序貫檢驗(yàn)(胡思貴, 王紅蕾, 2019)等方法中的樣本容量計(jì)算。
先驗(yàn)檢驗(yàn)力分析的目的是為了確定研究所需的樣本容量(即被試人數(shù)), 這在被試不易得到或者實(shí)驗(yàn)成本較高的時(shí)候(如醫(yī)學(xué)實(shí)驗(yàn)、使用高級(jí)設(shè)備的心理與腦實(shí)驗(yàn))很有必要。為了方便研究者, 我們采用GPower 3.1.9.7計(jì)算了常用的檢驗(yàn)方法所需的被試人數(shù)(見表4)。設(shè)定檢驗(yàn)力為0.8, 顯著性水平為0.05和0.01, 效應(yīng)量為小、中和大三種, 給出了相應(yīng)方法在雙側(cè)檢驗(yàn)時(shí)需要的被試總?cè)藬?shù)。單側(cè)檢驗(yàn)時(shí), 需要的被試比雙側(cè)檢驗(yàn)的要少。
對(duì)于常見的統(tǒng)計(jì)方法, 從表4中可以總結(jié)出兩點(diǎn): 第一, 即使是小效應(yīng)量, 在0.05顯著性水平上, 估算的被試人數(shù)都不超過1千; 第二, 注意到對(duì)于通常的研究, 效應(yīng)量小的時(shí)候, 即使效應(yīng)顯著意義也不大(溫忠麟等, 2016); 而效應(yīng)量中或大的時(shí)候, 在0.05顯著性水平上, 估算的被試人數(shù)不超過160, 所以當(dāng)被試人數(shù)超過160時(shí), 不需要做檢驗(yàn)力分析去確定被試人數(shù)。
表4 常用檢驗(yàn)方法的被試人數(shù)估算
注: 按檢驗(yàn)力為1?β= 0.8估算的被試總?cè)藬?shù)。效應(yīng)量大小標(biāo)準(zhǔn)見表3。
6.2.2 后驗(yàn)檢驗(yàn)力分析
胡竹菁(2010)給出了兩獨(dú)立樣本平均數(shù)差異顯著性檢驗(yàn)的后驗(yàn)檢驗(yàn)力估計(jì)方法, 根據(jù)樣本計(jì)算的(或)值和α水平臨界值, 確定可能犯的第二類錯(cuò)誤率, 進(jìn)而求得檢驗(yàn)力1?β的概率。胡竹菁和戴海琦(2011)給出了方差分析的后驗(yàn)檢驗(yàn)力的計(jì)算步驟。趙禮和王暉(2019)詳細(xì)描述了后驗(yàn)檢驗(yàn)力的影響因素和基本分析流程, 并演示了如何用Optimal Design軟件分析多層模型的檢驗(yàn)力。而其他討論后驗(yàn)檢驗(yàn)力分析的論文也見于醫(yī)藥學(xué)(錢俊, 陳平雁, 2005; 吳迪等, 2007; 姚嵩坡等, 2010)和管理學(xué)(陳功興, 容迪, 2010; 林丹明等, 2008)。但從邏輯上說, 只有檢驗(yàn)結(jié)果不顯著時(shí), 才需要計(jì)算并報(bào)告后驗(yàn)檢驗(yàn)力。因?yàn)闄z驗(yàn)結(jié)果顯著時(shí), 只可能犯第一類錯(cuò)誤, 而報(bào)告檢驗(yàn)力相當(dāng)于報(bào)告第二類錯(cuò)誤率(后驗(yàn)檢驗(yàn)力 = 1 ? 第二類錯(cuò)誤率)。
以差異檢驗(yàn)(包括效應(yīng)是否為零、均值是否相等)為例, 通常的零假設(shè)是無差假設(shè), 而備擇假設(shè)是想要驗(yàn)證有效應(yīng)(如效應(yīng)不是零、均值不相等)的假設(shè)。當(dāng)拒絕零假設(shè)的時(shí)候, 犯錯(cuò)誤的概率是α(通常是0.05), 不僅明確已知, 而且已經(jīng)受控。但如果想要驗(yàn)證的就是等效(效應(yīng)為零、均值相等)的呢?如果還將無差假設(shè)作為零假設(shè), 接受零假設(shè)的時(shí)候, 犯錯(cuò)誤的概率(第二類錯(cuò)誤率)不僅需要后驗(yàn)檢驗(yàn)力分析, 而且往往都比較大(例如超過0.2)。一種解決的辦法是等效性檢驗(yàn)(equivalence testing): 借鑒效應(yīng)量的做法, 效應(yīng)要達(dá)到或超過一個(gè)界值才算有效, 并將其作為零假設(shè), 這樣就把希望為真的等效性假設(shè)放在備擇假設(shè)的位置。
等效性檢驗(yàn)和NHST有如下區(qū)別。第一, 假設(shè)的差異。等效性檢驗(yàn)的假設(shè)都是圍繞實(shí)驗(yàn)組和控制組的效應(yīng)之差(1?2)與等效的界值的關(guān)系設(shè)定的, 而NHST的假設(shè)都是圍繞1?2和0的關(guān)系設(shè)定的, 這是兩類檢驗(yàn)的本質(zhì)差異(王靜, 胡鏡清, 2011)。因此, NHST僅有統(tǒng)計(jì)學(xué)上的意義, 而等效性檢驗(yàn)則關(guān)注臨床上或?qū)嵺`中有沒有效應(yīng)。第二, 檢驗(yàn)的目的有差異。等效性檢驗(yàn)的目的是驗(yàn)證實(shí)驗(yàn)組與對(duì)照組的效應(yīng)是否足夠接近(即等效), 而NHST的目的是檢驗(yàn)實(shí)驗(yàn)組與對(duì)照組的效應(yīng)之差是否足夠大, 大到能在統(tǒng)計(jì)上的識(shí)別出來。在這個(gè)意義上, 等效性檢驗(yàn)和NHST的作用剛好相反。第三, NHST的“差異有統(tǒng)計(jì)學(xué)意義” (即< α)也有可能實(shí)驗(yàn)組和控制組的效應(yīng)是等效的, NHST的“差異無統(tǒng)計(jì)學(xué)意義” (即> α)并不表示實(shí)驗(yàn)組和控制組的效應(yīng)一定等效(于莉莉等, 2005)。
此外, 安勝利的系列研究也分析了顯著性檢驗(yàn)和等效性檢驗(yàn)的聯(lián)系與區(qū)別(安勝利, 2007a, 2007b; 安勝利, 陳平雁, 2007), 并給出了不同條件下基于值進(jìn)行等效性判定的標(biāo)準(zhǔn)。其他的討論還有非劣效性試驗(yàn)數(shù)據(jù)的假設(shè)檢驗(yàn)(李路路等, 2014; 劉玉秀等, 2008)、生物等效性(一種等效性檢驗(yàn))研究的受試者數(shù)量和事后統(tǒng)計(jì)功效等(代駿豪, 鄭強(qiáng), 2017; 賀江南等, 2009)。
其他與假設(shè)檢驗(yàn)關(guān)聯(lián)的研究主要為NHST與貝葉斯假設(shè)檢驗(yàn)的比較、具體統(tǒng)計(jì)方法的假設(shè)檢驗(yàn)問題。
對(duì)于貝葉斯假設(shè)檢驗(yàn)和NHST的比較, 尹玉良等(2011)發(fā)現(xiàn)頻率學(xué)派和貝葉斯學(xué)派在正態(tài)模型單邊假設(shè)檢驗(yàn)中得到的證據(jù)具有一致性。但更多研究討論了貝葉斯檢驗(yàn)比顯著性檢驗(yàn)的優(yōu)勢(shì): 第一, 可利用合理的先驗(yàn)信息和抽樣信息減少?zèng)Q策損失(李楚進(jìn), 萬建平, 2015), 但先驗(yàn)信息的選擇通常是一個(gè)難點(diǎn); 第二, 避免顯著性檢驗(yàn)的主觀性問題(黃閃閃, 高瑞華, 2014; 李楚進(jìn), 萬建平, 2015); 第三, 同時(shí)考慮0和1并可以用來支持0, 且可監(jiān)控證據(jù)強(qiáng)度的變化(胡傳鵬等, 2018); 第四, 揭示備擇假設(shè)與虛無假設(shè)成立可能性的高低(吳凡等, 2018)。
對(duì)于具體統(tǒng)計(jì)方法的假設(shè)檢驗(yàn)關(guān)聯(lián)研究涵蓋內(nèi)容較多(詳見表5), 在此不一一敘述。
NHST從數(shù)理統(tǒng)計(jì)應(yīng)用到包括心理學(xué)在內(nèi)的各個(gè)學(xué)科, 經(jīng)歷了從認(rèn)識(shí)、使用、誤解、澄清、質(zhì)疑、不斷提出改進(jìn)和替代方法的一系列過程。有關(guān)NHST理論和方法的研究多采用公式推導(dǎo)、數(shù)據(jù)模擬和實(shí)例驗(yàn)證的方式, 而且多集中于數(shù)學(xué)與統(tǒng)計(jì)、醫(yī)藥學(xué)、工科類的研究領(lǐng)域, 而其他學(xué)科領(lǐng)域多采用文獻(xiàn)綜述的方式介紹和澄清假設(shè)檢驗(yàn)的相關(guān)內(nèi)容。
NHST還可以繼續(xù)使用, 但需要有正確的認(rèn)識(shí): 首先, 盡管NHST的不足和質(zhì)疑引發(fā)了激烈討論, 但它的地位依然穩(wěn)固, 因?yàn)樗驯砻髁孙@著性的研究結(jié)果很不可能由抽樣波動(dòng)造成。第二, 顯著性檢驗(yàn)的值表示概率(樣本|0), 而不是(0|樣本), Anderson (2020)采用模擬研究分析了在不同條件下兩者之間的差異。第三, 在報(bào)告顯著性結(jié)果時(shí), 建議報(bào)告準(zhǔn)確的值, 以對(duì)第一類錯(cuò)誤率有更精確的評(píng)估。
雖然NHST仍可以繼續(xù)使用, 但不僅要報(bào)告統(tǒng)計(jì)檢驗(yàn)結(jié)果, 還要報(bào)告效應(yīng)量(如果顯著)或檢驗(yàn)力(如果不顯著), NHST的流程如下(見圖1):
第一, 采樣前要進(jìn)行先驗(yàn)檢驗(yàn)力分析, 計(jì)算出合適的樣本容量。但對(duì)于常見的統(tǒng)計(jì)分析(如線性回歸和方差分析等), 問卷研究被試超過160人通常不必做先驗(yàn)檢驗(yàn)力分析。
第二, 收集數(shù)據(jù), 分析并報(bào)告參數(shù)的NHST檢驗(yàn)結(jié)果和置信區(qū)間。
第三, 如果統(tǒng)計(jì)顯著(此時(shí)只可能犯第一類錯(cuò)誤), 計(jì)算并報(bào)告效應(yīng)量, 根據(jù)效應(yīng)量大小做出結(jié)論。
第四, 如果統(tǒng)計(jì)不顯著(此時(shí)只可能會(huì)犯第二類錯(cuò)誤), 計(jì)算效應(yīng)量, 當(dāng)效應(yīng)量小時(shí)接受零假設(shè);當(dāng)效應(yīng)量中等或大時(shí), 則需進(jìn)行后驗(yàn)檢驗(yàn)力分析: 如果檢驗(yàn)力高, 則接受零假設(shè); 如果檢驗(yàn)力不到80%, 則可增加樣本容量重新分析結(jié)果并做出判斷。但增加樣本容量的這一過程應(yīng)主動(dòng)披露, 報(bào)告最后的實(shí)際值并對(duì)可能犯的第一類錯(cuò)誤率做出評(píng)估, 因?yàn)橹型驹黾颖辉嚂?huì)導(dǎo)致第一類錯(cuò)誤率的增加。
表5 具體統(tǒng)計(jì)方法的假設(shè)檢驗(yàn)關(guān)聯(lián)研究
Sagarin等(2014)提出了augmented指標(biāo)來衡量數(shù)據(jù)增加帶來的一類錯(cuò)誤率的膨脹程度。augmented的計(jì)算基于初始樣本容量(1)、增加的樣本容量(2)、統(tǒng)計(jì)顯著性的臨界值(crit, 通常設(shè)置為0.05)和最終組合數(shù)據(jù)集中的值(combined), 其論文中也提供了相應(yīng)的R腳本和Excel計(jì)算表(http:// www.paugmented.com)。也有一些學(xué)者提出了獨(dú)立分段程序(independent segments procedure)、序列概率比檢驗(yàn)(sequential probability ratiotest)等方法(Miller & Ulrich, 2021; Schnuerch & Erdfelder, 2020), 控制統(tǒng)計(jì)決策錯(cuò)誤概率, 提高研究效率。但在實(shí)際應(yīng)用中可以簡(jiǎn)單化, 如果最終結(jié)果在0.05水平上顯著, 那么第一類錯(cuò)誤率基本上在0.08以下; 換一個(gè)角度說, 如果最后得到的值小于0.01, 那么第一類錯(cuò)誤率基本上不會(huì)超過0.05。
圖1 零假設(shè)顯著性檢驗(yàn)的統(tǒng)計(jì)分析流程圖
(吳艷, 溫忠麟, 2011)
圖1所示的NHST流程其實(shí)是一套組合拳, 既要看顯著性結(jié)果, 也要看效應(yīng)量大小甚至檢驗(yàn)力, 綜合做出推斷。一方面, 這套組合拳可以避免單純依靠顯著性(< 0.05)可能引起的選擇性報(bào)告數(shù)據(jù)、值操縱等現(xiàn)象, 避免得到假陽(yáng)性結(jié)果(顯著但效應(yīng)量低), 同時(shí)避免檢驗(yàn)力低導(dǎo)致的假陰性(不顯著但有不低的效應(yīng)量和實(shí)際意義); 另一方面, 各種試圖取代NHST的復(fù)雜統(tǒng)計(jì)方法, 不能只是滿足于驗(yàn)證比NHST優(yōu)勝, 而應(yīng)當(dāng)看看是否能比上述的組合拳優(yōu)勝。遺憾的是, 目前各種試圖取代NHST的復(fù)雜統(tǒng)計(jì)方法(如貝葉斯因子法)都只顯示與單純的NHST結(jié)果比較有優(yōu)勢(shì), 而未有考慮與上述的組合拳比較有優(yōu)勢(shì), 因而未能確定替代方法是否更好。不過, 如果作為補(bǔ)充方法使用是可取的, 可以提供多一點(diǎn)信息。
心理學(xué)研究的可重復(fù)性問題也部分歸因于NHST這一檢驗(yàn)?zāi)J?。但? 可重復(fù)性問題需要嚴(yán)格地界定, 否則“可重復(fù)性”在社科研究領(lǐng)域可能是偽命題。在社科研究領(lǐng)域, 既有大量的“種瓜得瓜、種豆得豆”那樣的可重復(fù)性主效應(yīng), 也有大量“橘生淮南則為橘, 生于淮北則為枳”那樣的因調(diào)節(jié)作用導(dǎo)致的不可重復(fù)性。種族、文化背景、年齡、地域、時(shí)間等等都可能是調(diào)節(jié)變量, 使得研究效應(yīng)時(shí)強(qiáng)時(shí)弱。當(dāng)一項(xiàng)研究不能重復(fù)時(shí), 雖然有可能是操作不嚴(yán)謹(jǐn)、方法不當(dāng)造成的, 但也可能是調(diào)節(jié)作用造成的, 重復(fù)研究的時(shí)候畢竟是時(shí)過境遷, 不能簡(jiǎn)單看是否能重復(fù)去評(píng)判一項(xiàng)研究的科學(xué)性。
結(jié)構(gòu)方程中的模型擬合檢驗(yàn)、測(cè)量不變性檢驗(yàn)都是希望得到不顯著的結(jié)果, 等效性檢驗(yàn)的思想很適合這類檢驗(yàn)。已有研究將等效性檢驗(yàn)拓展到結(jié)構(gòu)方程模型評(píng)價(jià)(Yuan & Chan, 2016; Yuan et al., 2016; 王陽(yáng)等, 2020), 做法還是設(shè)定適當(dāng)?shù)摹暗刃А苯缰挡⒏淖兞慵僭O(shè)。
檢驗(yàn)力方面的拓展是針對(duì)傳統(tǒng)統(tǒng)計(jì)以外的模型進(jìn)行檢驗(yàn)力分析。例如, 針對(duì)中介效應(yīng)模型的檢驗(yàn)力分析(Schoemann et al., 2017; Zhang, 2014), 針對(duì)結(jié)構(gòu)方程模型的檢驗(yàn)力分析(Wang & Rhemtulla, 2021)。
效應(yīng)量的拓展是在傳統(tǒng)統(tǒng)計(jì)以外的模型中, 利用方差分解提出新的2-型效應(yīng)量。例如, Rights和Sterba (2018)提出單層和多層回歸混合模型(regression mixture model, 回歸混合模型允許截距和斜率因潛在類別而異)的12種2-效應(yīng)量。Rights和Sterba (2019)將因變量的方差進(jìn)行分解, 提出多層線性模型的12種2-效應(yīng)量。Liu和Yuan (2021)將因變量的方差進(jìn)行分解, 提出調(diào)節(jié)效應(yīng)的4種2-效應(yīng)量。Liu等(in press)將中介效應(yīng)的方差進(jìn)行分解, 提出有調(diào)節(jié)的中介效應(yīng)的效應(yīng)量φ, 即中介效應(yīng)的方差中有多少能被調(diào)節(jié)變量解釋。劉紅云等(2021)將自變量對(duì)因變量的效應(yīng)的方差進(jìn)行分解, 提出了有中介的調(diào)節(jié)效應(yīng)的效應(yīng)量?, 即自變量對(duì)因變量的效應(yīng)的方差中, 能被有中介的調(diào)節(jié)效應(yīng)解釋的比例。
安勝利. (2007a). 假設(shè)檢驗(yàn)應(yīng)用中的常見問題及改進(jìn)方法.(3), 382–389.
安勝利. (2007b). 用傳統(tǒng)顯著性檢驗(yàn)方法進(jìn)行等效性檢驗(yàn)的規(guī)律研究.(26), 2077–2080.
安勝利, 陳平雁. (2007). 等效性檢驗(yàn)與差異性檢驗(yàn)的區(qū)別及其模擬驗(yàn)證.(3), 226–228.
陳功興, 容迪. (2010). 統(tǒng)計(jì)效力和效應(yīng)量的估計(jì)方法與應(yīng)用., (22), 132–133.
陳平雁. (2015). 臨床試驗(yàn)中樣本量確定的統(tǒng)計(jì)學(xué)考慮.(4), 727–733.
陳啟山. (2006). 心理學(xué)研究中應(yīng)用統(tǒng)計(jì)方法應(yīng)注意的幾個(gè)問題.(3), 200–206.
陳薇, 鄭國(guó)華, 劉建平. (2011). 正確理解與陰性結(jié)果試驗(yàn)相關(guān)的統(tǒng)計(jì)學(xué)概念.(5), 487–490.
程開明, 李泗娥. (2019). 科學(xué)研究中的P值: 誤解、操縱及改進(jìn).(7), 117–136.
戴金輝. (2019). 區(qū)間估計(jì)與參數(shù)假設(shè)檢驗(yàn)的比較.(9), 72–74.
代駿豪, 鄭強(qiáng). (2017). 生物等效性研究中的受試者例數(shù)確定和事后統(tǒng)計(jì)功效.(24), 2892–2897.
鄧文麗. (2003). 重復(fù)測(cè)量中兩組均值是否相等的假設(shè)檢驗(yàn).(2), 198–202.
丁士俊, 姜衛(wèi)平. (2014). 線性半?yún)?shù)模型非參數(shù)假設(shè)檢驗(yàn)理論和方法.(12), 1467– 1471.
丁守鑾, 王潔貞, 孫秀彬, 傅傳喜, 郭冬梅. (2004). 單樣本和兩樣本單側(cè)Z檢驗(yàn)P值的理論分布及應(yīng)用.(3), 28–32.
杜宇靜, 姜麗萍. (2016). 序貫k-out-of-n系統(tǒng)在序約束下參數(shù)的假設(shè)檢驗(yàn).(3), 487–492.
段乃華, 王元佳. (2011). 精神醫(yī)學(xué)中的生物統(tǒng)計(jì)(1) 顯著性檢驗(yàn)與可信區(qū)間.(1), 60–63.
樊明智, 王芬玲. (2006). 區(qū)間估計(jì)與假設(shè)檢驗(yàn).(12), 141–143.
方杰, 張敏強(qiáng), 邱皓政. (2012). 中介效應(yīng)的檢驗(yàn)方法和效果量測(cè)量: 回顧與展望.(1), 105–111.
房祥忠, 陳家鼎. (2003). EM算法在假設(shè)檢驗(yàn)中的應(yīng)用.(2), 180–184.
傅軍和. (2009). 經(jīng)典檢驗(yàn)P值的若干問題.(1), 156–157.
傅鶯鶯, 田振坤, 李裕梅. (2019). 方差分析的回歸解讀與假設(shè)檢驗(yàn).(8), 77–80.
甘倫知. (2011). 假設(shè)檢驗(yàn)中控制第二類錯(cuò)誤的探討.(22), 35–37.
耿修林. (2008). 方差推斷時(shí)樣本容量的確定.(16), 23–25.
龔鳳乾. (2003). 統(tǒng)計(jì)檢驗(yàn): 實(shí)證會(huì)計(jì)研究方法的核心.(2), 48–51.
郭寶才, 孫利榮. (2010). 關(guān)于假設(shè)檢驗(yàn)中的幾個(gè)問題的探討.(6), 10–11.
郭璐. (2016). 體育科學(xué)研究中統(tǒng)計(jì)應(yīng)用的7個(gè)誤區(qū).(5), 132–136.
郭文. (2012). 兩類錯(cuò)誤條件下方差檢驗(yàn)中樣本容量的確定.(9), 12–14.
韓兆洲, 魏章進(jìn). (2005). 假設(shè)檢驗(yàn)的一個(gè)常見誤區(qū).(1), 9–11.
郝麗, 劉樂平, 申亞飛. (2016). 統(tǒng)計(jì)顯著性: 一個(gè)被誤讀的P值——基于美國(guó)統(tǒng)計(jì)學(xué)會(huì)的聲明.(12), 3–10.
何春. (2011). 正態(tài)總體均值與標(biāo)準(zhǔn)差比在序約束下的假設(shè)檢驗(yàn).(16), 15–16.
賀江南, 張新佶, 謝之輝, 吳美京, 賀佳. (2009). 正態(tài)分布資料等效性評(píng)價(jià)的傳統(tǒng)假設(shè)檢驗(yàn)方法與貝葉斯方法比較.(4), 422–425.
何平平. (2004). 置信區(qū)間與假設(shè)檢驗(yàn)關(guān)系中的一個(gè)誤區(qū).(4), 77–80.
賀文武. (2004). 淺議零假設(shè)及再檢驗(yàn).(1), 121–122.
何曉東. (2004). 數(shù)據(jù)何以“起死回生”——談外語(yǔ)科研中的顯著性檢驗(yàn).(2), 62–64.
侯紫燕, 廖靖宇. (2007). 重復(fù)測(cè)量試驗(yàn)?zāi)P蛥?shù)似然比檢驗(yàn)及其功效分析.(1), 68–76.
侯紫燕, 原新鳳. (2007). 一類多元重復(fù)測(cè)量模型參數(shù)的似然比檢驗(yàn)及其功效分析.(4), 544– 554.
胡傳鵬, 孔祥禎, Wagenmakers, E.-J., Ly, A., 彭凱平. (2018).貝葉斯因子及其在JASP中的實(shí)現(xiàn).(6), 951–965.
胡傳鵬, 王非, 過繼成思, 宋夢(mèng)迪, 隋潔, 彭凱平. (2016). 心理學(xué)研究中的可重復(fù)性問題: 從危機(jī)到契機(jī).(9), 1504–1518.
胡春健. (2013). 小樣本下Kendall τ相關(guān)系數(shù)的顯著性檢驗(yàn).(6), 1195–1197.
扈慧敏, 徐興忠. (2007). 雙因素方差分析模型中的廣義p-值.(9), 843–846.
胡思貴, 王紅蕾. (2019). 計(jì)數(shù)型最小樣本量截尾值的序貫檢驗(yàn).(6), 931–942.
胡竹菁. (2010). 平均數(shù)差異顯著性檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)力和效果大小的估計(jì)原理與方法.(1), 68–73.
胡竹菁, 戴海琦. (2011). 方差分析的統(tǒng)計(jì)檢驗(yàn)力和效果大小的常用方法比較.(3), 254–259.
胡竹菁, 戴海琦. (2017). 心理學(xué)實(shí)驗(yàn)研究的效果大小.(1), 70–77.
黃嘉佑. (2005). 氣象中使用統(tǒng)計(jì)檢驗(yàn)的幾個(gè)問題.(7), 3–5.
黃閃閃, 高瑞華. (2014). 邏輯與方法論:貝葉斯統(tǒng)計(jì)推理探索的雙重視角.(15), 4–8.
黃秀秀, 張崇岐. (2014). 混料模型的假設(shè)檢驗(yàn).(4), 620–627.
紀(jì)竹蓀. (2003). 假設(shè)檢驗(yàn)與區(qū)間估計(jì)的關(guān)系及應(yīng)用.(3), 79–80.
賈旭山, 金振中. (2008). 二項(xiàng)分布貝葉斯假設(shè)檢驗(yàn)方法.(5), 37–40.
賈旭山, 金振中. (2012). Bayes假設(shè)檢驗(yàn)及樣本數(shù)量問題研究.(4), 67–70.
江海峰. (2009). 雙總體假設(shè)檢驗(yàn)的另類區(qū)間估計(jì)法及其MCS研究.(17), 18–21.
江梅. (2010). 總體相關(guān)系數(shù)比較的假設(shè)檢驗(yàn).(1), 83–87.
江忠偉, 郭新穎. (2018). 基于最小廣義特征值的兩因素多元方差分析檢驗(yàn)法則探討.,(24), 82–85.
焦璨, 張敏強(qiáng). (2014). 迷失的邊界: 心理學(xué)虛無假設(shè)檢驗(yàn)方法探究.(2), 148–207.
金炳陶, 馬承霈. (1992). 檢驗(yàn)功效的計(jì)算及其應(yīng)用., (2), 45–47.
金輝, 鄒莉玲. (2017). 假設(shè)檢驗(yàn)和P值的再認(rèn)識(shí).(2), 95–98.
金曉峰. (2004). 體育統(tǒng)計(jì)假設(shè)檢驗(yàn)中幾個(gè)問題的探討.(9), 1221–1222.
李楚進(jìn), 萬建平. (2015). 統(tǒng)計(jì)檢驗(yàn)的發(fā)展與應(yīng)用.(23), 2.
李海峰, 姜小峰. (2014). 正確理解和運(yùn)用比值比反映的效應(yīng)量.(5), 381.
李康. (2005). 第二講數(shù)據(jù)假設(shè)檢驗(yàn)的思想與方法.(2), 118–119.
李克均, 時(shí)松和, 施學(xué)忠, 胡東生. (2008). 對(duì)應(yīng)分析應(yīng)用中的假設(shè)檢驗(yàn)問題.(2), 199–203.
李路路, 侯艷, 吳瑩, 李康. (2014). 設(shè)有安慰劑組的多臂非劣效臨床試驗(yàn)定量數(shù)據(jù)的假設(shè)檢驗(yàn)方法.(6), 1093–1095.
李榮華, 徐九韻. (2001). 多維正態(tài)總體零均值的假設(shè)檢驗(yàn).(6), 112–113.
李勝聯(lián), 荀鵬程, 歐超燕. (2006). 變異的假設(shè)檢驗(yàn)及其應(yīng)用.(6), 560–561.
李世明, 劉學(xué)貞, 徐迪生. (2004). 運(yùn)動(dòng)生物力學(xué)研究中統(tǒng)計(jì)方法應(yīng)用的幾個(gè)問題.(1), 39– 41.
李文華, 雷金星. (2005). 假設(shè)檢驗(yàn)中兩類錯(cuò)誤的成因、發(fā)生概率及其相關(guān)問題——以單個(gè)總體均值檢驗(yàn)為例.(4), 117–119.
李勇. (2011). 隨機(jī)信息中正態(tài)均值的灰色統(tǒng)計(jì)假設(shè)檢驗(yàn)判定.(22), 29–30.
李勇. (2012). 方差未知的灰色統(tǒng)計(jì)假設(shè)檢驗(yàn)及應(yīng)用.(9), 74–76.
李勇. (2016). 基于兩正態(tài)均值的灰色統(tǒng)計(jì)假設(shè)檢驗(yàn)研究.(1), 19–21.
林丹明, 李煒文, 梁強(qiáng). (2008). 我國(guó)管理學(xué)研究的統(tǒng)計(jì)功效分析.(4), 84–102.
林路, 張潤(rùn)楚. (2001). 假設(shè)檢驗(yàn)的相對(duì)穩(wěn)定性.(4), 616–622.
林曉輝. (2001). 異方差且未知情況下兩正態(tài)總體等均值檢驗(yàn)的貝葉斯觀點(diǎn)統(tǒng)計(jì)量.(4), 17– 26.
林曉輝. (2006a). 貝葉斯統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)的一種新方法.(16), 9–11.
林曉輝. (2006b). 論模糊數(shù)學(xué)在假設(shè)檢驗(yàn)中的應(yīng)用.(4), 25–31.
劉紅云, 袁克海, 甘凱宇. (2021). 有中介的調(diào)節(jié)模型的拓展及其效應(yīng)量.,(3), 322–338.
劉佳, 霍涌泉, 陳文博, 解詩(shī)薇, 王靜. (2018). 心理學(xué)研究的可重復(fù)性“危機(jī)”: 一些積極應(yīng)對(duì)策略.(1), 86–90.
劉媚. (2011). 混合雙參數(shù)Pareto分布的假設(shè)檢驗(yàn).(2), 34–35.
劉鐵川, 王閃閃, 桂雅立. (2019). 方差分析效果大小報(bào)告的新指標(biāo).(3), 238–243.
劉玉秀, 徐曉莉, 鄭均. (2008). 配對(duì)二項(xiàng)數(shù)據(jù)等效性/非劣效性評(píng)價(jià)的樣本含量估計(jì)和假設(shè)檢驗(yàn).(3), 299–302.
劉韻源, 劉嘉, 陳元立, 周家麗. (2001). 糊狀態(tài)風(fēng)險(xiǎn)分析的廣義Logistic回歸理論與應(yīng)用(7)—病例對(duì)照研究設(shè)計(jì)中樣本大小與統(tǒng)計(jì)功效的估計(jì).(2), 22–23.
劉遵雄. (2018). 類別數(shù)據(jù)擬合優(yōu)度檢驗(yàn)功效模擬.(24), 86–87.
劉遵雄, 田珊珊. (2017). 多重假設(shè)檢驗(yàn)中參數(shù)估計(jì)問題研究.(5), 23–26.
龍兵. (2014). 兩參數(shù)Lomax分布中參數(shù)的區(qū)間估計(jì)和假設(shè)檢驗(yàn).(2), 176–179.
盧謝峰, 唐源鴻, 曾凡梅. (2011). 效應(yīng)量: 估計(jì)、報(bào)告和解釋.(3), 260–264.
駱大森. (2017). 心理學(xué)可重復(fù)性危機(jī)兩種根源的評(píng)估.(5), 577–586.
羅榮華, 吳錕. (2014). 假設(shè)檢驗(yàn)的一種新思維.(8), 23–25.
羅曉娟. (2011). 對(duì)假設(shè)檢驗(yàn)方法的改進(jìn).(15), 157–158.
呂佳, 喬克林. (2010). 淺談假設(shè)檢驗(yàn)中的P-值.(34), 8494–8496.
呂小康. (2012). Fisher與Neyman-Pearson的分歧與心理統(tǒng)計(jì)中的假設(shè)檢驗(yàn)爭(zhēng)議.(6), 1502–1506.
呂小康. (2014). 從工具到范式: 假設(shè)檢驗(yàn)爭(zhēng)議的知識(shí)社會(huì)學(xué)反思.(6), 216–236.
牟唯嫣, 熊世峰. (2009). 正態(tài)密度比的假設(shè)檢驗(yàn).(6), 632–640.
聶丹丹, 王浩, 羅蓉. (2016). 可重復(fù)性: 心理學(xué)研究不可忽視的實(shí)踐.(4), 618–622.
牛莉. (2005). 總體參數(shù)單側(cè)檢驗(yàn)時(shí)如何提出假設(shè)H.(3), 87–88.
潘高田, 王精業(yè), 楊瑞平. (2001). 小樣本離散型多總體和統(tǒng)計(jì)量檢驗(yàn)法.(2), 182–183.
彭玉兵. (2010). 假設(shè)檢驗(yàn)中邊界樣本點(diǎn)的決策.(4), 346–352.
蒲顯偉. (2016). 定量數(shù)據(jù)分析效應(yīng)值: 意義、計(jì)算與解釋.(1), 64–69.
錢俊, 陳平雁. (2005). 假設(shè)檢驗(yàn)中計(jì)算觀察檢驗(yàn)效能的意義的探討.(3), 133–137.
丘甜, 華偉平, 李新光. (2017). 雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn).(2), 22–24.
權(quán)朝魯. (2003). 效果量的意義及測(cè)定方法.(2), 39–44.
沈光輝, 范涌峰, 陳婷. (2019). 教育研究中的P值使用: 問題及對(duì)策——兼談效應(yīng)量的使用.(4), 92–98.
施能, 章愛國(guó), 余錦華. (2009). 氣象學(xué)中使用統(tǒng)計(jì)檢驗(yàn)的幾個(gè)重要注記.(5), 670–673.
宋立新, 張平. (2009). K個(gè)單參數(shù)指數(shù)總體相等的假設(shè)檢驗(yàn).(2), 50–52.
宋爽, 曹一鳴. (2019). 如何正確解讀假設(shè)檢驗(yàn)結(jié)果——兼談數(shù)學(xué)教育研究中p值誤用問題.(7), 14–27.
孫紅衛(wèi), 董兆舉, 趙擁軍. (2012). 對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)的誤解與誤用.(1), 147–150.
孫曉峰, 趙喜春. (2003). 二項(xiàng)分布假設(shè)檢驗(yàn)平均試驗(yàn)數(shù)的確定及其應(yīng)用研究.(3), 53–61.
唐寶珍. (2004). 對(duì)區(qū)間估計(jì)和總體參數(shù)假設(shè)檢驗(yàn)思想一致性的思考.(2), 125–126.
田慶豐, 張功員. (2002). 醫(yī)學(xué)論文中定量資料假設(shè)檢驗(yàn)方法常見錯(cuò)誤分析.(1), 70–73.
田曉明, 傅玨生. (2005). 多元總體均值差異顯著性檢驗(yàn)的研究.(1), 163–165.
萬樹文, 方芳. (2012). 關(guān)于兩總體均值差的一種半?yún)?shù)假設(shè)檢驗(yàn)方法.(7), 671–679.
萬霞, 李贊華, 劉建平. (2007). 臨床研究中的樣本量估算: (1)臨床試驗(yàn).(6), 504–507.
萬霞, 劉建平. (2007). 臨床研究中的樣本量估算: (2)觀察性研究.(7), 599–601.
王慧, 高雪, 虞明星, 王彤. (2019). logistic回歸中一類基于Wald檢驗(yàn)的樣本量和功效估計(jì).(4), 613–619.
王靜, 胡鏡清. (2011). 對(duì)臨床試驗(yàn)中顯著性檢驗(yàn)、區(qū)間檢驗(yàn)及置信區(qū)間檢驗(yàn)之間關(guān)系一致性的認(rèn)識(shí).(3), 281–286.
王珺, 宋瓊雅, 許岳培, 賈彬彬, 胡傳鵬. (2019). 效應(yīng)量置信區(qū)間的原理及其實(shí)現(xiàn).(5), 284– 296.
王石青, 史慧娟. (2007). 方差分類模型的假設(shè)檢驗(yàn).(4), 171–172.
王偉. (2004). 醫(yī)學(xué)科研論文中常見的統(tǒng)計(jì)學(xué)應(yīng)用錯(cuò)誤分析.(5), 335–336.
王曉波, 李會(huì)瓊. (2017). 大維數(shù)據(jù)中,協(xié)方差矩陣等于某個(gè)矩陣的假設(shè)檢驗(yàn).(S1), 24–35.
王瀟文, 呂艷. (2020). 一類隨機(jī)偏微分方程極大似然估計(jì)的假設(shè)檢驗(yàn).(6), 17–22.
王雪琴. (2010). 關(guān)于均值單邊檢驗(yàn)的局限性.(19), 4740–4743.
王雅慧, 曹春正. (2016). 含方程誤差的重復(fù)測(cè)量誤差模型參數(shù)的假設(shè)檢驗(yàn).(4), 16–20.
王雅玲. (2006). 假設(shè)檢驗(yàn)中無差別區(qū)域問題的討論.(3), 63–65.
王陽(yáng), 溫忠麟, 付媛姝. (2020). 等效性檢驗(yàn)——結(jié)構(gòu)方程模型評(píng)價(jià)和測(cè)量不變性分析的新視角.(11), 1961–1969.
魏杰, 吳學(xué)森. (2006). 變量變換對(duì)假設(shè)檢驗(yàn)效能影響的研究.(3), 212–214.
魏艷華, 王丙參, 邢永忠. (2018). 基于蒙特卡洛方法的假設(shè)檢驗(yàn)問題探討.(24), 75–78.
溫煦. (2011). 效應(yīng)量: 體育科研中不應(yīng)忽略的統(tǒng)計(jì)量.(3), 142–145.
溫忠麟. (2016).. 廣州: 廣東高等教育出版社.
溫忠麟, 范息濤, 葉寶娟, 陳宇帥. (2016). 從效應(yīng)量應(yīng)有的性質(zhì)看中介效應(yīng)量的合理性.(4), 435– 443.
溫忠麟, 方杰, 沈嘉琦, 譚倚天, 李定欣, 馬益銘. (2021). 新世紀(jì)20年國(guó)內(nèi)心理統(tǒng)計(jì)方法研究回顧.(8). 1331–1344.
溫忠麟, 吳艷. (2010). 屢遭誤用和錯(cuò)批的心理統(tǒng)計(jì).(1), 47–54.
溫忠麟, 葉寶娟. (2014). 有調(diào)節(jié)的中介模型檢驗(yàn)方法: 競(jìng)爭(zhēng)還是替補(bǔ)?(5), 714–726.
吳迪, 孫錦峰, 馮麗云. (2007). 假設(shè)檢驗(yàn)時(shí)檢驗(yàn)功效的SAS實(shí)現(xiàn).,(6), 1190–1192.
吳凡, 顧全, 施壯華, 高在峰, 沈模衛(wèi). (2018). 跳出傳統(tǒng)假設(shè)檢驗(yàn)方法的陷阱——貝葉斯因子在心理學(xué)研究領(lǐng)域的應(yīng)用.(3), 195–202.
吳啟富, 張玉春. (2012). 統(tǒng)計(jì)假設(shè)檢驗(yàn)中小概率原理的辨析.(17), 70–71.
吳艷, 溫忠麟. (2011). 與零假設(shè)檢驗(yàn)有關(guān)的統(tǒng)計(jì)分析流程.(1), 230–234.
夏佩倫, 李本昌, 李博. (2015). 假設(shè)檢驗(yàn)在軍事工程應(yīng)用中的若干問題.(3), 100–103.
夏新濤, 王中宇. (2006). 非統(tǒng)計(jì)假設(shè)檢驗(yàn)原理及其應(yīng)用.(2), 190–195.
謝田法, 吳啟光. (2011). 指數(shù)族下參數(shù)雙邊檢驗(yàn)的p–值.(1), 92–104.
謝忠秋. (2018). 權(quán)數(shù)可靠性的假設(shè)檢驗(yàn)探討.(23), 78–80.
辛自強(qiáng). (2010). 有關(guān)心理統(tǒng)計(jì)的三個(gè)疑問.(1), 39–46.
徐浪, 馬丹. (2001). 假設(shè)檢驗(yàn)中原假設(shè)的確定與α控制.(12), 14.
徐鵬, 汪盧俊, 嚴(yán)子淳. (2016). 帶有隨機(jī)趨勢(shì)項(xiàng)的二元選擇模型顯著性檢驗(yàn)研究(英文).(3), 301–312.
徐天河, 楊元喜. (2001). 坐標(biāo)轉(zhuǎn)換模型尺度參數(shù)的假設(shè)檢驗(yàn).(1), 70–74.
許岳培, 陸春雷, 王珺, 宋瓊雅, 賈彬彬, 胡傳鵬. (印刷中). 評(píng)估零效應(yīng)的三種統(tǒng)計(jì)方法..
續(xù)志琦, 辛自強(qiáng). (2018). 單被試實(shí)驗(yàn)的統(tǒng)計(jì)分析: 非重疊法效果量估計(jì).(2), 89–99.
荀鵬程, 趙楊, 易洪剛, 柏建嶺, 于浩, 陳峰. (2006). Permutation Test在假設(shè)檢驗(yàn)中的應(yīng)用.(5), 616–621.
顏杰, 李彩霞, 方積乾, 丁守鑾. (2004). 完全隨機(jī)設(shè)計(jì)兩組t檢驗(yàn)與秩和檢驗(yàn)的功效比較.(1), 12–15.
楊桂元, 劉德志. (2012). 參數(shù)假設(shè)檢驗(yàn)中的若干基本問題研究.(24), 13–15.
楊少華, 楊林濤. (2009). 參數(shù)假設(shè)檢驗(yàn)中原假設(shè)與備擇假設(shè)的交換問題.(5), 148–149.
姚晨. (2007). 醫(yī)學(xué)研究結(jié)論的統(tǒng)計(jì)學(xué)推斷.(2), 213–217.
姚菊香, 王盤興, 鮑學(xué)俊, 盧楚翰. (2007). 相關(guān)系數(shù)顯著性檢驗(yàn)的幾何意義.(4), 566–570.
姚嵩坡, 劉盛元, 王濱有. (2010). 假設(shè)檢驗(yàn)中檢驗(yàn)效能的計(jì)算及SAS實(shí)現(xiàn).(4), 434–436.
尹玉良, 趙俊龍, 徐興忠. (2011). 正態(tài)模型下單邊假設(shè)檢驗(yàn)問題中頻率與貝葉斯證據(jù)的一致性.(8), 1001–1004.
余紅梅. (2017). 解析美國(guó)統(tǒng)計(jì)學(xué)會(huì)關(guān)于統(tǒng)計(jì)學(xué)檢驗(yàn)和P值的聲明.(1), 173–176.
于莉莉, 夏結(jié)來, 陳啟光, 姚晨. (2005). 顯著性檢驗(yàn)與等效性檢驗(yàn)的區(qū)別與聯(lián)系.(1), 38–39.
曾艷, 李桂花, 莊劉. (2011). 完全隨機(jī)設(shè)計(jì)兩樣本的Wilcoxon檢驗(yàn)與K-S檢驗(yàn)功效比較.(4), 372–374.
張超, 胡軍, 陳平雁. (2008). 完全隨機(jī)設(shè)計(jì)兩樣本比較的非參數(shù)方法的檢驗(yàn)功效比較.(3), 230–235.
張鳳寬. (2012). 最大熵原理與假設(shè)檢驗(yàn)方法探討.(15), 10–13.
張弓, 肖景榕. (2006). 正確理解生物統(tǒng)計(jì)學(xué)的P值.(1), 102.
張功員. (2002). 醫(yī)學(xué)論文中定性資料假設(shè)檢驗(yàn)方法的常見錯(cuò)誤分析.(3), 184–186.
張厚粲, 徐建平. (2015).. 北京: 北京師范大學(xué)出版社.
張建俠, 鞠銀. (2012). 假設(shè)檢驗(yàn)功效的蒙特卡羅模擬.(4), 83–84.
張靜. (2012). 貝葉斯假設(shè)檢驗(yàn)與經(jīng)典假設(shè)檢驗(yàn)的對(duì)比研究.(9), 36–37.
張力為, 祁國(guó)鷹. (1998). 效果量: 運(yùn)動(dòng)心理學(xué)研究應(yīng)予重視的數(shù)據(jù)分析指標(biāo)., (01), 13–18.
張凌翔. (2006). 對(duì)假設(shè)檢驗(yàn)中幾個(gè)問題的思考——兼與韓兆洲、魏章進(jìn)商榷.(6), 32–34.
張曉敏. (2008). 一類馬氏樣本下假設(shè)檢驗(yàn)問題錯(cuò)誤概率的估計(jì).(1), 180–185.
張應(yīng)應(yīng), 魏毅. (2014). R函數(shù)實(shí)現(xiàn)正態(tài)總體均值、方差的區(qū)間估計(jì)及假設(shè)檢驗(yàn)的設(shè)計(jì).(9), 74–77.
趙禮, 王暉. (2019). 統(tǒng)計(jì)檢驗(yàn)力的分析流程與多層模型示例.(5), 276–283.
趙盼, 宋學(xué)力. (2016). 泊松分布參數(shù)的序貫概率比檢驗(yàn).(14), 63–65.
鄭發(fā)美. (2009). 兩均勻分布區(qū)間長(zhǎng)度比的置信區(qū)間與假設(shè)檢驗(yàn).(22), 152–153.
鄭昊敏, 溫忠麟, 吳艷. (2011). 心理學(xué)常用效應(yīng)量的選用與分析.(12), 1868–1878.
鄭文瑞, 丁棟全. (2007). 多元模糊數(shù)據(jù)的假設(shè)檢驗(yàn)方法.(6), 123–127.
鐘路. (2004). 對(duì)參數(shù)單尾假設(shè)檢驗(yàn)中存在的問題的探討.(11), 27–28.
仲曉波. (2010a). 零假設(shè)檢驗(yàn)和元分析之間的邏輯連貫性.(6), 1477–1480.
仲曉波. (2010b). 心理學(xué)研究中應(yīng)該怎樣報(bào)告實(shí)驗(yàn)的結(jié)果?(5), 62–65.
仲曉波. (2015). 心理學(xué)實(shí)驗(yàn)的可重復(fù)性.(4), 807–812.
仲曉波. (2016). 關(guān)于假設(shè)檢驗(yàn)的爭(zhēng)議: 問題的澄清與解決.(10), 1670–1676.
仲曉波, 黃希堯, 萬榮根. (2008). 心理學(xué)中對(duì)假設(shè)檢驗(yàn)一些批評(píng)的分析.(4), 1010–1013.
Anderson, S. F. (2020). Misinterpreting p: The discrepancy between p values and the probability the null hypothesis is true, the influence of multiple testing, and implications for the replication crisis.(5), 596– 609.
Champoux, J. E., & Peters, W. S. (1987). Form, effect size and power in moderated regression analysis.,(3), 243–255.
Cohen, J. (1988).(2nd ed.). Hillsdale, NJ: Erlbaum.
Liu, H., & Yuan, K-H. (2021). New measures of effect size in moderation analysis.,(6), 680–700. https://doi.org/10.1037/met0000371
Liu, H., Yuan, K.-H., & Wen. Z. (in press). Two-level moderated mediation models with single level data and new measures of effect sizes.. https://doi.org/10.3758/s13428-021-01578-6
Lu, Y., & Belitskaya-Levy, I. (2015). p值之爭(zhēng)(英文).(6), 381–385.
Miller, J., & Ulrich, R. (2021). A simple, general, and efficient method for sequential hypothesis testing: The independent segments procedure.,(4), 486– 497.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science.(6251), acc4716.
Rights, J. D., & Sterba, S. K. (2018). A framework of R-squaredmeasures for single-level and multilevel regression mixture models.,(3), 434–457.
Rights, J. D., & Sterba, S. K. (2019). Quantifying explained variance in multilevel models: An integrative framework for defining R-squared measures.,(3), 309–338.
Sagarin, B. J., Ambler, J. K., & Lee, E. M. (2014). An ethical approach to peeking at data.(3), 293–304.
Schnuerch, M., & Erdfelder, E. (2020). Controlling decision errors with minimal costs: The sequential probability ratio t test.(2), 206–226.
Schoemann, A. M., Boulton, A. J., & Short, S. D. (2017). Determining power and sample size for simple and complex mediation models.(4), 379–386.
Wang, Y. A., & Rhemtulla, M. (2021). Power analysis for parameter estimation in structural equation modeling: A discussion and tutorial.(1), 1–17.
Wasserstein, R. L., & Lazar, N. A. (2016). The asa statement on p-values: Context, process, and purpose.(2), 129–133.
Wen, Z., & Fan, X. (2015). Monotonicity of effect sizes: Questioning kappa-squared as mediation effect size measure.(2), 193–203.
Yuan, K. H., & Chan, W. (2016). Measurement invariance via multigroup SEM: Issues and solutions with chi-square- difference tests.(3), 405–426.
Yuan, K. H., Chan, W., Marcoulides, G. A., & Bentler, P. M. (2016). Assessing structural equation models by equivalence testing with adjusted fit indexes.(3), 319–330.
Zhang, Z. Y. (2014). Monte Carlo based statistical power analysis for mediation models: Methods and software.(4), 1184–1198.
Methodological research on hypothesis test and related issues in China’s mainland from 2001 to 2020
WEN Zhonglin1, XIE Jinyan1, FANG Jie2, WANG Yifan1
(1School of Psychology & Center for Studies of Psychological Application, South China Normal University, Guangzhou 510631, China)(2Institute of New Development & Department of Applied Psychology, Guangdong University of Finance & Economics, Guangzhou 510320, China)
In the first two decades of the 21st century, the research of hypothesis test and related topics in China’s mainland can be divided into the following categories: Deficiency of null hypothesis significance test, use of-value, repeatability of psychological research, effect size, the power of statistical test, equivalence test, and other research related to hypothesis test. NHST has been developed into a set of procedures as follows. To ensure power of statistical test and save costs, experimental research often needs to do a priori power analysis to estimate the required sample size, while questionnaire studies with more than 160 participants usually does not need to do so for traditional statistical analyses. When the null hypothesis is rejected, a conclusion should be made in combination with an effect size. When the null hypothesis is not rejected, the posterior power of statistical test needs to be reported; if the effect size is medium or large and the power of statistical test is less than 80%, more participants could be added for further analysis, but this process should be disclosed, the final-value should be reported, and the type I error rate should be evaluated.
hypothesis testing,-value, effect size, power of statistical test, equivalence test
2021-12-29
* 國(guó)家自然科學(xué)基金項(xiàng)目(32171091)、國(guó)家社會(huì)科學(xué)基金項(xiàng)目(17BTJ035)資助。
溫忠麟, E-mail: wenzl@scnu.edu.cn
B841