鄭巧蘭,林燕薇,王景周
中山大學(xué)附屬第三醫(yī)院期刊中心(廣州 510630)
統(tǒng)計(jì)學(xué)推斷(假設(shè)檢驗(yàn))是科學(xué)研究尤其是醫(yī)學(xué)研究中的一種常用方法,用于判斷樣本與總體的一致性。統(tǒng)計(jì)學(xué)推斷普遍依據(jù)P值,P值是從一個(gè)假設(shè)所規(guī)定的特定總體中隨機(jī)抽樣,得到的統(tǒng)計(jì)量值與實(shí)際觀測(cè)數(shù)據(jù)相同或更極端(更大或者更小)的概率[1]。P值不代表處理效應(yīng)的大小或結(jié)果的重要性[2],但其被曲解和錯(cuò)誤使用情況仍較普遍,已公開(kāi)發(fā)表的文章、個(gè)別期刊的投稿須知等存在將P<0.05、0.01、0.001 分別解釋為差異或相關(guān)性顯著、非常顯著、極顯著的現(xiàn)象[3-7]。目前關(guān)于P值的研究大多列舉P值的各類(lèi)誤用情況[8-9],或者雖然認(rèn)為不能將P<0.05 描述為差異具有顯著性,但未作詳細(xì)解釋。因此,本研究擬從樣本量對(duì)P值影響的角度,探討P值與差異或相關(guān)性大小的關(guān)系,以期幫助期刊編輯同仁和作者更準(zhǔn)確地理解P值并解釋其意義,提升學(xué)術(shù)期刊質(zhì)量。
在醫(yī)藥衛(wèi)生期刊中,t檢驗(yàn)、卡方檢驗(yàn)、Pearson 相關(guān)分析以及Logistic 回歸分析為使用較多的統(tǒng)計(jì)學(xué)檢驗(yàn)方法,對(duì)P值的誤解也最為常見(jiàn)。本研究通過(guò)固定上述4 種統(tǒng)計(jì)方法的主要統(tǒng)計(jì)量[均數(shù)和標(biāo)準(zhǔn)差、樣本率、相關(guān)系數(shù)、OR 值(95%CI)]模擬數(shù)據(jù),觀察不同樣本量下P值差異。
本研究每種統(tǒng)計(jì)方法使用3 份不同樣本量的數(shù)據(jù)進(jìn)行分析。根據(jù)每種統(tǒng)計(jì)方法適用的數(shù)據(jù)分布情況,設(shè)定統(tǒng)計(jì)量值和樣本量,采用隨機(jī)數(shù)函數(shù)生成研究數(shù)據(jù)。以t檢驗(yàn)為例,設(shè)定兩組樣本的均數(shù)、標(biāo)準(zhǔn)差和樣本量,采用正態(tài)分布隨機(jī)數(shù)函數(shù)分別隨機(jī)生成兩組樣本的第一份數(shù)據(jù),即模擬1;為確保統(tǒng)計(jì)量值完全一致,復(fù)制10 次第一份數(shù)據(jù)得到第二份數(shù)據(jù),即模擬2;復(fù)制20 次第一份數(shù)據(jù)得到第三份數(shù)據(jù),即模擬3。研究中,對(duì)統(tǒng)計(jì)量值和樣本量不斷調(diào)整,使每種統(tǒng)計(jì)方法3 次模擬的P值分別>0.05、0.001~0.05、<0.001。
采用SPSS 20.0 軟件進(jìn)行模擬數(shù)據(jù)生成和統(tǒng)計(jì)檢驗(yàn),采用雙側(cè)檢驗(yàn)結(jié)果。
設(shè)兩組樣本的體質(zhì)量指數(shù)(body mass index, BMI)分別為(20.3±1.5)kg·m-2、(20.0±1.5) kg·m-2,當(dāng)樣本量均為30 時(shí),兩組均數(shù)比較差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.444);當(dāng)樣本量均為300 時(shí),P=0.014;當(dāng)樣本量均為600時(shí),P<0.001,見(jiàn)表1。
表1 均數(shù)和標(biāo)準(zhǔn)差相同、樣本量不同的兩組數(shù)據(jù)t檢驗(yàn)統(tǒng)計(jì)分析結(jié)果Table 1. Statistical results of t-test for two groups with constant mean and standard deviation under different sample size
設(shè)兩種治療方法的有效率分別為0.42、0.50,當(dāng)兩組樣本量均為50 時(shí),兩組有效率比較差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.422);兩組樣本量均為500 時(shí),P=0.011;兩組樣本量均為1 000 時(shí),P<0.001,見(jiàn)表2。
表2 有效率相同、樣本量不同的兩組數(shù)據(jù)卡方檢驗(yàn)統(tǒng)計(jì)分析結(jié)果Table 2. Statistical results of chi-square test for two groups with constant effective rate under different sample size
兩個(gè)變量相關(guān)系數(shù)為0.238,樣本量均為10時(shí),P=0.508;樣本量擴(kuò)大至100 時(shí),P=0.017;樣本量為1 000 時(shí),P<0.001,見(jiàn)表3。
表3 相關(guān)系數(shù)相同、樣本量不同的兩個(gè)變量Pearson相關(guān)分析結(jié)果Table 3. Results of Pearson correlation analysis for two variables with constant correlation coefficients under different sample size
單因素Logistic 回歸分析中,β=0.811,OR值為2.250,當(dāng)兩組樣本量均為10 時(shí),OR 值95%CI 為(0.376,13.465),P值為0.374;樣本量增加到每組100 時(shí),OR 值不變,95%CI 縮窄為(1.278,3.962),P值為0.005;樣本量為每組200 時(shí),OR 值不變,95%CI 為(1.508,3.357),P<0.001,見(jiàn)表4。
表4 回歸系數(shù)相同、樣本量不同的兩組數(shù)據(jù)單因素Logistic回歸分析結(jié)果Table 4. Results of binary Logistic regression analysis for two groups with constant regression coefficient under different sample size
了解檢驗(yàn)功效(power)有助于正確理解P值。在統(tǒng)計(jì)學(xué)中,檢驗(yàn)功效是指當(dāng)兩個(gè)總體參數(shù)間存在差異時(shí),所使用的統(tǒng)計(jì)檢驗(yàn)?zāi)軌虬l(fā)現(xiàn)這種差異的概率。影響檢驗(yàn)功效的因素通常有:總體參數(shù)間差異越大,檢驗(yàn)功效越大;個(gè)體差異(標(biāo)準(zhǔn)差)越小,檢驗(yàn)功效越大;樣本含量越大,檢驗(yàn)功效越大;檢驗(yàn)水準(zhǔn)(α)越大,檢驗(yàn)功效越大[10]。檢驗(yàn)功效與P值呈負(fù)相關(guān)[11]。因此,在其他條件相同的情況下,樣本量越大,檢驗(yàn)功效越大,即能夠發(fā)現(xiàn)這種差異的概率越大,而P值越小。
本研究驗(yàn)證了P值受樣本量影響較大:將每種統(tǒng)計(jì)方法3 次模擬的統(tǒng)計(jì)量值固定,即從統(tǒng)計(jì)描述上看數(shù)據(jù)差異或相關(guān)性一致,但由于樣本量不同,得到的P值差異很大,甚至得到完全不同的結(jié)果。如果將更小P值的結(jié)果解釋為差異更大或者顯著,可能造成疑惑。例如,在兩組獨(dú)立樣本t檢驗(yàn)中,雖然3 種樣本量得到不同的P值,但是3 種樣本下兩組的均數(shù)差值均為0.3,差異從統(tǒng)計(jì)描述上看一致。而且,雖然第2、3次模擬數(shù)據(jù)顯示P值小于0.05,但是在臨床上相差0.3 可能沒(méi)有專(zhuān)業(yè)意義,甚至兩組均在正常的BMI 范圍內(nèi)。同樣地,在兩組有效率比較的卡方檢驗(yàn)中,3 種不同樣本量情況下兩組的治療有效率一致,樣本量增加后P值變小,并非代表差異更加顯著。正確的理解應(yīng)該是以目前的情況,出現(xiàn)零假設(shè)正確,即無(wú)差異的概率更低,更有理由認(rèn)為兩組的有效率有差異。在Pearson 相關(guān)分析中,3 次模擬數(shù)據(jù)的相關(guān)系數(shù)均為0.238,第1次的模擬數(shù)據(jù)因?yàn)镻值大于0.05,提示兩組數(shù)據(jù)無(wú)線性相關(guān),但在第2、3 次的模擬數(shù)據(jù)中P值均小于0.05,而使不少作者認(rèn)為顯著相關(guān)[5]。實(shí)際上,相關(guān)系數(shù)的假設(shè)檢驗(yàn)僅能說(shuō)明相關(guān)關(guān)系是否有統(tǒng)計(jì)學(xué)意義,不能說(shuō)明相關(guān)關(guān)系是否密切[12]。有統(tǒng)計(jì)學(xué)家認(rèn)為,r≥0.7 為強(qiáng)相關(guān),在0.3 以下為弱相關(guān)甚至無(wú)相關(guān)[13]。在單因素Logistic 回歸分析中,當(dāng)OR 值不變而樣本量增加時(shí),P值變小,OR 值的95%CI 縮窄,這是由于95%CI 與標(biāo)準(zhǔn)誤相關(guān),而標(biāo)準(zhǔn)誤受樣本量的影響,更窄的95%CI 意味著更穩(wěn)固的結(jié)果、更高的可信度[10,14]。
新英格蘭醫(yī)學(xué)雜志2019年的作者指南指出,P值沒(méi)有提供效應(yīng)大小或者關(guān)聯(lián)強(qiáng)弱的信息,其投稿指南要求P值大于0.01 時(shí)保留2 位小數(shù);如果P值在0.001~0.01 之間,則保留3 位小數(shù);如果P值小于0.001,用P<0.001 表示,同時(shí)應(yīng)提供效應(yīng)值、關(guān)聯(lián)度或其他感興趣結(jié)果指標(biāo)的置信區(qū)間[15-16]。在國(guó)內(nèi),由于學(xué)術(shù)不端事件頻發(fā),需要進(jìn)行結(jié)果核對(duì),因此,期刊編輯應(yīng)讓作者提供具體P值及其他統(tǒng)計(jì)量值[17-18]。中國(guó)高校醫(yī)學(xué)期刊論文統(tǒng)計(jì)報(bào)告規(guī)范編寫(xiě)組近期推出了《中國(guó)高校醫(yī)學(xué)期刊論文統(tǒng)計(jì)報(bào)告推薦清單(2023 版)》,指出“大于0.001 的P值應(yīng)保留3 位小數(shù),小于0.001 的P值應(yīng)報(bào)告P<0.001”,但并未對(duì)P值做出更詳細(xì)解釋或設(shè)置更多規(guī)范[19]。本研究對(duì)P值的解釋提出以下建議:首先,統(tǒng)計(jì)學(xué)方法部分不應(yīng)將P<0.05、0.01、0.001 表達(dá)為差異或相關(guān)性顯著、非常顯著、極顯著,僅需表達(dá)檢驗(yàn)水準(zhǔn)為0.05(或其他)或者P<0.05 為差異有統(tǒng)計(jì)學(xué)意義即可。其次,結(jié)果部分應(yīng)避免出現(xiàn)帶有評(píng)論意義的“顯著”“明顯”等詞匯,尤其是不應(yīng)根據(jù)P值大小判斷差異是否顯著、非常顯著、極顯著。英文寫(xiě)作中的“statistical significance”翻譯為中文是“統(tǒng)計(jì)學(xué)顯著性”,其代表的是數(shù)據(jù)差異在統(tǒng)計(jì)學(xué)上是否顯著,不代表專(zhuān)業(yè)上的顯著性。但是不少論文作者混淆概念,將統(tǒng)計(jì)學(xué)顯著性等價(jià)于差異顯著性,文字上表述為“兩組比較具有顯著差異”或“顯著高于、明顯高于”等,降低了文章的嚴(yán)謹(jǐn)性,容易對(duì)讀者造成嚴(yán)重誤導(dǎo)。本研究建議當(dāng)P值小于設(shè)定的檢驗(yàn)水準(zhǔn)時(shí),不論其大小,僅表達(dá)差異具有統(tǒng)計(jì)學(xué)意義并附上對(duì)應(yīng)的P值即可。另外,討論部分也應(yīng)慎重表述差異顯著的結(jié)論,是否顯著應(yīng)根據(jù)效應(yīng)值大小及其置信區(qū)間并結(jié)合臨床專(zhuān)業(yè)意義進(jìn)行判斷;當(dāng)P值大于0.05 時(shí),還應(yīng)結(jié)合樣本量及檢驗(yàn)功效討論。
值得注意的是,不能唯P值論,結(jié)果報(bào)告需要更多地結(jié)合效應(yīng)量和置信區(qū)間[20],貝葉斯等方法也越來(lái)越多地被推薦;同時(shí),統(tǒng)計(jì)檢驗(yàn)中注意多重比較校正,以減少錯(cuò)誤發(fā)現(xiàn)的可能性;且統(tǒng)計(jì)學(xué)意義并不代表專(zhuān)業(yè)意義,研究者還應(yīng)考慮研究結(jié)果的專(zhuān)業(yè)意義。
P值相關(guān)問(wèn)題一方面反映出國(guó)內(nèi)統(tǒng)計(jì)學(xué)教育的不足,是統(tǒng)計(jì)學(xué)教學(xué)過(guò)程中相對(duì)薄弱且需要重點(diǎn)關(guān)注的環(huán)節(jié)[21];另一方面也體現(xiàn)了繼續(xù)教育的欠缺,以期刊編輯工作為例,編輯的統(tǒng)計(jì)學(xué)素養(yǎng)可強(qiáng)化作者的統(tǒng)計(jì)學(xué)意識(shí),提升科研人員的統(tǒng)計(jì)學(xué)水平,其統(tǒng)計(jì)學(xué)掌握水平與論文綜合質(zhì)量密切相關(guān),國(guó)內(nèi)學(xué)術(shù)期刊編輯繼續(xù)教育存在內(nèi)容同質(zhì)化、培訓(xùn)方式單一、培訓(xùn)對(duì)象寬泛等特征[22-24]。學(xué)術(shù)期刊編輯尤其是醫(yī)學(xué)期刊編輯亟須提高統(tǒng)計(jì)學(xué)素養(yǎng),期刊編輯繼續(xù)教育相關(guān)組織機(jī)構(gòu)可以安排醫(yī)藥衛(wèi)生期刊專(zhuān)場(chǎng),邀請(qǐng)統(tǒng)計(jì)學(xué)專(zhuān)家進(jìn)行授課;對(duì)于論文作者,編輯部可以通過(guò)完善稿約細(xì)則,增強(qiáng)作者統(tǒng)計(jì)報(bào)告規(guī)范意識(shí),引導(dǎo)其重視統(tǒng)計(jì)學(xué)規(guī)范,正確使用P值解釋相關(guān)結(jié)果[25]。
綜上,P值雖然飽受爭(zhēng)議,但目前仍為醫(yī)學(xué)科研論文不可忽略的關(guān)鍵詞,正確使用并解釋P值對(duì)于科學(xué)研究的可靠性、結(jié)論推斷和決策制定具有重要意義。本研究通過(guò)模擬數(shù)據(jù)分析,展示了樣本量對(duì)P值大小的影響,說(shuō)明了P值大小不等同于差異或相關(guān)性大小的原因,提出正確使用和解釋P值的建議,以期幫助編輯同仁和作者準(zhǔn)確理解P值并正確解釋統(tǒng)計(jì)分析結(jié)果,提高學(xué)術(shù)期刊論文質(zhì)量。