亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

P值和置信區(qū)間：聯(lián)系與區(qū)別、誤用與爭(zhēng)論

2023-02-13 10:03:30蔣青青王世琦曹世義

數(shù)理醫(yī)藥學(xué)雜志 2023年1期

黃申，蔣青青，王世琦，曹世義

華中科技大學(xué)同濟(jì)醫(yī)學(xué)院公共衛(wèi)生學(xué)院（武漢 430030）

假設(shè)檢驗(yàn)理論的創(chuàng)立者—R·A·Fisher（1890-1962）首先提出P值的概念后，P值被廣泛使用和接受，直到成為現(xiàn)代統(tǒng)計(jì)學(xué)中常用的指標(biāo)。預(yù)防和干預(yù)措施對(duì)健康結(jié)果的有效性需要研究結(jié)果證明，而研究結(jié)果又取決于P值。P值是決定研究結(jié)果是真實(shí)的還是偶然的、治療是否有效、論文將被接受或拒絕、資助是否會(huì)被拒絕，或者藥物是否會(huì)被美國(guó)食品和藥物管理局（FDA）批準(zhǔn)的必要條件。毫不夸張地說(shuō)，人類(lèi)的福祉已深受P值的影響。然而，在所有生物醫(yī)學(xué)研究中，P值可能是最常被誤解和錯(cuò)誤計(jì)算的指標(biāo)[1]。兩個(gè)最常見(jiàn)的誤解是：①使用P值來(lái)表示現(xiàn)實(shí)世界的概率，將顯著性與檢驗(yàn)假設(shè)為真的概率為95%與5%的假幾率相關(guān)聯(lián)；②使用P=0.05作為可觀察結(jié)果證據(jù)的閾值（即P＜0.05被認(rèn)為可觀察效應(yīng)；P≥0.05被認(rèn)為不可觀測(cè)效應(yīng)）[2]。錯(cuò)誤計(jì)算包括盲目地應(yīng)用假設(shè)檢驗(yàn)，或者在某些情況下，效應(yīng)為零的點(diǎn)零假設(shè)不太可能為真，但卻在這種情況下，詢(xún)問(wèn)是否可以拒絕零假設(shè)[3-4]。甚至“在統(tǒng)計(jì)學(xué)家中，幾乎普遍存在將P值誤解為頻率錯(cuò)誤概率”。而另一由美國(guó)統(tǒng)計(jì)學(xué)家耶日·奈曼提出的常用統(tǒng)計(jì)指標(biāo)置信區(qū)間，目前也被廣泛使用，但對(duì)于置信區(qū)間的使用爭(zhēng)論卻少得多。盡管P值和置信區(qū)間已是兩個(gè)司空見(jiàn)慣的統(tǒng)計(jì)指標(biāo)，但如何讓更多的科研工作者正確地使用它們，仍是一項(xiàng)任重道遠(yuǎn)的工作。因此，本文圍繞P值和置信區(qū)間的定義、聯(lián)系與區(qū)別、誤用與爭(zhēng)論進(jìn)行一系列闡述，以便更多的科研工作者能夠在今后的工作中正確地理解及使用它們。

1 真正理解P值與置信區(qū)間

1.1 P值是什么

大部分文獻(xiàn)給出的解釋是：“P值是在假定原假設(shè)為真時(shí)，得到與樣本相同或者更極端的結(jié)果的概率”[3,5-6]。這句解釋也許對(duì)于部分學(xué)者來(lái)說(shuō)晦澀難懂。首先，我們可能最疑惑的是：什么是原假設(shè)，又為什么假定原假設(shè)？這個(gè)問(wèn)題需要從假設(shè)檢驗(yàn)說(shuō)起。假設(shè)檢驗(yàn)是指用來(lái)判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。顯著性檢驗(yàn)是假設(shè)檢驗(yàn)中最常用的一種方法，其基本原理是先對(duì)總體的特征做出某種假設(shè)，然后通過(guò)抽樣研究的統(tǒng)計(jì)推斷，判斷對(duì)此假設(shè)是應(yīng)該拒絕還是尚不能拒絕。

通過(guò)舉例幫助讀者理解假設(shè)檢驗(yàn)。例如，根據(jù)大量調(diào)查，已知某地健康成年男子平均身高為173 cm，現(xiàn)在該地某工廠隨機(jī)測(cè)量85名健康成年男性工人的身高，其身高均數(shù)為168.9 cm，標(biāo)準(zhǔn)差為3.9 cm。目前已知總體均數(shù)為173 cm，樣本均數(shù)為168.9 cm，如果想知道樣本均數(shù)所代表的總體和已知總體（該地健康成年男子）是否存在差別，會(huì)出現(xiàn)兩種情況：①該樣本是來(lái)自總體均數(shù)為173 cm的總體，均數(shù)的差異為抽樣誤差所導(dǎo)致；②該樣本不是來(lái)自總體均數(shù)為173 cm的總體，而是來(lái)自于另外一個(gè)總體，其差異主要是由于環(huán)境因素差異導(dǎo)致（本質(zhì)不同）。

要比較樣本均數(shù)與總體均數(shù)是否有差別，此時(shí)就需要進(jìn)行假設(shè)檢驗(yàn)。假設(shè)有兩種：①無(wú)效假設(shè)H0：該樣本是來(lái)自總體均數(shù)為173 cm的總體，均數(shù)差由抽樣誤差引起；②備擇假設(shè)H1：樣本所代表總體與上述總體存在本質(zhì)差別。同時(shí)也需要確定檢驗(yàn)水準(zhǔn)，即當(dāng)H0正確時(shí)，拒絕H0所犯的錯(cuò)誤，也稱(chēng)為I類(lèi)錯(cuò)誤或α錯(cuò)誤，是指拒絕了實(shí)際上成立的、正確的假設(shè)，即“棄真”的錯(cuò)誤。一般認(rèn)為低于5%的事件是小概率事件，那么就注定了會(huì)有5%的可能性犯錯(cuò)，因?yàn)槿藶橐?guī)定的那些小概率事件在現(xiàn)實(shí)中是可能發(fā)生的，而發(fā)生的概率就是我們規(guī)定的5%，即犯錯(cuò)的概率便等于小概率事件發(fā)生的概率，通常取0.05。

這時(shí)，再回頭看一下P值的定義，在示例中，原假設(shè)是H0，現(xiàn)假定H0成立，得出P值與先前設(shè)定的檢驗(yàn)水準(zhǔn)比較，當(dāng)P小于0.05時(shí)，可認(rèn)為得到樣本是來(lái)自總體均數(shù)為173 cm的總體這一結(jié)果的概率非常小，此時(shí)就可以拒絕H0接受H1，樣本均數(shù)與總體均數(shù)之間的差異有統(tǒng)計(jì)學(xué)意義，可認(rèn)為樣本與總體本質(zhì)不同；P≥0.05，則不拒絕H0，差異無(wú)統(tǒng)計(jì)學(xué)意義，不能認(rèn)為該樣本不是來(lái)自于上述總體。通過(guò)示例可知，其實(shí)P值的本質(zhì)是用來(lái)判定假設(shè)檢驗(yàn)結(jié)果的一個(gè)參數(shù)?？傊?，P值指如果H0假設(shè)是正確的，那么統(tǒng)計(jì)結(jié)果出現(xiàn)的可能性有多大，P值越小，說(shuō)明在H0假設(shè)的前提下，這個(gè)統(tǒng)計(jì)結(jié)果出現(xiàn)的可能性越低，此時(shí)我們傾向于推翻H0假設(shè)，此時(shí)也設(shè)定了一個(gè)最大容忍限度（I類(lèi)錯(cuò)誤，意味著研究者的結(jié)論并不正確，即觀察到了實(shí)際上并不存在的處理效應(yīng)），只有發(fā)生小概率事件（P＜0.05）時(shí)才推翻H0。

1.2 置信區(qū)間是什么

置信區(qū)間（confidence interval）相對(duì)來(lái)說(shuō)更容易理解。在生活中，由于各種資源的限制，在實(shí)際工作中大部分時(shí)候往往無(wú)法對(duì)全部個(gè)體進(jìn)行檢測(cè)或調(diào)查，此時(shí)，就會(huì)從總體中隨機(jī)抽取一定數(shù)量的觀察單位作為樣本，通過(guò)樣本參數(shù)去估計(jì)總體參數(shù)，包括點(diǎn)估計(jì)和區(qū)間估計(jì)兩種方法。點(diǎn)估計(jì)是用相應(yīng)的樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估計(jì)值，區(qū)間估計(jì)是指從點(diǎn)估計(jì)值和抽樣標(biāo)準(zhǔn)誤差出發(fā)，按預(yù)先給定的概率建立包含總體參數(shù)的一個(gè)區(qū)間范圍。預(yù)先給定的概率稱(chēng)為置信度或置信水平（confidence level），常取 95% 或 99%，而建立起來(lái)的有95%或99%的概率包含總體參數(shù)的區(qū)間范圍就是置信區(qū)間。

置信區(qū)間的計(jì)算公式取決于所用到的統(tǒng)計(jì)量。置信區(qū)間是在預(yù)先確定好的顯著性水平下計(jì)算出來(lái)的，顯著性水平通常稱(chēng)為α，絕大多數(shù)情況會(huì)將α設(shè)為0.05。置信度為（1-α），或者100×（1-α）%。于是，如果α=0.05，那么置信度則是0.95或95%，后一種表示方式更為常用。置信區(qū)間的常用計(jì)算方法如下：

其中：α是顯著性水平（例：0.05或0.10）；Pr表示概率，是單詞 probability的縮寫(xiě)；100%*(1-α)或(1-α)或指置信水平（例如：95%或0.95）；c1和c2表示置信區(qū)間的上限值和下限值。

1.3 P值與置信區(qū)間的差異

前文已經(jīng)描述過(guò)P值代表在假定原假設(shè)為真時(shí)，得到與樣本相同或者更極端結(jié)果的概率，但并不能通過(guò)P值知道計(jì)算的結(jié)果與無(wú)效假設(shè)差別會(huì)有多大。上述示例中，置信區(qū)間不僅可以看出兩組是否有差異，還能說(shuō)明差異大小，明確最小臨床意義差異。依然用前述的示例幫助讀者理解，假如樣本均數(shù)變?yōu)?72.9 cm，總體均數(shù)為173 cm不變，當(dāng)總體調(diào)查人數(shù)及樣本量調(diào)查人數(shù)足夠大，抽樣誤差足夠小時(shí)，即使樣本均數(shù)和總體均數(shù)的差值為0.1 cm，也可能會(huì)出現(xiàn)P＜0.05的結(jié)論。但0.1 cm的差值是否有實(shí)際意義呢？?jī)H從P值是看不出來(lái)的。但置信區(qū)間可以提示與無(wú)效假設(shè)的參數(shù)偏離有多遠(yuǎn)，如無(wú)效假設(shè)為樣本均數(shù)和總體均數(shù)的差值為0.1,最后計(jì)算95%置信區(qū)間為（0.05，0.85），這至少提示兩點(diǎn)：第一，因?yàn)橹眯艆^(qū)間沒(méi)有包含0，兩組差異有統(tǒng)計(jì)學(xué)意義，即樣本代表的總體和上述總體并不相同；第二，樣本均數(shù)與總體均數(shù)的差值較小，有95% 的信心認(rèn)為兩組差值在0.05～0.85之間。但即使結(jié)果有統(tǒng)計(jì)學(xué)意義，從專(zhuān)業(yè)角度來(lái)看，身高均數(shù)差別太小，并無(wú)太大的實(shí)際價(jià)值，這一信息是P值所無(wú)法提供的。

2 P值與置信區(qū)間的聯(lián)系

2.1 P值與置信區(qū)間的相同點(diǎn)

一般來(lái)說(shuō)，樣本量越大，抽樣誤差越小，計(jì)算的置信區(qū)間越窄，精度越高，此時(shí)P值也會(huì)越小。P值和置信區(qū)間在做出統(tǒng)計(jì)學(xué)結(jié)論的時(shí)候，結(jié)果是一樣的。在進(jìn)行普查時(shí)，直接獲取總體，無(wú)抽樣過(guò)程，不會(huì)引入抽樣誤差，也無(wú)需進(jìn)行從樣本到總體的統(tǒng)計(jì)推斷過(guò)程。此時(shí)計(jì)算的置信區(qū)間只有一個(gè)值，而P值也就不存在了。

2.2 P值與置信區(qū)間的近似轉(zhuǎn)換

（1）根據(jù)置信區(qū)間計(jì)算P值[7]?；谡龖B(tài)分布的研究數(shù)據(jù)，如果 95% 置信區(qū)間的上限和下限分別為u和l，可通過(guò)以下步驟計(jì)算P值：

第一步，計(jì)算標(biāo)準(zhǔn)誤差：SE=（u-l）/（2×1.96）

第二步，計(jì)算檢驗(yàn)統(tǒng)計(jì)量：z=Est/SE

第三步，計(jì)算P值：P=exp（-0.717×z- 0.416×z2）

以下使用更具體的示例來(lái)介紹步驟。例如，一項(xiàng)試驗(yàn)的受試者分為使用普伐他汀抗高血壓治療和安慰劑治療組。作者報(bào)告說(shuō)，普伐他汀治療組的治療效果略差于安慰劑組。兩組間高血壓均值之間的估計(jì)差異為 1.9[95%CI（0.6，4.3）]mmHg，求P值是多少[8]？按以上步驟計(jì)算P值：

本文作者并未給出P值為0.13。

（2）同樣基于正態(tài)分布的研究數(shù)據(jù)，有一些文章只報(bào)告了觀察到的效應(yīng)估計(jì)值（該效應(yīng)值為絕對(duì)效應(yīng)量，如均數(shù)差和危險(xiǎn)度差，相對(duì)效應(yīng)指標(biāo)需要進(jìn)行l(wèi)og轉(zhuǎn)換后再進(jìn)行計(jì)算）和P值，這種情況下，也可以獲得置信區(qū)間。使用P值和估計(jì)值獲取效應(yīng)估計(jì)值置信區(qū)間的步驟如下[9]：

第一步，根據(jù)P值計(jì)算正態(tài)分布檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量z：

第二步，計(jì)算標(biāo)準(zhǔn)誤差：

第三步，計(jì)算 95%置信區(qū)間：

以下使用更具體的示例來(lái)介紹步驟。例如，一項(xiàng)隨機(jī)試驗(yàn)報(bào)告的摘要對(duì)文章進(jìn)行了這樣的描述：“比起對(duì)照組的患者更多的服用鋅的患者在兩天內(nèi)康復(fù)（49% vs. 32%，P=0.032）[10]?！眱蓚€(gè)組別比例差異為17%，那么95%置信區(qū)間（CI）是多少？我們按以上步驟計(jì)算置信區(qū)間：

95% 置信區(qū)間為 17.0-15.56 至 17.0+15.56，或 1.4% 至 32.6%。

3 P值與置信區(qū)間的錯(cuò)用與誤用

P值是公認(rèn)的統(tǒng)計(jì)有效性的“黃金標(biāo)準(zhǔn)”[11]。在計(jì)算機(jī)時(shí)代，無(wú)論多么復(fù)雜的統(tǒng)計(jì)，P值也變得容易計(jì)算[12]。P值的出現(xiàn)給我們的科學(xué)研究帶來(lái)了極大的便利，增加了各種科學(xué)研究論文成功發(fā)表的機(jī)會(huì)。在各類(lèi)期刊出版中使用P值及置信區(qū)間報(bào)告結(jié)果成為一項(xiàng)共識(shí)，但在P值被大量錯(cuò)誤使用的情況下，對(duì)P值錯(cuò)誤使用進(jìn)行批評(píng)的聲音也越來(lái)越大[1]。2016年，美國(guó)統(tǒng)計(jì)協(xié)會(huì)（ASA）在《美國(guó)統(tǒng)計(jì)學(xué)家》上發(fā)表聲明，警告不要在科學(xué)研究中濫用統(tǒng)計(jì)顯著性和P值[13]。《新英格蘭醫(yī)學(xué)雜志》最近也宣布了一套新準(zhǔn)則：不鼓勵(lì)使用P值，但強(qiáng)調(diào)報(bào)告置信區(qū)間（CI）。目前對(duì)于

P值的批判可概括為以下幾個(gè)方面：第一，它們普遍被錯(cuò)誤解讀[14]，例如，如果原假設(shè)的P值為0.08，則錯(cuò)誤的認(rèn)為僅由機(jī)會(huì)產(chǎn)生關(guān)聯(lián)的概率為8%[15]；第二，它們是善變的，例如，當(dāng)在兩個(gè)不同的總體中檢驗(yàn)相同的假設(shè)，但得到的P值是相互矛盾的[15-16]；第三，它們經(jīng)?？浯蠓磳?duì)無(wú)效假設(shè)的證據(jù)，例如，重復(fù)t檢驗(yàn)的模擬試驗(yàn)說(shuō)明了小樣本夸大效應(yīng)的趨勢(shì)[16]；第四，P值也被指責(zé)具有內(nèi)在的欺騙性，因?yàn)閷@著性水平（即P值的大?。┡c效應(yīng)大小相關(guān)聯(lián)。例如，一些讀者可能會(huì)將P＜0.0001解釋為不僅表明術(shù)后結(jié)果改善有統(tǒng)計(jì)學(xué)意義，而且還可能得出，由于P值太小，術(shù)后結(jié)果改善的效果非常好，但真實(shí)情況并非總是如此[17]；第五，還有研究認(rèn)為P值不是客觀的衡量標(biāo)準(zhǔn)，不具備證據(jù)性措施應(yīng)該具備的品質(zhì)，如提供更加直接的證據(jù)，而不僅僅只是一個(gè)只能比較兩個(gè)或多個(gè)假設(shè)的指數(shù)[18-19]。此外，它們?cè)谶壿嬌纤坪跻膊环现С只蚍磳?duì)任何事物的衡量標(biāo)準(zhǔn)[3]。

而對(duì)置信區(qū)間的誤解主要有以下幾個(gè)：第一，95%置信區(qū)間預(yù)測(cè)未來(lái)研究中 95% 的估計(jì)值將落在觀測(cè)區(qū)間內(nèi)；第二，特定95%置信區(qū)間有95%的機(jī)會(huì)包含真實(shí)效應(yīng)值；第三，如果一個(gè) 95%置信區(qū)間包含空值，而另一個(gè)排除空值，則排除空值的置信區(qū)間更精確；第四，如果兩個(gè)置信區(qū)間重疊，則兩個(gè)估計(jì)值或研究之間的差異不顯著[20]；第五，數(shù)據(jù)駁斥（或排除）了95%置信區(qū)間之外的效應(yīng)大小[15,21]。

4 P值與置信區(qū)間的使用爭(zhēng)論

前面談到了P值的濫用現(xiàn)況，鑒于人們對(duì)P值的濫用日益加劇，對(duì)于P值和置信區(qū)間的使用選擇，也在學(xué)術(shù)界引起了爭(zhēng)論。主要有以下兩種觀點(diǎn)：

4.1 推薦更多地使用置信區(qū)間

該觀點(diǎn)受到更多主流觀點(diǎn)認(rèn)可，目前有向著這種觀點(diǎn)發(fā)展的積極趨勢(shì)。ASA強(qiáng)調(diào)，P值既不衡量所研究的零假設(shè)（例如，與參考療法相比，指數(shù)沒(méi)有顯示其他組有治療效果）為真的概率，也不衡量數(shù)據(jù)因?yàn)殡S機(jī)產(chǎn)生的概率。因此，P值或統(tǒng)計(jì)顯著性沒(méi)有衡量效應(yīng)的大小或結(jié)果的重要性，它本身并不能提供有關(guān)模型或假設(shè)的良好證據(jù)度量。

在隨機(jī)試驗(yàn)中，P值是由治療效果大?。ū硎緸橄鄬?duì)效應(yīng)和絕對(duì)效應(yīng)）和樣本量所驅(qū)動(dòng)。在一個(gè)大型的試驗(yàn)中，較小的P值與較小的治療效果相關(guān)，如相對(duì)風(fēng)險(xiǎn)為0.90或風(fēng)險(xiǎn)差異為0.5%也能得到較小的P值（如P＜0.001），而在一個(gè)小型試驗(yàn)中，較小的治療效果與P值可能相關(guān)性并不顯著。因此，P值的作用除去對(duì)治療效果的評(píng)估，還應(yīng)對(duì)相對(duì)風(fēng)險(xiǎn)和風(fēng)險(xiǎn)差異方面進(jìn)行評(píng)估。估計(jì)的治療效果的準(zhǔn)確度，可用假設(shè)檢驗(yàn)的結(jié)果判斷，而治療效果的精確度，則體現(xiàn)為置信區(qū)間的寬度，個(gè)體間效應(yīng)的差異，它基本上代表了與試驗(yàn)觀察相一致的治療效果范圍。如果95%的置信區(qū)間排除了相對(duì)風(fēng)險(xiǎn)的1（或風(fēng)險(xiǎn)差異的0），則試驗(yàn)結(jié)果與無(wú)治療效果的零假設(shè)不一致。P值跟隨95%的置信區(qū)間：如果95%的置信區(qū)間排除了相對(duì)風(fēng)險(xiǎn)的1或風(fēng)險(xiǎn)差異的0，相關(guān)的P值就會(huì)下降到小于0.05。換句話說(shuō)，P值對(duì)95%的置信區(qū)間幾乎沒(méi)有任何補(bǔ)充[22]。因此推薦更多也報(bào)告置信區(qū)間而非P值。

4.2 置信區(qū)間替換P值可能不會(huì)實(shí)現(xiàn)任何效果

一些學(xué)者提出了和上述觀點(diǎn)相反的意見(jiàn)，Seo Young Park認(rèn)為用置信區(qū)間取代P值可能不會(huì)對(duì)醫(yī)學(xué)研究的進(jìn)行和結(jié)果的理解帶來(lái)任何真正的改變[23]。由于其雙重性，P值和置信區(qū)間提供的信息基本相同——收集的數(shù)據(jù)和事先假定的模型的兼容性。事實(shí)上，與假設(shè)檢驗(yàn)相比，置信區(qū)間更強(qiáng)調(diào)估計(jì)，而且它們提供了關(guān)于估計(jì)精度的線索。但是，置信區(qū)間的位置或?qū)挾炔⒉荒苻D(zhuǎn)化為臨床意義，而且我們都知道，通過(guò)檢查置信區(qū)間是否包括空值（通常為0或1）而將結(jié)果一分為二的簡(jiǎn)單化做法將持續(xù)存在。此外，對(duì)置信區(qū)間的解釋并不是直接的。她認(rèn)為P值仍然有自己的用武之地。

無(wú)論是在文章中選擇使用P值還是置信區(qū)間，首先，最重要的還是正確地理解P值和置信區(qū)間。只有我們正確地理解它們，才能夠準(zhǔn)確地使用它們?nèi)ソ忉屛恼碌难芯拷Y(jié)果和意義，這對(duì)于文章的質(zhì)量和發(fā)表都至關(guān)重要。至于到底是選擇報(bào)告P值還是置信區(qū)間，作為一名普通的科研工作者，從科學(xué)嚴(yán)謹(jǐn)?shù)慕嵌瘸霭l(fā)，我們應(yīng)該根據(jù)自己文章實(shí)際情況及所投期刊的要求而定。