周敏林 綜述 劉玉秀 審校
·醫(yī)學(xué)繼續(xù)教育·
臨床試驗(yàn)中P值的意義及結(jié)果解讀
周敏林1綜述 劉玉秀2審校
P值是生物醫(yī)學(xué)研究中最常使用的統(tǒng)計(jì)學(xué)概念,在臨床試驗(yàn)中尤為普遍。但關(guān)于P值的意義一直爭(zhēng)議不斷。本文在對(duì)美國(guó)統(tǒng)計(jì)協(xié)會(huì)發(fā)布的P值聲明進(jìn)行闡述的基礎(chǔ)上,介紹《新英格蘭醫(yī)學(xué)雜志》發(fā)表的兩篇關(guān)于臨床試驗(yàn)獲得主要結(jié)局P值后的結(jié)果解讀要點(diǎn),結(jié)合STOP-IgAN和SPRINT兩個(gè)真實(shí)臨床試驗(yàn)進(jìn)行實(shí)例解讀,期望為研究者正確解讀P值、提高臨床試驗(yàn)結(jié)果報(bào)告質(zhì)量提供遵循依據(jù),得到準(zhǔn)確的研究結(jié)論。
P值 統(tǒng)計(jì)意義 臨床試驗(yàn)
臨床試驗(yàn)完成后,其結(jié)論一般取決于主要結(jié)局的P值,若P<0.05,則認(rèn)為是陽(yáng)性結(jié)果,反之視為陰性結(jié)果。這種僅基于P值做結(jié)論推斷的事實(shí)近年來(lái)飽受爭(zhēng)議。多篇文章指出P值常被誤解或誤用[1-5]。假設(shè)檢驗(yàn)的創(chuàng)立者Fisher等[6]提出用P值量化拒絕原假設(shè)的程度[6-7],而如今P<0.05常被誤認(rèn)為是差異顯著,而P<0.01則被誤認(rèn)為是差異非常顯著,甚至獲得較小P值的研究結(jié)果基本不被質(zhì)疑[8]。因此,澄清P值的意義并對(duì)試驗(yàn)結(jié)果進(jìn)行正確解讀成為學(xué)術(shù)界關(guān)注的焦點(diǎn)。本文在對(duì)美國(guó)統(tǒng)計(jì)協(xié)會(huì)(American Statistical Association,ASA)發(fā)布的P值聲明進(jìn)行闡述的基礎(chǔ)上,介紹《新英格蘭醫(yī)學(xué)雜志》(The New England Journal of Medicine,NEJM)發(fā)表的兩篇關(guān)于臨床試驗(yàn)獲得主要結(jié)局P值后的結(jié)果解讀的要點(diǎn),結(jié)合STOP-IgAN和SPRINT兩個(gè)臨床試驗(yàn)進(jìn)行實(shí)例解讀,期望為研究者正確解讀P值、提高臨床試驗(yàn)結(jié)果報(bào)告質(zhì)量提供遵循依據(jù),得到準(zhǔn)確的研究結(jié)論。
2014年《Nature》雜志刊發(fā)了《Scientific method:statistical errors》并配發(fā)述評(píng),對(duì)統(tǒng)計(jì)檢驗(yàn)的“金標(biāo)準(zhǔn)”P值提出了質(zhì)疑,認(rèn)為P值并沒(méi)有科學(xué)家所認(rèn)為的那樣可信[9-10]。該文成為Nature雜志最受關(guān)注的文章之一(http://www.altmetric.com/details/2115792#score)。鑒于目前存在關(guān)于P值和統(tǒng)計(jì)意義(Statistical significance)的誤解及誤用,ASA于2016年3月在線發(fā)布《ASA關(guān)于P值的聲明:背景、過(guò)程和目的》,在此基礎(chǔ)上推出了《ASA關(guān)于統(tǒng)計(jì)意義和P值的聲明》(http://dx.doi.org/10.1080/00031305.2016.1154108)。該聲明給出了P值的定義及六條準(zhǔn)則。P值是指在特定的統(tǒng)計(jì)假設(shè)模型下,數(shù)據(jù)的某個(gè)統(tǒng)計(jì)指標(biāo)(如兩組樣本均數(shù)之差)等于觀察值或比觀察值更為極端的概率。六條關(guān)于P值的準(zhǔn)則,反映了ASA對(duì)P值的官方態(tài)度:(1)P值表示數(shù)據(jù)與特定的統(tǒng)計(jì)模型不匹配的程度。即在原假設(shè)(如兩組之間沒(méi)有差異)的前提下,P值越小,說(shuō)明數(shù)據(jù)與模型不匹配程度越高,因此越有理由拒絕原假設(shè)。(2)P值不是研究假說(shuō)為真的概率,也不是數(shù)據(jù)由隨機(jī)產(chǎn)生的概率。P值說(shuō)明數(shù)據(jù)與假設(shè)的關(guān)系,而不解釋假設(shè)本身。(3)科學(xué)結(jié)論、商業(yè)決策或政策制定不能取決于P值是否超過(guò)規(guī)定的界值。成功的決策應(yīng)考慮實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)質(zhì)量、外部證據(jù)、假設(shè)的合理性等諸多因素。僅僅看P值是否小于0.05是非常具有誤導(dǎo)性的。(4)正確的推斷依賴于報(bào)告的全面性和透明度。研究者要公布研究中所有的假設(shè)、數(shù)據(jù)收集和統(tǒng)計(jì)分析過(guò)程,以及P值。(5)P值或統(tǒng)計(jì)意義并不表示處理效應(yīng)(Treatment effect)的大小或結(jié)果的重要性。再微小的效應(yīng),當(dāng)樣本量足夠大或測(cè)量精度足夠高時(shí),都能獲得較小的P值;反之再大的效應(yīng)在樣本量不足或測(cè)量精度不高時(shí),其P值也會(huì)很大。(6)P值本身并不是衡量一個(gè)模型或假說(shuō)的標(biāo)準(zhǔn)。數(shù)據(jù)分析時(shí)不能僅計(jì)算P值,而應(yīng)同時(shí)采用其他適合的或可行性更高的方法。該聲明盡管并沒(méi)有超越既往P值的學(xué)術(shù)內(nèi)涵,但ASA從本質(zhì)上全面透徹地梳理了統(tǒng)計(jì)界關(guān)于P值的統(tǒng)計(jì)意義并形成共識(shí),所有科研人員、統(tǒng)計(jì)學(xué)人員、以及與統(tǒng)計(jì)學(xué)應(yīng)用相關(guān)的人員都應(yīng)該了解這份共識(shí)。
僅僅基于P值做結(jié)論推斷過(guò)于簡(jiǎn)單,還必須關(guān)注與P值相關(guān)的其他事項(xiàng)。2016年9月《NEJM》雜志刊登了Pocock和Stone聯(lián)手發(fā)表的兩篇重磅論文,《The Primary outcome fails—what next?》[11]和《The Primary outcome is Positive-Is that good enough?》[12]。兩篇文章深度詮釋了當(dāng)主要結(jié)局的P值有統(tǒng)計(jì)學(xué)意義和無(wú)統(tǒng)計(jì)學(xué)意義時(shí),該如何解讀和進(jìn)一步分析試驗(yàn)結(jié)果。
主要結(jié)局陰性結(jié)果的解讀 如果試驗(yàn)主要結(jié)局(Primary outcome)的P>0.05,則無(wú)統(tǒng)計(jì)學(xué)意義,可以考慮從以下12個(gè)方面進(jìn)一步探討:(1)是否有其他的獲益?如TORCH臨床試驗(yàn)[13],沙美特羅聯(lián)合氟替卡松與安慰劑對(duì)照治療慢性阻塞性肺病,其主要結(jié)局全因死亡的P值為0.052,而其他結(jié)局指標(biāo)均有統(tǒng)計(jì)學(xué)意義,這樣的結(jié)果值得更積極地解讀,而不僅僅是簡(jiǎn)單的“陰性結(jié)果”。(2)試驗(yàn)的把握度(power)是否足夠?本來(lái)有差異的處理效應(yīng)因樣本量不足而未被發(fā)現(xiàn),這樣的試驗(yàn)結(jié)果應(yīng)解讀為把握度不足,目前尚無(wú)法獲得結(jié)論而不是陰性結(jié)論。(3)主要結(jié)局是否合適(或是否定義明確)?試驗(yàn)的成功與否很大程度上取決于指標(biāo)的定義和判定方法。有時(shí)候復(fù)合指標(biāo)(Composite outcome)盡管可以增加主要終點(diǎn)事件的數(shù)目,但是不一定能夠增加試驗(yàn)的效能。(4)研究人群是否合適?當(dāng)試驗(yàn)失敗時(shí)更傾向于質(zhì)疑是否入組了不合適的研究人群。依據(jù)研究結(jié)局的發(fā)生機(jī)制和前期研究來(lái)確定合適的受試人群是成功的關(guān)鍵。(5)治療方案是否合適?關(guān)鍵試驗(yàn)(pivotal trial)中確定新藥的劑量非常困難,為使風(fēng)險(xiǎn)最小化,一般設(shè)計(jì)三組,分別是對(duì)照組和新藥的兩種劑量組。(6)試驗(yàn)執(zhí)行過(guò)程中有何不足?如果方案執(zhí)行很差,會(huì)導(dǎo)致處理效應(yīng)被弱化或者消失。(7)非劣效界值(noninferiority margin)是否明確?治療組與陽(yáng)性對(duì)照相比未獲得優(yōu)效結(jié)論時(shí),是否可以得出非劣效結(jié)論?如果治療組有其他優(yōu)勢(shì),比如傷害更小、副作用更少,是可以考慮作非劣效判定的,關(guān)鍵是要在研究設(shè)計(jì)階段事先聲明并定義好非劣效假設(shè)。(8)亞組分析(subgroup analysis)是否有陽(yáng)性結(jié)果?主要結(jié)局無(wú)統(tǒng)計(jì)學(xué)意義則考慮做亞組分析,這樣的想法盡管常有誤導(dǎo)性,但有時(shí)對(duì)結(jié)果分析是有一定幫助的。當(dāng)然,即使亞組的交互作用有統(tǒng)計(jì)意義,至多對(duì)產(chǎn)生新的研究假說(shuō)有幫助,而不能做為定論。(9)次要結(jié)局(secondary outcome)是否有陽(yáng)性結(jié)果發(fā)現(xiàn)?主要結(jié)局陰性時(shí),可以依據(jù)陽(yáng)性的次要結(jié)局做假設(shè)推斷,雖然注冊(cè)機(jī)構(gòu)不會(huì)批準(zhǔn)該新藥,但次要結(jié)局的發(fā)現(xiàn)可以影響指導(dǎo)原則及實(shí)踐指南。(10)進(jìn)一步的其他分析方法是否有結(jié)果的改變?如協(xié)變量(covariate)調(diào)整、實(shí)際處理分析(as-treated analysis)或符合方案分析(per-protocol analysis)、復(fù)發(fā)事件(repeat events)分析等是否改變了當(dāng)前的結(jié)果。(11)是否存在其他研究證據(jù)?當(dāng)臨床試驗(yàn)效能足夠卻獲得意外的陰性結(jié)果,則需要仔細(xì)分析對(duì)比先前的其它類似試驗(yàn)研究結(jié)果以進(jìn)一步查找原因。(12)從作用機(jī)制上能否解釋治療組更優(yōu)?如果試驗(yàn)方法學(xué)無(wú)法解釋治療失敗的原因,可以試著從生物學(xué)機(jī)制角度去解釋。
主要結(jié)局陽(yáng)性結(jié)果的解讀 如果試驗(yàn)主要結(jié)局的P值小于0.05,表明有統(tǒng)計(jì)學(xué)意義,則可以考慮從以下11個(gè)方面進(jìn)一步探討:(1)P<0.05是否足夠?P=0.05表示有5%的可能出現(xiàn)假陽(yáng)性結(jié)果。如果試驗(yàn)想更加確信治療措施差異的存在,則P值應(yīng)該更小,如P<0.001。(2)治療獲益的臨床意義?除了要有統(tǒng)計(jì)學(xué)意義,處理效應(yīng)也要有臨床意義,這取決于處理效應(yīng)的相對(duì)指標(biāo)(如風(fēng)險(xiǎn)比HR)或絕對(duì)指標(biāo)(如率差)的大小,此外,還應(yīng)提供相應(yīng)的95%可信區(qū)間。(3)主要結(jié)局在臨床上是否重要?臨床試驗(yàn)中常使用替代指標(biāo)和復(fù)合指標(biāo)作為主要結(jié)局,但卻不能完全等同于硬終點(diǎn)(如死亡、心腦血管事件等)。已有使用替代指標(biāo)(surrogate outcome)的大規(guī)模臨床試驗(yàn)的結(jié)果遭到質(zhì)疑,如ACCORD試驗(yàn)[14]。而使用復(fù)合指標(biāo)時(shí)則有必要查明是其中哪些指標(biāo)導(dǎo)致了陽(yáng)性結(jié)果,這樣更有利于對(duì)結(jié)果的細(xì)化解讀。(4)次要結(jié)局的結(jié)論與主要結(jié)局是否一致?若次要結(jié)局也顯示陽(yáng)性結(jié)果,則會(huì)使試驗(yàn)的陽(yáng)性結(jié)論更加確信。(5)亞組分析結(jié)論是否一致?治療效應(yīng)會(huì)因人群特征的不同而不同。一種情況是所有亞組的結(jié)論都和總的結(jié)論一致,而在某特定亞組治療獲益更大,另外一種較為棘手的情況是總的結(jié)論陽(yáng)性而亞組分析是陰性的,而這種陰性結(jié)果也許是因?yàn)檫M(jìn)行了多次亞組分析而出現(xiàn)的錯(cuò)誤結(jié)果。然而,是否應(yīng)禁止這樣的亞組人群使用該治療實(shí)難抉擇,需要從統(tǒng)計(jì)交互作用(Interaction)及生物學(xué)合理性等方面進(jìn)行具體分析。(6)試驗(yàn)樣本量是否足夠大?小樣本試驗(yàn)獲得陽(yáng)性結(jié)果時(shí),下結(jié)論需當(dāng)心,因其效能不足,可能是治療效應(yīng)的夸大而出現(xiàn)的假陽(yáng)性結(jié)果。(7)試驗(yàn)是否提前終止?部分試驗(yàn)由于中期分析顯示治療優(yōu)效而提前終止,提前終止有夸大試驗(yàn)結(jié)果的風(fēng)險(xiǎn),此外還可能導(dǎo)致次要結(jié)局和安全終點(diǎn)無(wú)法獲得。因此,提前終止試驗(yàn)需謹(jǐn)慎而為。(8)安全性如何?當(dāng)一個(gè)新的治療方案顯示優(yōu)效時(shí),必須要關(guān)心安全性問(wèn)題。安全性和療效結(jié)果都要提供。結(jié)果解讀時(shí)也應(yīng)綜合分析治療方案的療效和安全性,兩者間需充分權(quán)衡。(9)療效和安全性是否有患者人群特異性?即應(yīng)當(dāng)盡可能識(shí)別出不同類型患者人群療效-安全性關(guān)系??赏ㄟ^(guò)統(tǒng)計(jì)模型預(yù)測(cè)病人的療效和安全性事件發(fā)生風(fēng)險(xiǎn),分析其利弊。(10)試驗(yàn)在設(shè)計(jì)和執(zhí)行方面是否有缺陷?主要結(jié)局具有高度顯著性的優(yōu)效結(jié)果因偶然性出現(xiàn)的可能性較小,但是要排除設(shè)計(jì)和執(zhí)行方面的缺陷。(11)研究結(jié)果是否可應(yīng)用到所有患者?任何臨床試驗(yàn)均是將特定的治療應(yīng)用于特定的受試者,需客觀分析這樣的結(jié)果能否推廣到臨床應(yīng)用中。試驗(yàn)進(jìn)行的地域是影響結(jié)果推廣的因素之一,同時(shí),遺傳、生理結(jié)構(gòu)、環(huán)境和飲食結(jié)構(gòu)的差別也都是影響結(jié)果推廣的因素。此外,單中心臨床試驗(yàn)因其特定的護(hù)理及治療背景,所得出的結(jié)論應(yīng)用于修改臨床指南時(shí)應(yīng)慎重,還要有多中心臨床試驗(yàn)的驗(yàn)證。
在對(duì)上述內(nèi)容學(xué)習(xí)體會(huì)的基礎(chǔ)上,我們選取NEJM雜志上發(fā)表的兩篇隨機(jī)對(duì)照臨床試驗(yàn)(randomized clinical trial,RCT)研究為例,分別對(duì)主要結(jié)局的P值結(jié)果為陰性和陽(yáng)性的情形進(jìn)行實(shí)例解讀。
STOP-IgAN研究—主要結(jié)局陰性的結(jié)果解讀 STOP-IgAN研究[15]是前瞻、開放、隨機(jī)對(duì)照試驗(yàn),目的是比較強(qiáng)化支持治療與強(qiáng)化支持治療聯(lián)合免疫抑制劑方案對(duì)進(jìn)展性IgAN的療效。符合條件的患者經(jīng)過(guò)6個(gè)月的強(qiáng)化支持治療后,蛋白尿在0.75~3.5 g/d之間且合并高血壓或腎功能下降的患者隨機(jī)分配至強(qiáng)化支持治療組和強(qiáng)化支持治療聯(lián)合免疫抑制劑組。該試驗(yàn)有兩個(gè)主要結(jié)局,分別是達(dá)到臨床完全緩解和GFR較基線下降15 ml/(min·1.73m2)以上的比例。全分析集(full-analysis set)結(jié)果顯示強(qiáng)化支持治療聯(lián)合免疫抑制劑組的完全臨床緩解與強(qiáng)化支持治療組相比,其OR值為4.82,95%CI(1.43~16.3),P=0.01;而兩組GFR下降>15 ml/(min·1.73m2)的OR值為0.89,95%CI(0.44~1.81),P=0.75。盡管免疫抑制劑治療可提高臨床完全緩解率,但試驗(yàn)的總結(jié)論為免疫抑制劑治療對(duì)腎功能無(wú)保護(hù)作用。作為主要結(jié)局指標(biāo)之一,該研究在討論eGFR下降>15 ml/(min·1.73m2)獲得的陰性結(jié)果時(shí),從以下幾方面進(jìn)行:(1)兩組eGFR的絕對(duì)差值未提示有潛在治療獲益趨勢(shì);(2)兩組均有超過(guò)25%的人到達(dá)終點(diǎn),把握度不足的可能性較小;(3)關(guān)于eGFR下降>15 ml/(min·1.73m2)終點(diǎn)定義的討論,監(jiān)管當(dāng)局采用eGFR下降50%作為終點(diǎn)指標(biāo),最近也有研究指出eGFR下降30%是有效的替代終點(diǎn);(4)研究設(shè)計(jì)包括了篩選期,篩選了同質(zhì)、高風(fēng)險(xiǎn)研究人群;(5)治療方案符合KDIGO指導(dǎo)原則;(6)其他與eGFR有關(guān)的次要結(jié)局也均無(wú)統(tǒng)計(jì)學(xué)差異;(7)分析采用校正了基線eGFR和蛋白尿的多因素logistic分析,此外,可獲得病例分析(available-case analysis )也未顯示eGFR的指標(biāo)兩組差別有統(tǒng)計(jì)學(xué)意義。文章的這7點(diǎn)討論內(nèi)容分別對(duì)應(yīng)主要結(jié)局陰性結(jié)果解讀12條的條目1-5、9、10。盡管沒(méi)有面面俱到,但確實(shí)為該指標(biāo)出現(xiàn)的陰性結(jié)果提供了充分而客觀的辯護(hù),體現(xiàn)了對(duì)臨床試驗(yàn)實(shí)際結(jié)果的尊重。當(dāng)然,該文能基于陰性結(jié)果解讀12條進(jìn)一步細(xì)化分析,其質(zhì)量將更加完美。事實(shí)上,在針對(duì)這篇文章的通信中[16],有學(xué)者認(rèn)為此研究設(shè)計(jì)的隨訪時(shí)間應(yīng)該更長(zhǎng),研究應(yīng)該采用終末期腎病這樣的臨床硬終點(diǎn)。此外,Pozzi[17]認(rèn)為該研究應(yīng)該對(duì)腎臟的組織形態(tài)學(xué)進(jìn)行評(píng)估,因已發(fā)表的IgAN牛津分型顯示組織學(xué)病變對(duì)腎臟生存和治療效果存在一定的影響,研究應(yīng)增加多因素分析以探討預(yù)后的影響因素。
SPRINT研究—主要結(jié)局陽(yáng)性的結(jié)果解讀 SPRINT研究[18]旨在驗(yàn)證強(qiáng)化降壓策略是否有更多心血管獲益,其納入年齡≥50歲,基線收縮壓≥130 mmHg,且至少存在一個(gè)心血管風(fēng)險(xiǎn)事件影響因素的受試者,隨機(jī)分配至強(qiáng)化降壓組(<120 mmHg)或標(biāo)準(zhǔn)降壓組(<140 mmHg),主要結(jié)局為復(fù)合終點(diǎn)(心肌梗死、心力衰竭、卒中、急性冠脈綜合征、心血管死亡),兩組的HR為0.75,95%CI(0.64~0.89),P<0.001,結(jié)果表明強(qiáng)化降壓與標(biāo)準(zhǔn)降壓相比,可使患者的心血管事件風(fēng)險(xiǎn)降低25%,其發(fā)表引起了廣泛的關(guān)注。對(duì)于如此陽(yáng)性結(jié)果,研究又是如何解讀的呢?(1)主要結(jié)局的P<0.001;(2)次要結(jié)局心力衰竭、心血管死亡、全因死亡,強(qiáng)化降壓組均低于標(biāo)準(zhǔn)降壓組;(3)預(yù)先設(shè)定的亞組分析結(jié)論與總體分析結(jié)論一致;(4)樣本量足夠大;(5)研究強(qiáng)化降壓組獲益顯著,故提前終止試驗(yàn);(6)強(qiáng)化降壓組低血壓、暈厥、電解質(zhì)異常與急性腎損傷或衰竭相關(guān)不良反應(yīng)發(fā)生更為常見(jiàn),對(duì)待強(qiáng)化降壓帶來(lái)的心血管和死亡方面的獲益和不良反應(yīng)需要權(quán)衡;(7)研究人群缺乏普遍性,研究剔除了糖尿病、既往卒中或年齡<50歲的人群。文章這7點(diǎn)的討論內(nèi)容分別對(duì)應(yīng)主要結(jié)局陽(yáng)性結(jié)果解讀11條的條目1、4~8、11。Pocock等[12]在其文章中也引用該研究作為提前終止、獲益與風(fēng)險(xiǎn)評(píng)價(jià)、研究普遍性這三點(diǎn)的典型案例。在針對(duì)這篇文章的通信中[19],也有學(xué)者指出研究采用的電子血壓計(jì)讀數(shù)會(huì)低于人工聽診法約8 mmHg,且研究顯示對(duì)于75歲以上的老人可能獲益更大?;蛟S人們會(huì)滿足于臨床試驗(yàn)主要結(jié)局出現(xiàn)的陽(yáng)性結(jié)果,而忽視了對(duì)結(jié)果的客觀解讀,甚至過(guò)度夸大和迷信“陽(yáng)性結(jié)果”,這是應(yīng)力求避免的。陽(yáng)性結(jié)果解讀11條的提出促使人們必須對(duì)科學(xué)結(jié)論進(jìn)行冷靜的思考。
現(xiàn)階段,統(tǒng)計(jì)學(xué)作為重要的分析手段已被廣大研究者所認(rèn)同,而P值因易于計(jì)算及詞約指明,成為判斷研究結(jié)果的“金標(biāo)準(zhǔn)”,在生物醫(yī)學(xué)研究中被廣泛使用及被過(guò)度依賴。2016年《美國(guó)醫(yī)學(xué)會(huì)雜志》(The Journal of the American Medical Association,JAMA)刊登了《Evolution of reportingPvalues in the biomedical literature,1990-2015》[20-21],總結(jié)了1990年至2015年數(shù)百萬(wàn)篇生物醫(yī)學(xué)文獻(xiàn)P值的報(bào)道頻率,發(fā)現(xiàn)摘要中P值報(bào)道頻率呈逐年上升趨勢(shì),由7.3%升至15.6%,遺憾的是大多數(shù)文章在報(bào)道P值時(shí)沒(méi)有同時(shí)報(bào)道處理效應(yīng)的可信區(qū)間。我國(guó)的P值使用現(xiàn)狀也不容樂(lè)觀。我們檢索統(tǒng)計(jì)了2014年~2016年在中文核心期刊上發(fā)表的61篇RCT研究,研究結(jié)果均以0.05為檢驗(yàn)水準(zhǔn),除了6篇非劣效臨床試驗(yàn)提供了P值和處理效應(yīng)的可信區(qū)間外,其他55篇RCT均以P值大小做結(jié)論推斷,未提供處理效應(yīng)的可信區(qū)間。在統(tǒng)計(jì)分析中,報(bào)告P值同時(shí)給出處理效應(yīng)可信區(qū)間所提供的統(tǒng)計(jì)信息更完整,也更有利于結(jié)果的定量客觀解讀,因此呼聲越來(lái)越高,理應(yīng)成為報(bào)告科學(xué)結(jié)果的一條準(zhǔn)則,而不是僅僅報(bào)告P值。在基于P值的結(jié)論推斷中,需視具體結(jié)果結(jié)合Pocock等[11-12]總結(jié)的建議進(jìn)行全面地、透徹地分析。
綜上所述,P值提供的信息有限,當(dāng)有其他適宜的方法(如計(jì)算可信區(qū)間)時(shí),數(shù)據(jù)分析不可止于一個(gè)P值的計(jì)算。將數(shù)據(jù)分析或科學(xué)推斷簡(jiǎn)化為一個(gè)標(biāo)準(zhǔn)(如P<0.05)是非常錯(cuò)誤的決策。臨床試驗(yàn)在獲得主要療效P值后,絕不可輕易做陽(yáng)性或陰性的決斷結(jié)論,需要結(jié)合研究背景、研究設(shè)計(jì)、研究實(shí)施、多種數(shù)據(jù)分析結(jié)果做綜合的科學(xué)推斷,沒(méi)有任何單一的指標(biāo)可以取代科學(xué)推理。
(衷心感謝劉志紅院士對(duì)于本文的推薦和指導(dǎo),也非常感謝侯金花醫(yī)生對(duì)STOP-IgAN研究和SPRINT研究進(jìn)行專業(yè)翻譯給予的幫助)
1 Goodman SN.pvalues,hypothesis tests,and likelihood:implications for epidemiology of a neglected historical debate.Am J Epidemiol,1993,137(5):485-496.
2 Goodman SN.Toward evidence-based medical statistics.1:The P value fallacy.Ann Intern Med,1999,130(12):995-1004.
3 Goodman S.A dirty dozen:twelve p-value misconceptions.Semin Hematol,2008,45(3):135-140.
4 Stang A,Poole C,Kuss O.The ongoing tyranny of statistical significance testing in biomedical research.Eur J Epidemiol,2010,25(4):225-230.
5 Rosendaal FR.The p-value:A clinician's disease? Eur J Intern Med,2016,35:20-23.
6 Fisher RA.Statistical Methods for Research Workers,Oliver and Boyd,1925.
7 Fisher RA.Statistical Methods and Scientific Inference,2nd ed,Hafner,1959.
8 Halsey LG,Curran-Everett D,Vowler SL,et al.The fickle P value generates irreproducible results.Nat Methods,2015,12(3):179-185.
9 Nuzzo R.Scientific Method:Statistical Errors.Nature,2014,506 (7487):150-152.
10 Number crunch.Nature,2014,506 (7487):131-132.
11 Pocock SJ,Stone GW.The primary outcome fails—What next? N Engl J Med,2016,375(9):861-870.
12 Pocock SJ,Stone GW.The primary outcome is positive—Is that good enough? N Engl J Med,2016,375(10):971-979.
13 Calverley PM,Anderson JA,Celli B,et al.Salmeterol and fluticasone propionate and survival in chronic obstructive pulmonary disease.N Engl J Med,2007,356(8):775-789.
14 The action to Control Cardiovascular Risk in Diabetes Study Group.Effects of intensive glucose lowering in type 2 diabetes.N Engl J Med,2008,358(24):2545-2559.
15 Rauen T,Eitner F,Fitzner C,et al.Intensive Supportive Care plus Immunosuppression in IgA Nephropathy.N Engl J Med,2015,373(23):2225-2236.
16 Correspondence:Intensive supportive care plus immunosuppression in IgA nephropathy.N Engl J Med,2016,374(10):991-993.
17 Pozzi C.Pro:STOP immunosuppression in IgA nephropathy? Nephrol Dial Transplant,2016,31(11):1766-1770.
18 The SPRINT Research Group.A Randomized Trial of Intensive versus Standard Blood-Pressure Control.N Engl J Med,2015,373(22):2103-2116.
19 Correspondence:A Randomized Trial of Intensive versus Standard Blood-Pressure Control.N Engl J Med,2016,374(23):2290-2295.
20 Chavalarias D,Wallach JD,Li AH,et al.Evolution of Reporting P Values in the Biomedical Literature,1990-2015.JAMA,2016 ,315(11):1141-1148.
21 Kyriacou DN .The Enduring Evolution of the P Value.JAMA.2016,315 (11):1113-1115.
(本文編輯 可 可)
Interpretation ofPvalue in clinical trials
ZHOUMinlin1,LIUYuxiu2
1NationalClinicalResearchCenterofKidneyDisease,JinlingHospital,NanjingUniversitySchoolofMedicine,Nanjing210016,China2DepartmentofMedicalStatistics,JinlingHospital,NanjingUniversitySchoolofMedicine,Nanjing210016,China
Pvalue is the most widely used statistical concept in the biomedical study, especially in the clinical trials, but there are controversies over its utility. In this review, we will introduce the American Statistical Association Statement onPvalues; in addition, we will summarize the interpretation ofPvalue for the primary outcome achieved in the clinical trials by using STOP-IgAN and SPRINT clinical trials as examples. The purpose of this review is to facilitate a more balanced interpretation ofPvalue, a more qualified clinical trial report and the scientific conclusion process.
Pvalue statistical significance clinical trial
10.3969/cndt.j.issn.1006-298X.2017.02.015
國(guó)家自然科學(xué)基金(81473066);江蘇省科技計(jì)劃項(xiàng)目(BE2016747)
1南京軍區(qū)南京總醫(yī)院腎臟科 國(guó)家腎臟疾病臨床醫(yī)學(xué)研究中心 全軍腎臟病研究所(南京,210016),2醫(yī)學(xué)統(tǒng)計(jì)學(xué)教研室
2017-01-05