臨床試驗根據(jù)研究目的不同可分為“探索性臨床試驗”和“確證性臨床試驗”,而臨床研究結(jié)論通常需要根據(jù)確證性臨床試驗的統(tǒng)計推斷結(jié)果得到。如果某一確證性臨床試驗需要對多個檢驗假設做出統(tǒng)計學推斷,例如多個主要療效指標的多重檢驗、多組間多重比較、多個時間點的期中分析(interim analysis)等情況下,便會涉及多重性(multiplicity)問題。無須考慮多重性問題的臨床試驗一般限于下列情況:即單臂或雙臂設計、使用單個主要指標、事先只指定了一個與主要指標相關的原假設且在一個時間點上進行統(tǒng)計推斷。除此以外的其他情況理論上都應考慮多重性問題。在一個假設檢驗中,錯誤地拒絕原假設稱為I類錯誤(type I error),I類錯誤概率通常用α表示。若進行統(tǒng)計推斷時遇到多重性問題但未經(jīng)妥善處理,則會導致I類錯誤增大。對確證性臨床試驗進行評價時,將I類錯誤控制在可接受的α水平上是一個重要的原則。所以在制定研究方案和進行統(tǒng)計分析時應慎重考慮統(tǒng)計推斷的多重性及相關問題。多重性問題的定義、統(tǒng)計推斷的原則以及控制I類錯誤的方法等關鍵點需在方案中事先詳細闡述。
I類錯誤的增大,會導致將一個無效或劣效的藥物有更大的機會推向市場,其后果是災難性的。例如,在一項確證性臨床試驗中,設定了4項主要療效指標,如果從這4個指標的統(tǒng)計分析結(jié)果中選擇P值最小者來判斷療效,若每次假設檢驗均為單側(cè)0.025的檢驗水平,那么4次檢驗至少出現(xiàn)1次假陽性結(jié)論的概率最高可接近10%(即1-0.9754),而不是研究者假定的2.5%。像這樣在確證性研究中試圖從多個檢驗結(jié)果中僅選擇有利的部分結(jié)果,將大大增加發(fā)生假陽性錯誤的機會。因此,針對多重性問題就需要在方案設計時制定出有效的策略和方法來事先控制I類錯誤。
假設同一項研究中的m個假設檢驗結(jié)果如表1所示。
表1 多重檢驗的結(jié)果
其中R是可觀察到的隨機變量,S、T、U、V均無法觀察到,m和m0是固定數(shù)值,但m0大小未知。
將多個假設檢驗看做一個整體,其中至少有一次錯誤拒絕原假設,就會導致錯誤的決策,這一錯誤的概率稱為總I類錯誤率(family-wise error rate,F(xiàn)WER):
FWER=P(V>0)
即m次檢驗中至少發(fā)生一次I類錯誤的概率。在確證性臨床試驗中所指的“控制I類錯誤”發(fā)生率,是強控制(in the strong sense)總I類錯誤率FWER,即在同一問題的多個假設檢驗中,應控制至少一個真的原假設被拒絕的概率在通??山邮艿哪硞€α水平即αFWER上,而不論多次檢驗中的哪個或哪些原假設為真;相應地在所有原假設為真的條件下控制總I類錯誤率FWER則屬于弱控制(in the weak sense)。
強控制FWER常常意味著事先對αFWER進行分配,不同的原假設須在其分配所得到的校正后檢驗水平上進行檢驗。采用何種分配αFWER的算法視具體問題而定,相應的理論有簡有繁,不同的選擇可能會得出不同的結(jié)論,因此,必須在試驗設計時事先指定校正方法,包括是否需要進行多重性校正的考慮,并詳細介紹具體校正步驟。如果出現(xiàn)非預見的多重性問題,就必須使用保守的方法,例如Bonferroni法,當然此時會降低把握度。
1.一般原則
(1)并-交檢驗與交-并檢驗
并-交檢驗(UIT,union-intersection test)意為:若對應于m次檢驗的基本原假設為H1,H2,…,Hm,相應備擇假設表示為 K1,K2,…,Km。并-交檢驗是把上述各基本假設的交集HI作為全局的原假設,而把上述各備擇假設的并集KU作為全局的備擇假設,即檢驗:
并-交檢驗中,只要有一次檢驗有統(tǒng)計學意義即可拒絕全局HI,故需要調(diào)整每次檢驗的水準以控制總I類錯誤。如果對某種疾病療效的評價涉及多個方面問題,根據(jù)其中一個或多個(但不是全部)方面問題上的有利證據(jù)即可判定為藥物開發(fā)成功,這樣就可能帶來從多重分析中選擇有利結(jié)果的機會,需采用并-交檢驗考慮控制FWER的方法。
而交-并檢驗(IUT,intersection-union test)所定義的全局原假設HU是各基本原假設的并集,全局備擇假設KI定義為各備擇假設的交集,即檢驗:
交-并檢驗中當每個假設Hi均被拒絕時,才可拒絕全局原假設HU。如果一項臨床試驗中所有的多個主要指標同時都需要有統(tǒng)計學意義才可認為療效有臨床意義,則需采用交-并檢驗。例如預防宮頸癌有針對HPV(人乳頭狀瘤病毒)16、18、6、11 型的四價疫苗,其療效評價指標是針對上述四種分型來評價其各自免疫原性的抗體滴度。無論哪一個分型的免疫原性沒有統(tǒng)計學意義,原假設HU就不被拒絕(疫苗的有效性就不會被法規(guī)部門認可),或者說只有四個指標均有統(tǒng)計學意義時才可拒絕原假設,此時由于沒有機會選擇四項指標中最有利的單次假設檢驗結(jié)果,因此無需進行多重性校正。
實際工作中的多重檢驗往往是并-交檢驗、交-并檢驗或其組合。圖1、圖2分別為二者的示意圖,其拒絕全局原假設的條件非常類似于物理學上的并聯(lián)和串聯(lián)電路。
圖1 并-交檢驗
圖2 交-并檢驗
(2)閉合原理與分割原理
如何確定前述并-交檢驗拒絕HI時哪個(些)基本原假設不成立,可采用閉合原理(closure principle)構(gòu)建逐步法來進行分析。1976年Marcus等人提出的這種多重檢驗構(gòu)造方法,能靈活地把各種研究目的之間的關系和重要性綜合反映到一個恰當?shù)亩嘀貦z驗步驟中,基于此原理構(gòu)造出的多重比較方法稱為閉合檢驗(closed test procedures)。很多常見的多重比較方法實際上都可視為某種閉合檢驗,如Holm、Shaffer、固定順序檢驗法等。閉合原理的缺點是難以構(gòu)造相應參數(shù)的聯(lián)合可信區(qū)間。
例如以下的最簡單情形:兩個主要指標在兩組間比較,設 θi=μiT- μiC為感興趣參數(shù),i=1,2 分別表示兩個指標,μt、μc分別表示處理組與對照組的總體均數(shù)。這里的基本原假設為 Hi:θi≤0,i=1,2。如果采用Bonferroni檢驗,為把總I類錯誤率控制在α水平,可對每個基本原假設Hi在α/2水平進行檢驗。但運用閉合原理即可以得到把握度高于Bonferroni的檢驗。形式上可以把Hi看作要進行推斷的參數(shù)空間的子集。令Θ=?2表示具有參數(shù)θ=(θ1,θ2)∈Θ的參數(shù)空間。圖3顯示原假設Hi={θ∈?2:θi≤0},i=1,2是實平面(參數(shù)空間)的子集。顯然,兩個基本原假設H1和H2相交,兩者的交集為H12=H1∩H2={θ∈?2:θ1≤0,θ2≤0},就是圖 3中的第 3象限。檢驗交集H12需要多重性調(diào)整。假如考慮采用Bonferroni檢驗來調(diào)整,這個方法實際上是在α/2水平檢驗整個并集H1∪H2,而不僅僅是檢驗交集H12。圖3也表明剩下的2、4象限部分均能在α水平進行檢驗,不需要進行進一步的多重性調(diào)整。由此得到如下自然的檢驗策略:首先采用適當?shù)牟?交檢驗以檢驗交集H12,如果H12在第一步?jīng)]有被拒絕,則無需對H1或H2作進一步檢驗即可認為H1和H2均不能被拒絕;如果H12有意義,那么繼續(xù)在全局α水平檢驗H1和H2,當且僅當H1和H12均在(局部)α水平被拒絕,才可認為H1可被拒絕,對H2亦然。
圖3 參數(shù)空間?2中兩個假設H1和H2及其交集H12
對于更一般的情況,閉合檢驗也同樣首先對基本假設Hi的所有交集采用適當?shù)男U龣z驗水平進行并-交檢驗,當且僅當包含基本假設Hi的所有交集有統(tǒng)計學意義時再逐級向上直至最后對基本假設Hi采用全局α作檢驗,若包含基本假設Hi的交集在校正的檢驗水平上無統(tǒng)計學意義,則無需對含有Hi的假設做進一步檢驗。
分割原理(partitioning principle)最先由Finner和Strassburger(2002)正式提出,基本想法是把感興趣的參數(shù)所對應的基本假設Hi的并集分割成不相交的若干個參數(shù)空間的子集,由于這些子集互不相交,所以其中最多只有一個子集對應的假設為真,這樣對每個子集的檢驗只需在α水平上進行即可控制FWER。其優(yōu)點是可構(gòu)造出比閉合檢驗把握度更高的方法且便于得到相應參數(shù)的聯(lián)合可信區(qū)間。
仍以兩指標兩組比較為例,令 θi=μiT- μiC,i=1,2為感興趣的參數(shù),再令Θ=?2表示具有參數(shù)θ=(θ1,θ2)∈Θ 的參數(shù)空間?;驹僭O為 Hi={θ∈?2:θi≤0},i=1,2。Ki表示相應的備擇假設。圖 3顯示基本原假設H1和H2是實平面(參數(shù)空間)的子集?,F(xiàn)在把參數(shù)空間Θ分解為如下集合:Θ1=H1,Θ2=H2∩K1,Θ3=K1∩K2,見圖 4。因為 Θi,i=1,2,3 不相交,且Θ1∪Θ2∪Θ3=Θ,因此,它們構(gòu)成參數(shù)空間Θ的一個分割。這樣,真實的參數(shù)向量θ在且僅在互不相交的子集Θi中的某一個集合里。因此,對這些子集采用(局部)α水平檢驗就是一個多重檢驗,這個檢驗把總I類錯誤嚴格控制在了α水平。另外,參數(shù)向量θ的可信集就是被拒絕的假設的補集之交集。
圖4 兩個原假設H1和H2的分割原理
2.常見多重比較方法
根據(jù)對檢驗順序是否有要求,多重性校正方法可分為單步法和逐步法。單步法對每個檢驗是否拒絕原假設的結(jié)論均不依賴于其他各次檢驗,也就是說各個檢驗的順序并不重要,可同時進行所有的檢驗。例如Bonferroni和Dunnett檢驗。而逐步法是按照一定順序依次對相應原假設進行檢驗的,這些順序上的安排使得其中一些原假設被隱含在其他假設中,從而有可能進行一次檢驗就能對多個假設下結(jié)論。逐步法又分為向上法和向下法。向上法是從P值最大的假設開始檢驗,若結(jié)果無統(tǒng)計學意義,則對P值次大的假設進行檢驗,若結(jié)果有統(tǒng)計學意義,則宣布該假設及之后的所有假設均具有統(tǒng)計學意義,如Hochberg方法。向下法的檢驗順序則相反,它首先從P值最小的假設開始檢驗,若結(jié)果有統(tǒng)計學意義,則對P值次小的假設進行檢驗,若結(jié)果無統(tǒng)計學意義,則宣布該假設及之后的所有假設均具無統(tǒng)計學意義,如Holm方法。一般而言,單步法的把握度會低于相應逐步法,但前者的優(yōu)點是其聯(lián)合可信區(qū)間構(gòu)造相對簡單。
根據(jù)對分布假設的要求,多重性校正方法可分為3類:其一是基于P值的方法或非參數(shù)方法。這類方法不指定檢驗統(tǒng)計量的聯(lián)合分布,只依據(jù)單變量的P值來進行檢驗,如Bonferroni和Holm方法。在檢驗次數(shù)很多或檢驗統(tǒng)計量之間有很強的相關時這類方法把握度較低,結(jié)論偏保守。其二是參數(shù)方法,如指定了統(tǒng)計量服從多元正態(tài)分布或多元t分布時的Dunnett檢驗等。其三是基于再抽樣的方法,通常是通過bootstrap再抽樣法或permutation檢驗來近似統(tǒng)計量的聯(lián)合分布。后兩種方法在進行多重性校正時考慮了多個檢驗間的相關性。多個指標相互獨立時,F(xiàn)WER增大得最嚴重,相關性高,F(xiàn)WER增大程度減少。
為節(jié)省篇幅,將一些常見多重比較方法列于表2,有興趣的讀者可參閱相關文獻。
表2 常見的一些多重比較方法
以下主要針對多個主要療效指標和多組間比較的情況作一介紹,多個時間點的期中分析將作為專題另作討論。
1.多個主要指標
需要指出,當事先指定了一個主要指標和多個次要指標,且聲明所有次要指標屬于支持性證據(jù)的情況下,由于結(jié)果的判斷主要取決于單個主要指標,故不存在從多次比較中選擇有利結(jié)果的機會,不需要考慮多重性校正。
(1)所有的多個主要指標同樣都需要有統(tǒng)計學意義才可下推斷結(jié)論時,屬于交-并檢驗。此時由于沒有意圖或機會選擇最有利的某次假設檢驗結(jié)果,因此可設定每次檢驗的I類錯誤水平等于αFWER,無需進行多重性校正。但應注意此時會增大II類錯誤(錯誤地不拒絕至少1個原假設),在估算試驗的樣本量時應設定較高的把握度。把握度的損失除了與指標多少有關,還受到指標間相關性的影響。若相互獨立,其把握度為單個指標把握度的乘積,若完全相關且標準化的效應值相同(實際上很難發(fā)生),則不增大II類錯誤。
(2)假設有m≥2個主要指標,至少有一個達到有統(tǒng)計學意義即可認為藥物有效的情況下,由于存在從多次比較中選擇有利結(jié)果的機會,故需要考慮多重性校正來構(gòu)建并-交檢驗。如前述基于Bonferroni類和Simes類的各種方法。
(3)同一個試驗中多個療效指標可能具有不同的重要性,其中一個指標最為重要,而其他指標如果出現(xiàn)令人信服的結(jié)果也將明顯提升試驗品的價值。此時原假設可以按照分級的策略進行檢驗。分級的次序可以是自然的次序(例如假設按時間或指標的重要程度排序),也可以根據(jù)研究者具體的關注點。檢驗原假設的等級次序應當在方案中事先說明。如果多個主要指標存在上述層次結(jié)構(gòu)從而決定了其假設檢驗的順序,只有在位次靠前的檢驗有統(tǒng)計學意義時才可進行下一個檢驗,此時不需要校正I類錯誤,每次檢驗的水準均等于αFWER。這是由于每次檢驗的拒絕域總是落在上一次大小已設定為αFWER的拒絕域之內(nèi),故而這種固定順序的序貫檢驗的I類錯誤不會超過第一次檢驗所設定的αFWER,但是對應較低等級指標的假設檢驗的II類錯誤將增大。需要注意的是,一旦依次進行的某個原假設沒有被拒絕,該序貫檢驗終止,本次及之后的所有檢驗均認定為無統(tǒng)計學意義。例如E1、E2、E3三個指標依次被檢驗,指標E2沒有統(tǒng)計學意義,那么E2和E3所指向的臨床價值就不能被肯定(無論指標E3是否有統(tǒng)計學意義)。這一策略典型地體現(xiàn)于主要指標和次要指標共存時的假設檢驗,亦即當主要指標沒有統(tǒng)計學意義時就不能根據(jù)次要指標的檢驗結(jié)果推斷藥物療效。
(4)設有三個主要指標E1,E2和E3,當E1單獨有統(tǒng)計學意義或者E2和E3同時有統(tǒng)計學意義即可認為藥物有效。全局原假設可寫為HE1∩{HE2∪HE3}。這種情況下的原假設實際上是另外兩個原假設的交集,其一是E1無效,其二是E2和E3至少有一個無效。對這兩個原假設的交集可采用Bonferroni類方法來控制FWER,即首先在小一點的α1水平檢驗E1,之后再用剩余的α-α1水平檢驗E2和E3中的每一個。
(5)設有三個主要指標 E1,E2和 E3,當 E1和 E2同時有統(tǒng)計學意義或者E1和E3同時有統(tǒng)計學意義即可認為藥物有效。全局原假設可寫為{HE1∪HE2}∩{HE1∪HE3}。這種情況相當于(E1,E2)和(E1,E3)的交集作為了臨床決策依據(jù)。此時E1是臨床收益方面最有關的指標,但僅這一個指標尚不能足以說明臨床療效,還需要E2或E3中至少一個也有統(tǒng)計學意義。這樣E1和E2、E3的交集就存在一種分級次序:如果E1沒有被拒絕就無需檢驗E2和E3。故而可以首先對E1在整個α水平上作檢驗,如果被拒絕,接著再對E2和E3采用在α水平上控制FWER的方法做并-交檢驗。
2.多組比較
(1)多劑量組與對照組相比
若劑量組間無效應大小順序限制,可采用Dunnett及其逐步法;如劑量組間效應已確認有大小順序限制(如隨著劑量增加效應值單調(diào)上升),可采用固定順序的檢驗方法,此時無需調(diào)整I類錯誤。
(2)多個劑量組相比,無安慰劑和陽性對照
通常是由于倫理方面的考慮不設安慰劑且沒有合適的陽性藥物。高劑量組的耐受性和低劑量組的療效可能會不滿足要求,而某個較高劑量組可能安全有效??稍谌中约僭O檢驗的基礎上進行有I類錯誤控制的多重比較,如進行所有兩兩比較所采用的Shaffer方法等。
(3)試驗藥、陽性對照和安慰劑比較
當符合倫理要求時常常建議采用如下三個組的設計來證明新藥的療效和安全性:試驗藥、陽性對照和安慰劑。通常這種研究的目的有多個:①驗證試驗藥與安慰劑相比的優(yōu)效性(確證療效);②驗證陽性對照藥與安慰劑相比的優(yōu)效性(證明試驗的靈敏度);③驗證試驗藥非劣于陽性對照藥(證明非劣效性)。如果這三個目的要同時達到,即要求所有這3個假設檢驗都必須在所需的檢驗水平顯示有統(tǒng)計學意義,可進行交-并檢驗而不需要校正I類錯誤。此時,如果未能顯示試驗藥優(yōu)于安慰劑,就可解釋為試驗藥無效(當陽性對照藥優(yōu)于安慰劑時),或試驗缺乏靈敏度(當試驗藥和陽性對照藥未顯示優(yōu)于安慰劑)。
多個指標均有統(tǒng)計學意義時才能判斷藥物有效則通常進行交-并檢驗而不考慮對I類錯誤的校正,故而在多個指標均有統(tǒng)計學意義而其臨床意義并不是很明顯的時候常常會考慮將臨床上既往經(jīng)驗證握與治療效果有關的多個指標構(gòu)造成一個單獨的復合指標來避免多重性問題。復合指標的類型有2種。第一種即等級評定量表,它是由多個反應不同側(cè)面治療效果的臨床指標合并而產(chǎn)生。這種類型的復合指標在某些適應證(例如精神或神經(jīng)系統(tǒng)疾病)中有長期的使用經(jīng)驗。另一種類型的復合指標是在生存分析的背景下產(chǎn)生的??梢跃C合幾個事件來定義復合指標。定義復合指標最好是把所有較為重要的臨床事件都作為構(gòu)成指標。如果患者出現(xiàn)事先指定的構(gòu)成指標(例如死亡、或心肌梗死,或致殘性卒中)列表中的一個或多個事件,則認為患者有這種臨床結(jié)果。至出現(xiàn)結(jié)果的時間以患者隨機化至首次出現(xiàn)列表中事件的時間計算。通常,各構(gòu)成指標代表相對罕見的事件,并且單獨研究每個構(gòu)成指標需要非常大的樣本量。此時,使用復合指標旨在增加達到預期的事件數(shù),從而可以提高研究的把握度。除主要指標外建議還要分別分析單個構(gòu)成指標以提供支持性信息。當主要指標有統(tǒng)計學意義,則對單個構(gòu)成指標的檢驗無需進行多重性校正。如果宣稱的療效是基于復合指標中某個或某些成分時,則需事先定義這些成分并納入包括多重性考慮的確證性分析策略。
定義復合指標時,建議各構(gòu)成成分僅采用以同樣的方式受到預期治療影響的指標。所有構(gòu)成成分都應該能夠反應好的治療效果,或者臨床上更為重要的成分至少不能出現(xiàn)負面的療效,增加一個可以預見的對治療作用不敏感的構(gòu)成指標會導致變異性增大,其直接的后果將是降低靈敏度。非劣效性或等效性研究中也應避免指標的變異性增大。對于目的是為了證明優(yōu)效性的研究,首選較為一般性的構(gòu)成指標作為主要指標,因為這是最保守的分析。由于同樣原因,對于非劣效性/等效性試驗,首選更特殊的構(gòu)成指標(例如疾病相關的病死率)作為主要指標。
(1)是否有多個主要療效指標的情況進行統(tǒng)計推斷時就要進行多重性校正?
答:對多重性的考慮是必要的。但是否要進行多重性校正要視具體情況,例如如果多個指標同時有統(tǒng)計學意義才可以判斷試驗品有效,則無需進行多重性校正。
(2)是否多個劑量組比較就要考慮統(tǒng)計推斷時進行多重性校正?
答:對多重性的考慮是必要的。但是否要進行多重性校正要視具體情況,例如多個劑量組的劑量組間效應已確認有大小順序限制(如隨著劑量增加效應值單調(diào)上升),可采用固定順序的檢驗方法,此時無需調(diào)整I類錯誤。
(3)如何決定多個主要療效指標應采用并-交檢驗還是交-并檢驗?
答:單純的交-并檢驗不需要多重性校正,而并-交檢驗要考慮多重性校正,所以存在多個主要療效指標時確定哪種類型的檢驗較為重要。而檢驗類型的確定與試驗品本身的藥效特點有關,為明確檢驗類型,臨床專家在方案中要明確描述出多個指標同時有意義還是多個指標中任意幾個有意義或者多個指標的某幾種組合有意義表示試驗品有效,這樣才能明確定義出檢驗類型。
(4)同一指標在多個數(shù)據(jù)集中進行假設檢驗,是否要考慮多重性校正?
答:不需要考慮。對不同的個體分屬何種數(shù)據(jù)集(FAS或PPS)在研究方案和統(tǒng)計分析計劃中須明確定義,從中選擇一個(通常是FAS)作為主要的分析集。一般而言,對受試者不同子集進行多重分析是用于分析主要結(jié)論的敏感性,增加從主要分析集所得結(jié)果的可靠性,不需要校正I類錯誤。
(5)對于相同的數(shù)據(jù)集使用不同的統(tǒng)計學模型作多次檢驗是否需考慮多重性校正?
答:對于相同的數(shù)據(jù)集,有時會使用不同的統(tǒng)計學模型或2步法,目的是為了選擇恰當?shù)慕y(tǒng)計學方法,在第一個統(tǒng)計學檢驗結(jié)果的基礎上進行主要療效的比較(如首先在正態(tài)性檢驗的基礎上決定其后采用t檢驗或者秩和檢驗)。如果這些方法提供有明顯的機會,使得根據(jù)已知的患者治療分組情況可選擇有利于結(jié)論的分析策略時,則會立即產(chǎn)生對多重性的顧慮。雖然技術上而言對同一數(shù)據(jù)用不同的統(tǒng)計方法需要考慮分配總I類錯誤,但若基于正式的盲態(tài)核查(見ICH E9)而選擇的最終統(tǒng)計學模型則不會出現(xiàn)這些顧慮,而且主要的統(tǒng)計分析策略應在統(tǒng)計分析計劃中提前說明,并在隨機化治療分配信息公開之前確定。即使是使用了不同的統(tǒng)計方法,通常也是為說明研究的可靠性和結(jié)果的穩(wěn)健性。類似的問題可存在于協(xié)方差分析或其他多因素模型中,須納入模型的變量和分析策略需要在方案中事先說明才可用于療效的確證性研究。
(6)多個劑量組的設計,建立了劑量-反應關系,是否均需考慮多重性校正?
答:有時一項研究沒有足夠的把握度來發(fā)現(xiàn)和推薦單個有效和安全的劑量(或劑量范圍),但可以成功地確證總體上臨床作用與劑量增加呈正相關。此時可以按外推的方式將組間比較的估計值和可信區(qū)間用于設計將來的研究,或者分析目的是為了探索劑量-反應關系模型,在這種情況下,沒有必要調(diào)整I類錯誤。
(7)對實驗室安全性數(shù)據(jù)或不良反應的分析是否需要多重性校正?
答:安全性數(shù)據(jù)分析主要通過列表來進行描述,但如果某個安全性指標在整個研究中要作為確證性策略的一個部分,如欲聲稱所研究藥物可以增效減毒,那么此安全性指標就應和主要療效指標同樣對待,統(tǒng)計分析策略中應考慮所涉及的多重性問題。不良反應的分析中率差或風險比等描述嚴重性程度的指標,以及相應的可信區(qū)間,通常要比假設檢驗的P值更為重要,而且由于是否發(fā)生特定的不良反應是難以在制定方案時事先預設的,其假設檢驗也就難以事先明確定義,故而其重要性通常是依據(jù)已掌握的關于此藥物的藥理學知識來決定。同時,由于通常的研究設計(包括樣本量的估計)不是針對不良反應的,對不良反應進行統(tǒng)計學推斷的樣本量往往達不到一定的把握度,因此,其假設檢驗結(jié)果也只有參考價值。除非觀察某種不良反應是研究的主要目標,針對不良反應的假設檢驗無需調(diào)整檢驗水準。
(8)多次訪視的結(jié)果在不同時間點比較是否需要進行多重性校正?
答:在多次訪視時,由于對主要療效的評價通常是在事先指定的某個訪視點或按照方案中的治療終點進行,此時一般不考慮類似重復測量分析的潛在多重性問題。
(9)雙單側(cè)等效性檢驗是否應考慮多重性校正?
答:等效性檢驗是一種典型的交-并檢驗,因為只有兩次單側(cè)檢驗都具有統(tǒng)計學意義時才可以認為等效性結(jié)論成立,所以兩次單側(cè)檢驗都不需要校正檢驗水準。
(10)亞組分析是否應考慮多重性校正?
答:如果研究目的中特別聲稱特定亞組的治療作用,研究計劃中就要事先指定相應的原假設和妥善的確證性分析策略,其中包括對多重性問題的考慮。許多研究中,當達到主要目標后,亞組分析具有支持性或探索性目的,即證明顯著的總體臨床受益。當總的研究人群中療效未被證實,基于亞組分析的療效推斷結(jié)論被接受的可能性極小。需要注意的是,無計劃的亞組分析有時會形成錯誤的進一步研究假設;而無法事先明確假設檢驗的次數(shù)有時也難以控制總I類錯誤;使用隨機化之后測量的某個變量分組會形成不恰當?shù)膩喗M,例如這樣的亞組中排除了試驗失敗者。而恰當?shù)膩喗M是根據(jù)隨機化之前測量的基線指標形成,如人口學特征或預后有關變量等。事先的計劃是任何亞組分析的關鍵點。除了可能的多重性問題,方案中應當考慮到把握度,隨機化一般應當分層。
1.Committee for Proprietary Medicinal Products(CPMP).Points to Consider on Multiplicity issues in clinical trials.http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500003640.pdf
2.ICH.ICH Topic E9:Notes for Guidance on Statistical Principles for Clinical Trials,International Conference on Harmonization,London.http://www.emea.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500002928.pdf
3.Alex Dmitrienko,Ajit C.Tamhane,F(xiàn)rank Bretz.Multiple testing problems in pharmaceutical statistics.Chapman & Hall,CRC Press,2010.
4.Frank Bretz,Torsten Hothorn,Peter Westfall.Multiple comparisons using R.Chapman & Hall,CRC Press,2010.
5.Marcus R,Peritz E,Gabriel KR.On closed testing procedures with special reference to ordered analysis of variance.Biometrika,1976,63,655-660.
6.Finner H,Strassburger K.The partitioning principle:A powerful tool in multiple decision theory.The Annals of Statistics,2002,30:1194-1213.