成都醫(yī)學院公共衛(wèi)生學院(610500) 毛 昂 曾子倩 魏 敏 陳曉芳 陳衛(wèi)中
【提 要】 目的 比較Bootstrap法和Hodges-Lehmann法(H-L法)在中位數(shù)差值非劣效性檢驗中的特點,為相關(guān)研究中統(tǒng)計學方法的選擇提供依據(jù)。方法 以某臨床試驗中試驗組與對照組咽痛消失時間的比較為基礎(chǔ),通過計算機模擬生成單組樣本量分別為20、30、50、100、200各500個兩獨立樣本,分別服從參數(shù)為90h(試驗組)、100 h(對照組)的Poisson分布。針對每個樣本采用基于正態(tài)近似和百分位數(shù)的Bootstrap法、H-L法求得中位數(shù)差值的置信區(qū)間,并通過置信區(qū)間下限與非劣性界值進行比較,得出三種方法的檢驗效能。結(jié)果 三種方法均隨著樣本量增加,檢驗效能增加。在樣本量為20時,H-L法與正態(tài)近似法檢驗效能相當(25% vs.24%),且都高于百分位數(shù)法(19%)。在樣本量為30、50、100時,H-L法檢驗效能高于正態(tài)近似法與百分位數(shù)法,且正態(tài)近似法高于百分位數(shù)法。在樣本量為200時,三種方法的檢驗效能相當,均在95%以上。結(jié)論 整體來看,H-L法獲得的區(qū)間最窄且最穩(wěn)定,檢驗效能最高,尤其在樣本量不大時建議選擇H-L法。
非劣效性試驗(non-inferiority trials)被廣泛應(yīng)用于藥物臨床試驗研究。有關(guān)非劣效性檢驗的方法主要有假設(shè)檢驗法和區(qū)間檢驗法兩種[1]。目前針對定量資料均數(shù)非劣效性檢驗的方法較為成熟,如t檢驗法、均數(shù)差的置信區(qū)間法,以及基于模型邊緣均數(shù)置信區(qū)間法等[5]。但越來越多的臨床試驗中以某一臨床事件發(fā)生或達到預(yù)先規(guī)定標準的時間分布情況作為藥物的療效指標[2],其觀察結(jié)果多呈偏態(tài)分布,且存在不確切值為開口資料,采用中位時間作為療效描述和比較指標更為恰當[3-4]。針對中位數(shù)的非劣效性區(qū)間檢驗的主要有H-L法和Bootstrap法兩種,關(guān)于兩種方法在非劣效試驗中的檢驗效能比較報道較少。因此,本文以評價某醫(yī)藥公司生產(chǎn)的七味清咽氣霧劑咽痛緩解時間為例,比較上述兩種區(qū)間檢驗方法在不同樣本量下的檢驗效能,為相關(guān)研究中統(tǒng)計學方法的選擇提供依據(jù)。
1.對象
為評價某公司生產(chǎn)的七味清咽氣霧劑的有效性,以標準藥物作為對照,共納入280名受試對象,隨機等分為試驗組和對照組。以疼痛消失時間為有效性評價指標,在6天的臨床用藥觀察中,對于咽痛未消失患者的疼痛消失時間記為“>144h”,為典型的開口資料。試驗結(jié)果顯示對照組的咽痛消失時間的中位數(shù)為90h,試驗藥物組疼痛消失時間中位數(shù)為100h,非劣效性臨界值Δ設(shè)定為15h,即中位數(shù)差值>-15可做出試驗藥物非劣于標準藥物的結(jié)論。
2.方法
(1)數(shù)據(jù)分布及參數(shù)的選擇
本研究中,假定數(shù)據(jù)服從Poisson分布,即試驗組和對照組的結(jié)局變量X1、X2分別服從參數(shù)為1和2的Poisson分布,結(jié)合試驗結(jié)果記為X1~P(90),X2~P(100)。
(2)樣本量的確定
根據(jù)經(jīng)驗,結(jié)合臨床實際,模擬研究中單組樣本量分別設(shè)定為20、30、50、100和200,以考察不同樣本量下檢驗方法的表現(xiàn)與檢驗效能。
(3)Hodges-Lehmann法
(1)
(U(Cα),U[(n1×n2)+1-Cα])
(2)
其中Cα是一個小于等于置信區(qū)間下限的最大整數(shù),表達為:
(3)
(4)Bootstrap可信區(qū)間法
Bootstrap方法最早由美國斯坦福大學統(tǒng)計學教授Efron[9]在1979年提出的。本研究中,在每種樣本含量下通過數(shù)學模擬產(chǎn)生500個Poisson分布樣本,并對每個樣本進行有放回、且樣本量不變的重復(fù)抽樣,獲得500個Bootstrap樣本,計算得到其中位數(shù)差值的置信區(qū)間。其具體步驟為:
①計算Poisson分布樣本數(shù)據(jù)的中位數(shù)M1、M2及M1-M2;
②對兩樣本分別進行有放回樣本例數(shù)固定的Bootstrap抽樣,獲得用于計算標準差的Bootstrap樣本;
④重復(fù)②-③步驟500次,獲得500個Bootstrap樣本及500個中位數(shù)之差;
⑤置信區(qū)間計算方法:
L(M1-M2)B=(M1-M2)-ZαSE(M1-M2)B
(4)
b.Bootstrap百分位數(shù)法:用500個Bootstrap樣本獲得的500個中位數(shù)之差,并將中位數(shù)之差P2.5作為中位數(shù)之差的置信區(qū)間下限。
(5)檢驗結(jié)論及檢驗效能估計
(6)軟件實現(xiàn)過程
通過SAS 9.4進行數(shù)據(jù)模擬,并完成兩種中位數(shù)差值的置信區(qū)間檢驗方法在非劣效性試驗中的比較。非劣效性檢驗中檢驗水準α設(shè)定為0.025。
1.H-L法、正態(tài)近似法和百分位數(shù)法95%置信區(qū)間的比較
H-L法的95%置信區(qū)間明顯比正態(tài)近似法波動范圍小,置信區(qū)間的寬度也要小于正態(tài)近似法,且每種方法的置信區(qū)間都包含中位數(shù)真實差異10h。同時,各組樣本量上H-L法置信下限的標準差均小于Bootstrap正態(tài)近似法和百分位數(shù)法。具體見表1和圖1。
表1 H-L法、正態(tài)近似法和百分位數(shù)法中位數(shù)差值95%置信下限的比較
圖1 正態(tài)近似法和H-L法95%置信區(qū)間比較
2.三種方法的檢驗效能比較
三種方法的檢驗效能都隨著樣本增加而增加。在n=20時正態(tài)近似法和H-L法相當,但隨著樣本量的增大,H-L法均好于正態(tài)近似法和百分位數(shù)法。且在n≥100時,H-L法明顯好于正態(tài)近似法和百分位數(shù)法,而正態(tài)近似法和百分位數(shù)法相差不大。具體見表2和圖2。
表2 三種方法檢驗效能的比較[n(%)]
3.兩組受試者咽痛消失時間的比較
兩組受試者咽痛消失時間的比較中,三種檢驗方法的置信下限均大于非劣效性界值,均得出試驗藥非劣于對照藥的結(jié)論。但H-L法的置信區(qū)間最窄。具體見表3。
表3 兩組受試者咽痛消失時間差值及其95%可信區(qū)間(h)
本研究探討了兩種中位數(shù)差值的區(qū)間檢驗方法在非劣效試驗中的模擬比較研究。在樣本量為20時,正態(tài)近似法的檢驗效能和H-L法的檢驗效能相差不大。但隨著樣本量的增大H-L法的檢驗效能先是明顯高于正態(tài)近似法,在樣本量到200時,兩種方法的檢驗效能趨于一致。不論樣本量是多少,正態(tài)近似法的置信區(qū)間波動范圍都大于H-L法,且不如H-L法穩(wěn)定,其原因可能和兩種方法利用樣本信息程度有關(guān)。H-L法充分利用每一個樣本信息,每一個觀測都要與另一組的每個觀測進行相減,且在后續(xù)計算中所占權(quán)重相等,并對極端值有較為穩(wěn)健的處理[10]。而正態(tài)近似法則較多的考慮了原始樣本中位數(shù)的差異,其次,Bootstrap法還與原始樣本量有關(guān),本研究中在單組樣本量為200時,正態(tài)近似法得到的置信區(qū)間波動范圍較樣本量為100時有了明顯改善,應(yīng)注意的是在應(yīng)用Bootstrap法估計中位數(shù)置信區(qū)間時是基于樣本很好地代表總體的假設(shè)[11]。
正態(tài)近似法和百分位數(shù)法的檢驗效能在樣本量大的時候趨于一致,但在小樣本時正態(tài)近似法明顯優(yōu)于百分位數(shù)法。由于百分位數(shù)法單純的利用了Bootstrap樣本的P2.5和P97.5信息,其計算置信區(qū)間原理屬于一種非參數(shù)的方法,而正態(tài)近似法既利用了原始抽樣樣本中位數(shù)差值的真實差異又利用了Bootstrap樣本的信息,根據(jù)中心極限定理計算其置信區(qū)間屬于一種參數(shù)方法,故正態(tài)近似法的檢驗效能要優(yōu)于百分位數(shù)法。臨床判斷非劣效性的一個重要問題是非劣效性界值Δ標準的選擇[12]。本研究中,當把非劣效性臨界值Δ設(shè)置為13、14時,三種方法的檢驗效能同時降低,但仍然是H-L法優(yōu)于正態(tài)近似法和百分位數(shù)法。但由于H-L法的區(qū)間寬度最小且穩(wěn)定,改變非劣效性臨界值對其影響較小。
本研究主要針對以時間作為效應(yīng)指標,且可能存在不確切值的右截尾數(shù)據(jù),并以中位數(shù)作為比較的指標進行非劣效性檢驗。除本研究介紹的兩類置信區(qū)間法外,也可以考慮選擇生存分析的方法。但理論上針對右截尾的數(shù)據(jù)中位生存時間和時間的中位數(shù)是相等的,而且如果仍采用Bootstrap法估計中位數(shù)差的置信區(qū)間結(jié)果與本研究中使用的方法也應(yīng)該是一致。Jinheum指出也可以利用分層Cox比例風險模型計算中位生存時間差的置信區(qū)間[13],但其標準誤計算較為復(fù)雜。因此,針對右截尾時間數(shù)據(jù)計算中位數(shù)差值的置信區(qū)間,應(yīng)首先考慮基于中位數(shù)差的Bootstrap法或H-L法。但如果數(shù)據(jù)中存在其他類型的刪失數(shù)據(jù),如研究對象中途退出等,此時中位數(shù)比較法已不再適用,應(yīng)考慮利用分層Cox比例風險模型得到中位數(shù)差的置信區(qū)間。
從本次研究的結(jié)果來看,在藥物的非劣效試驗中,三種中位數(shù)差值的區(qū)間檢驗方法所獲得的區(qū)間都包含了總體中位數(shù)的真實差異。整體來看,H-L法獲得的區(qū)間最窄且最穩(wěn)定,檢驗效能最高,且對極端值有較為穩(wěn)健的處理,尤其在樣本量不大時建議選擇H-L法。其在實際應(yīng)用中H-L法的操作復(fù)雜程度也要低于Bootstrap法。