胡晶 劉衛(wèi)紅 張會娜
摘要 中醫(yī)藥治療效果需要科學的評價方法彰顯。當前單指標評價法不足以全面體現(xiàn)中醫(yī)藥治療優(yōu)勢,“病證結合”的多主要終點評價法為全面客觀顯示中醫(yī)藥療效提供可能。盡管近年來多主要終點評價在統(tǒng)計學方法領域上有較大發(fā)展,但在其方法選擇、樣本量計算、統(tǒng)計軟件使用等方面仍有很多挑戰(zhàn)。因此本文對幾種多主要終點評價方法進行介紹,以期指導中醫(yī)藥臨床研究者正確選擇和使用多主要終點評價法,為全面評價中醫(yī)藥特色與優(yōu)勢提供方法學支撐。
關鍵詞 病證結合;多主要終點;隨機對照試驗;中醫(yī)藥
Abstract The development of a scientific evaluation tool is a prerequisite to reflect the efficacy of traditional Chinese medicine (TCM). At present, separate analysis of each outcome is the most commonly used method in randomized controlled trials (RCTs) of TCM, while this method has been reported to have some limitations. Evaluation of multiple primary endpoints which include diseases and symptoms outcomes can reflect the effectiveness of TCM comprehensively and objectively. In recent years, despite the great development of multiple primary endpoints in the field of statistical methods, there are still some challenges in choosing methods, calculating sample size and employing statistical software. In this article, we introduced several multiple primary endpoints evaluation methods, in the expectation of appropriate use of those methods by TCM researchers as well as methodological support for comprehensive assessment of the characteristics and advantages of TCM.
Key Words Combination of diseases and syndromes; Multiple primary endpoints; Randomized controlled trials; Traditional Chinese medicine
中圖分類號:R241文獻標識碼:Adoi:10.3969/j.issn.1673-7202.2017.06.002
隨機對照試驗(Randomized Controlled Trials,RCTs)是目前被國際上公認為評價臨床干預措施有效性的金標準。自1983年第1篇中醫(yī)藥RCT報告以來[1],RCTs方法已廣泛運用于評價中醫(yī)藥臨床療效,但隨著RCTs在中醫(yī)藥領域的應用,其局限性也逐漸暴露出來,而缺乏能達成中西醫(yī)共識的療效評價方法更是成為制約中醫(yī)藥國際化進程的重要瓶頸。近年來圍繞這一領域的研究已成為各方學者關注的熱點問題[2-4]。
1 單指標評價法難以從整體反映中醫(yī)藥的治療優(yōu)勢
基于統(tǒng)計學的假設檢驗理論,ICH E9[5]建議臨床試驗的主要終點指標最好只設一個,因此,現(xiàn)階段進行的中醫(yī)藥RCTs等臨床試驗設計中,療效評價通常是將西醫(yī)客觀指標(例如病理、生化指標等)作為主要療效指標,在次要指標中添加一些中醫(yī)特色指標(例如中醫(yī)證候、患者報告結局等),分析時對各指標單獨評價并做出結論。
但由于中醫(yī)和西醫(yī)在臨床治療理論、藥物研發(fā)模式等方面存在差異,中醫(yī)更注重患者癥狀的改善,而西醫(yī)更強調病理、生化等實驗室指標的改變。如果采用現(xiàn)行的療效評價方法,很可能會出現(xiàn)在主要療效指標上中藥效果接近甚至劣于西藥、而在次要指標上優(yōu)于西藥的結果。
另外,中醫(yī)藥理論強調整體觀,傳統(tǒng)中醫(yī)藥就治病目的而言是多維度干預,既控制病情活動,又改善患者的生命質量;既改善患者主觀感受的不適癥狀,又注重客觀指標的恢復。由于臨床試驗中次要指標僅用于探索或參考目的,對療效評價作用有限[5]。因此,中醫(yī)藥RCTs若僅用西醫(yī)療效標準作為主要指標,無法全面客觀地反映中醫(yī)藥的特色治療優(yōu)勢,應把中醫(yī)特色指標與西醫(yī)常規(guī)指標放到同等位置對待,即將對“病”的療效評價結果和對“證”的評價結果相結合進行分析。
2 “病證結合”的多主要終點為整體、客觀評價中醫(yī)藥療效提供可能
目前各方學者廣泛認可的觀點是,完善的中醫(yī)藥臨床療效評價指標體系應包括[6-8]:1)對于疾病的常規(guī)西醫(yī)療效評價指標;2)反映中醫(yī)證候的指標;3)生命質量評價指標。
鑒于此,本文提出體現(xiàn)中醫(yī)特色的“病證結合”的多終點療效評價法,即將以上3種不同屬性的測量指標共同作為主要終點進行分析,建立既能讓現(xiàn)代醫(yī)學界認可、又能體現(xiàn)中醫(yī)藥特色治療優(yōu)勢的評價方法。
盡管近年來多主要終點評價在統(tǒng)計技術上有較大發(fā)展,但至今在中醫(yī)藥領域仍然應用較少,可能原因:1)目前國內對幾種多主要終點評價方法的理論和實際應用介紹較少,大多數(shù)學者還不熟悉該評價方法;2)多主要終點評價方法大多對統(tǒng)計理論和軟件水平要求較高,研究者不易實現(xiàn);3)多主要終點評價雖然方法較多,但目前尚沒有公認的方法,幾種方法各有利弊(表1),且各有其適用范圍和應用條件[9]。使得研究者在實際應用時無從選擇。因此本文對幾種多主要終點評價方法進行介紹,以期指導中醫(yī)藥臨床研究者正確選擇和使用多主要終點評價法,為全面評價中醫(yī)藥特色治療優(yōu)勢提供方法學支持。
3 多主要終點評價法的介紹
3.1 檢驗水準校正法
檢驗水準校正法(Alpha-adjustment Procedures)是對多主要終點中每個終點的檢驗水準進行調整的一類方法[10],包括Bonferroni校正、Simes檢驗、Hochberg法等,其中Bonferroni法是最為經(jīng)典也是最簡單的方法[11],其公式為a*=a/K(K為終點個數(shù))。Hochberg法的原理是先將各個終點檢驗的P(i)值進行排序,P(i)(K)≥P(K-1)≥…≥P(1)(K為終點個數(shù)),對應的檢驗水準a(i)分別為a,a/2,…a/k,隨后按P(i)值由大到小的順序逐步檢驗,直到出現(xiàn)第一個P(i)檢驗水準校正法優(yōu)勢:1)可以對單個終點的療效進行分析,控制試驗總Ⅰ類錯誤率(Family-wise TypeⅠError Rate,F(xiàn)WER)膨脹。2)當干預措施對一個結局指標效應較強時具有較高統(tǒng)計檢驗效能[12]。
檢驗水準校正法不足:1)無法對多個終點療效進行整體評價,另外當多終點間結果不一甚至相反時,無法得出確切結論[13]。2)當多終點間相關程度較高時結論過于保守。
3.2 多變量檢驗
多變量檢驗(Multivariate Test)是對多個終點的聯(lián)合分布進行一次假設檢驗,對組間差別進行推斷的方法。包括Hotelling′s T2檢驗、針對多組比較的多變量方差分析(MANOVA)等[14]。多變量檢驗的計算比較繁瑣,但用SPSS或SAS軟件計算則非常簡單。在大多數(shù)情況下,多變量檢驗結論與對K個多終點進行K次單變量假設檢驗的結論是一致的,即多變量假設檢驗拒絕H0,K次單變量假設檢驗至少有一次拒絕H0。但單變量假設檢驗不能代替多變量假設檢驗,主要理由:1)K次單變量假設檢驗增加假陽性錯誤的概率。2)單變量假設檢驗只說明某一變量在數(shù)軸分布上的組間差別,不能反映多個變量在平面或空間上的差別。有可能會出現(xiàn)K個多終點在進行單變量假設檢驗時均無統(tǒng)計學意義,但多變量假設檢驗卻檢驗出有差異。
多變量檢驗優(yōu)勢:1)避免多次單變量檢驗增加假陽性錯誤的概率;2)在校正過程中充分考慮了多終點間的相關結構。
多變量檢驗不足:1)缺乏對多個終點療效整體評價的結果;2)對多終點聯(lián)合概率分布的數(shù)學假設前提要求較高[15]。
3.3 多層統(tǒng)計分析模型
多層統(tǒng)計分析模型(Hierarchical Model)是同時對多個終點進行分析,包括多元混合效應模型、潛變量模型、貝葉斯模型等[16]。多層統(tǒng)計分析模型利用添加一個虛擬1水平進行分析,將幾個終點作為1水平上的觀察單位,將受試者作為2水平單位。HLM和MLwin是專門用于多層模型的分析軟件。SAS軟件的PROC MIXED程序也廣泛地應用于連續(xù)型結局變量的多層模型分析,PROC GLIMMIX和PROC NLMIXED程序可用于分類結局變量和計數(shù)數(shù)據(jù)的多層模型分析。
多水平模型優(yōu)勢:1)能將不同類型的數(shù)據(jù)聯(lián)合進行分析,包括連續(xù)變量和分類變量;2)考慮了多終點間相關性,同時可以有效處理缺失數(shù)據(jù)[17]。
多水平模型不足:1)無法證實模型所采用假設的準確性,尤其是關于多終點間相互關系的假設;2)潛變量或超參數(shù)等含義不易被臨床醫(yī)生所理解。
3.4 綜合評價法
綜合評價(Comprehensive Evaluation Method)是對一個復雜系統(tǒng)多個指標進行總評價的特殊方法。目前已經(jīng)逐漸應用于中醫(yī)藥臨床研究中,例如層次分析法[18]和TOPSIS法[19]等。綜合評價法的實施過程類似,包括篩選評價指標、根據(jù)指標重要性賦予權重、采用相應方法建立綜合評價模型并進行指標合并等。
綜合評價法的優(yōu)勢:1)可以將西醫(yī)常規(guī)指標、中醫(yī)證候、患者報告結局等多個指標組合成一個綜合指標進行分析,對綜合指標進行檢驗,適應中醫(yī)療效多維度的特點;2)統(tǒng)計檢驗效能較高。
綜合評價法的不足:1)指標權重的確定或過于依賴主觀判斷,或把指標重要性同等化,造成權重系數(shù)不合理,導致最終結果的不確定性[20];2)目前綜合評價法雖多,但沒有完美的方法,多方法間結論存在較大差異[21];3)對綜合評價指標的解釋存在一定困難。
3.5 全局檢驗法
全局檢驗法(Global Statistical Test,GST)是將多個終點綜合為一個檢驗統(tǒng)計量進行分析的方法[22]。在GST中,O′Brien法是各方學者較為認可、應用較為廣泛的一種方法[23],可采用一般最小二乘法、廣義最小二乘法、非參數(shù)法進行分析。其中非參數(shù)法可以針對非正態(tài)分布的多終點,適用范圍較廣。全局治療效應(Global Treatment Effect,GTE)是GST中定量反映試驗組間療效差異的指標[22]。GTE的數(shù)值固定,不隨終點測量方法的改變而變化,取值范圍為“-1~1”,“0”代表試驗組和對照組間療效無差異,“1”代表試驗組完全優(yōu)于對照組,“-1”代表對照組完全優(yōu)于試驗組。GTE可作為結局指標的效應值,采用Splus軟件進行樣本含量的估算。
全局檢驗法的優(yōu)勢:1)可以檢驗多個終點的全局治療效應,將GST應用于中醫(yī)藥RCTs最大的優(yōu)勢是可以凸顯中醫(yī)藥的整體治療優(yōu)勢;2)在分析時充分考慮多終點間的相關結構;3)當多終點間結果不一致甚至相反時更利于結果的解釋。
全局檢驗法的不足:只能發(fā)現(xiàn)試驗組間整體療效是否有差異,無法對單個終點的療效得出結論[24]。
針對多主要終點指標的樣本量計算問題,有學者建議在樣本量計算時可對每個主要終點分別計算,然后取最大值作為臨床試驗所需的樣本量[25]。Sozu等探討了用SAS軟件對同時包含連續(xù)變量和二分類變量的多主要終點進行樣本含量估計[26]。楊衛(wèi)嬌對多終點指標的兩階段適應性設計的樣本量再估計進行了探討[27]。
4 結語
中醫(yī)藥治療效果需要科學的評價方法彰顯,在中醫(yī)藥臨床研究中,如何科學、客觀的選擇結局指標對于療效評價至關重要。作為臨床試驗的統(tǒng)計學指導規(guī)范,雖然ICH E9[5]建議主要終點指標最好只設一個,但這種考量主要是基于統(tǒng)計學的假設檢驗理論,由于中醫(yī)“整體觀”的理論特點,在中醫(yī)藥臨床試驗中,一個主要終點難以全面體現(xiàn)中醫(yī)藥治療優(yōu)勢,此時通常需要通過多主要終點評價來解決,其優(yōu)勢是可以將對于疾病的常規(guī)西醫(yī)療效評價指標以及反映中醫(yī)證候的指標等共同作為主要終點進行分析,能全面、客觀的體現(xiàn)中醫(yī)藥特色治療優(yōu)勢。盡管多主要終點比單個終點在中醫(yī)藥療效評價中體現(xiàn)出更多的優(yōu)勢,其隨之而來的一系列統(tǒng)計學問題卻不容忽視,統(tǒng)計的2類錯誤都需要進行控制。本文對幾種多主要終點評價方法進行介紹,以期指導中醫(yī)藥臨床研究者了解和使用多主要終點評價法,為全面評價中醫(yī)藥特色治療優(yōu)勢提供方法學支持。
參考文獻
[1]單平,毛如寶,徐濟民,等.黃楊寧治療冠心病—用雙盲法觀察110例臨床療效分析[J].中醫(yī)雜志,1983,24(5):37-40.
[2]Li Zhang,Junhua Zhang,Jing Chen,et al.Clinical research of traditional Chinese medicine needs to develop its own system of core outcome sets[J].Evid Based Complement Alternat Med,2013,2013(2013):202703.
[3]潘萬旗,鄧素玲,楊英豪,等.關于中醫(yī)藥標準化的思考[J].中醫(yī)學報,2015,30(6):795-797.
[4]Pritzker S,Hui KK.Building an evidence-base for TCM and integrative east-west medicine:a review of recent developments in innovative research design[J].J Tradit Complement Med,2012,2(3):158-163.
[5]ICH Topic E9 Statistical Principles for Clinical Trials (CPMP/ICH/363/96),www.emea.europa.eu,1998.Accessed 8th April 2013.
[6]王賢良,毛靜遠,侯雅竹.病證結合、系統(tǒng)分段、多維指標中醫(yī)臨床效應評價方法建立初探[J].中國中西醫(yī)結合雜志,2013,33(2):270-273.
[7]高凡珠,謝雁鳴,王永炎.中醫(yī)復雜干預與療效綜合評價[J].中國中醫(yī)基礎醫(yī)學雜志,2010,16(6):527-529.
[8]李建生,余學慶.病證結合模式下療效評價指標體系建立的思考[J].中華中醫(yī)藥雜志,2011,26(8):1666-1670.
[9]Huang P,Goetz CG,Woolson RF,et al.Using global statistical tests in long-term Parkinson′s disease clinical trials[J].Mov Disord,2009,24(12):1732-1739.
[10]Sankoh AJ,SrdrB,Huque MF.Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues[J].Stat Med,2003,22(20):3133-3150.
[11]Leon AC,Heo M.A comparison of multiplicity adjustment strategies for correlated binary endpoints[J].J Biopharm Stat,2005,15(5):839-855.
[12]Dmitrienko A,D′Agostino RB Sr,Huque MF.Key multiplicity issues in clinical drug development[J].Stat Med,2013,32(7):1079-1111.
[13]Alosh M,Bretz F,Huque M.Advanced multiplicity adjustment methods in clinical trials[J].Stat Med,2014,33(4):693-713.
[14]Olson CL.Comparative robustness of six tests in multivariate analysis of variance[J].J Am Stat Assoc,1974,69(348):894-908.
[15]Johnson JL,Muller KE,Slaughter JC,et al.POWERLIB:SAS/IML Software for Computing Power in Multivariate Linear Models[J].J Stat Softw,2009,30(5):1-27.
[16]Leiby BE,Ten Have TR,Lynch KG,et al.Bayesian multivariate growth curve latent class models for mixed outcomes[J].Stat Med,2014,33(20):3434-3452.
[17]Teixeira-Pinto A,Mauri L.Statistical analysis of noncommensurate multiple outcomes[J].Circ Cardiovasc Qual Outcomes,2011,4(6):650-656.
[18]李景.糖尿病腎病中醫(yī)藥療效綜合評價體系研究[D].北京:北京中醫(yī)藥大學,2012.
[19]陳磊,梁偉雄,呂志平.生脈膠囊治療慢性充血性心力衰竭臨床療效的TOPSIS 法綜合評價[J].南方醫(yī)科大學學報,2010,30(4):820-822.
[20]Freemantle N,Calvert M,Wood J,et al.Composite endpoints in randomized trials:greater precision but with greater uncertainty[J].JAMA,2003,289(19):2554-2559.
[21]Rauch G,Jahn-Eimermacher A,Brannath W,et al.Opportunities and challenges of combined effect measures based on prioritized outcomes[J].Stat Med,2014,33(7):1104-1120.
[22]Huang P,Woolson RF,O′Brien PC.A rank-based sample size method for multiple outcomes in clinical trials[J].Stat Med,2008,27(16):3084-3104.
[23]O′Brien PC.Procedures for comparing samples with multiple endpoints[J].Biometrics,1984,40(4):1079-1089.
[24]Baraniuk S,Seay R,Sinha AK,et al.Comparison of the global statistical test and composite outcome for secondary analyses of multiple coronary heart disease outcomes[J].Prog Cardiovasc Dis,2012,54(4):357-361.
[25]Cook RJ,F(xiàn)arewell VT.Guidelines for monitoring effieaey and toxieity responses in clinieal trials[J].Biometrics,1994,50(4):1146-1152.
[26]Sozu T,Sugimoto T,Hamasaki T.Sample size determination in clinical trials with multiple co-primary endpoints including mixed continuous and binary variables[J].Biom J,2012,54(5):716-729.
[27]楊衛(wèi)嬌.多終點指標下兩階段適應性設計的樣本量再估計[D].上海:華東師范大學,2011.
(2017-05-10收稿 責任編輯:徐穎)