第二軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室(200433) 宋嘉麒 吳思成 金志超 賀 佳
終點指標(endpoint)是臨床試驗中評價干預措施有效性的指標,同時也是影響試驗周期和復雜程度最重要的因素之一[1]。臨床試驗中終點指標的選擇主要取決于其發(fā)現(xiàn)臨床效果的敏感性及其與研究目的的臨床相關性[1]。敏感性和相關性最強的“真實終點(true endpoint)”往往由于隨訪時間長、測量困難和發(fā)生率低時樣本量需求大等原因,需增加試驗的復雜性和/或試驗周期,難以適應某些試驗藥物研發(fā)要求。因此,需要尋找另一個更易于測量、更快捷、發(fā)生率更高的終點指標來解決這一系列問題[2],這種用于間接反映臨床效果的觀察指標稱為替代終點(surrogate endpoint)[3]。
由于存在較多優(yōu)勢,替代終點被提出后即為多數(shù)臨床試驗采用。在早期的試驗中,與真實終點相關的終點指標即可作為替代終點。但隨后多位學者指出,不能僅以相關性評價替代終點,并提出處理對替代終點的效應應當能可靠地預測真實終點的處理效應[4-5]。介于方法學研究的不足,在早期應用替代終點時,并未按此要求進行檢驗,結果導致了一些錯誤甚至有害的結論。例如美國FDA批準的恩卡胺(Encainide)和氟卡尼(Flecainide)被證實能有效地抑制心率失常,由于心率失常會使心臟并發(fā)癥相關死亡率提高4倍,因此認為這兩種藥物也相應地能夠降低死亡率。然而,在藥物上市后,一項臨床試驗證實恩卡胺和氟卡尼相對于安慰劑,反而使死亡率提高了2倍[6]。因此,科學、合理地利用統(tǒng)計學方法評價隨機對照臨床試驗中替代終點的替代價值至關重要。
目前替代終點的統(tǒng)計學評價方法主要分為基于單個隨機對照試驗的評價方法(single-trail validation)和基于多個隨機對照試驗的meta分析法(meta-analytic validation),基于單個試驗的評價方法是基于多個試驗評價方法的基礎,本文將著重介紹基于單個試驗的替代終點評價方法及研究進展,并以案例說明。
多位學者指出,替代終點與真實終點之間應存在因果關系[4,7],即如果替代終點與真實終點間有因果鏈,那么處理對替代終點造成的任何改變都將轉換為真實終點的相應改變。然而,由于驗證因果關系通常較困難,需要滿足一系列條件,替代終點的統(tǒng)計學評價只能為因果關系提供間接證據(jù)。
本文中,隨機變量T和S分別表示真實終點和替代終點,Z表示處理的二分類指示變量,j=1,…,n表示第j個受試者,可建立(T,S,Z)的關系模型如下:
Sj=μS+αZj+εSj
(1)
Tj=μT+βZj+εTj
(2)
Tj=μ+γSj+εj
(3)
(4)
其中,
(5)
(6)
α為處理對替代終點S的效應,β為處理對真實終點T的效應,γ為真實終點T與替代終點S的關聯(lián),βS為調(diào)整替代終點后真實終點T的處理效應;εSj和εTj為誤差項且服從均數(shù)為0的聯(lián)合正態(tài)分布,其方差-協(xié)方差矩陣為:
(7)
1.Prentice定義及準則
Prentice首次從統(tǒng)計學角度提出了替代終點的定義,若對某應變量無處理效應的假設檢驗等價于對真實終點無相應處理效應的假設檢驗,則可認為該應變量為替代終點[8]??捎洖?
f(S|Z)=f(S)?f(T|Z)=f(T)
(8)
其中,f(X)表示隨機變量X的概率分布,而f(X|Z)表示Z取值下X的條件分布。替代終點T和S可以是離散或連續(xù)的隨機變量或生存結局。
為了驗證(T,S,Z)是否符合定義,Prentice又提出了4條具體可操作的準則,即Prentice準則:
f(S|Z)≠f(S)
(9)
f(T|Z)≠f(T)
(10)
f(T|S)≠f(T)
(11)
f(T|S,Z)=f(T|S)
(12)
上述四個公式可分別解釋為:
(1)處理對替代終點的效應有統(tǒng)計學意義,即公式(1)中α≠0,
(2)處理對真實終點的效應有統(tǒng)計學意義,即公式(2)中β≠0,
(3)替代終點對真實終點的影響有統(tǒng)計學意義,即公式(3)中γ≠0,
(4)處理對真實終點的效應可完全由替代終點解釋,即公式(4)中βS=0。
準則(1)(2)要求處理對替代終點和真實終點均有效應,準則(3)要求替代終點對真實終點有預后價值,而準則(4)是對替代終點可替代性評價的核心內(nèi)容,即要求在調(diào)整替代終點后,真實終點的處理效應消失。
然而,Prentice準則存在明顯的局限性。Fleming指出,準則(2)要求處理對真實終點的效應有統(tǒng)計學意義過于嚴格,因為從假設檢驗的角度來看,這種情況下就無法再尋找替代終點了[9]。Buyse和Molenberghs則指出,基于假設檢驗的Prentice準則只能做定性檢驗,且證明了準則(4)并不總是定義的必要條件,只有在終點為二分類變量的情況下,定義才與準則等價[10]。
2.可解釋比例
Freedman認為Prentice準則(4)要求在調(diào)整替代終點后,處理對真實終點的效應沒有統(tǒng)計學意義,在概念上難以實現(xiàn)。
首先,運用準則(4)會因為檢驗效能不足而無法拒絕原假設,所以相對于將其用于驗證一個優(yōu)秀的替代終點,更適合將其用于拒絕一個較差的替代終點[11],這也說明了驗證替代終點需要較大的樣本量。其次,即使檢驗效能足夠大,也無法通過調(diào)整替代終點前后有無統(tǒng)計學意義來量化替代終點對真實終點的影響。
基于以上局限,Freedman等人提出了可解釋比例(proportion explained,PE),即真實終點的處理效應可以由替代終點的處理效應所解釋的比例,一個合適的替代終點應該能夠解釋大部分真實終點的處理效應。PE可計算如下:
(13)
其中,β和βS分別為公式(2)和(4)中調(diào)整替代終點前后處理Z對真實終點T的效應。根據(jù)Fieller定理,可解釋比例的(1-α)%置信區(qū)間的計算方法為:
(14)
(15)
(16)
(17)
其中,Zα是正態(tài)分布的100×(1-α/2)分位數(shù),可通過擬合公式(2)、(4)分別獲得β和βS的方差,可參考Freedman的建議確定β和βS的協(xié)方差[11]。另外,Bootstrap法也可用于估計可解釋比例的置信區(qū)間。
3.相對效應和調(diào)整關聯(lián)
對于一個有應用價值的替代終點,應該可以通過它的處理效應預測真實終點的處理效應。因此,應當對真實終點與替代終點的處理效應進行關聯(lián)[13],如果通過替代終點所預測的真實終點的處理效應具有臨床意義,則可以通過替代終點對該處理的效應進行檢驗[2]。
根據(jù)這種理論,Buyse和Molenberghs[14]提出了另外一種替代終點的評價指標:相對效應(relative effect,RE),即真實終點與替代終點處理效應之比:
RE(T,S,Z)=β/α
(18)
直觀上,相對效應是β對α回歸線的斜率[15]。假設公式(18)的乘法關系成立,且相對效應是已知的,那么就可以通過替代終點的處理效應預測真實終點的處理效應。事實上,相對效應是需要估計的,而且估計的精確性直接影響預測的精確性。
如果處理對真實終點和替代終點的效應大小完全相同,則相對效應為1,被稱為“試驗水平完美的替代終點”。實際中,當真實終點比替代終點更難被處理影響時,則相對效應往往小于1[14]。與可解釋比例相類似,由于相對效應是兩個參數(shù)的比,其置信區(qū)間也可根據(jù)Fieller定理計算[14],也可通過Bootstrap法和Delta法估計。
Buyse和Molenberghs還提出了調(diào)整關聯(lián)(adjusted association,AA),即調(diào)整處理因素后,替代終點與真實終點的關聯(lián),記做ρZ。對于正態(tài)分布的終點指標,調(diào)整關聯(lián)的定義為:
(19)
其中,σST、σSS和σTT是公式(7)中矩陣∑的元素。如果ρZ=1,那么處理與替代終點間存在著決定性的關系,可稱為“個體水平的完美替代終點”,因為在已知替代終點和處理的情況下就可準確地預測每個個體的真實終點。然而在實際中,完美是難以達到的,重點在于如何判斷某種情況下的關聯(lián)強度是否足以認為替代終點是可信的。
(20)
Buyse[14]和Begg[17]對標準正態(tài)分布終點指標S和T也得到了相同的結果。公式(20)的關系表明PE整合了3方面的信息:(1)表示替代終點與真實終點個體水平關聯(lián)性的調(diào)整關聯(lián)ρZ;(2)表示替代終點與真實終點試驗水平關系的RE;(3)沒有評價作用的方差比λ2。顯然,PE是ρZ、RE和λ2的組合,而并非一個比值,這使得它難以被解釋[18-20]。此外,對RE的解釋不受數(shù)值范圍的限定。
基于對公式(20)的分析,Buyse建議用(RE,ρZ)代替PE,因為這兩個指標能夠更深入地描述替代終點的特點[14]。如果能夠準確預測RE,則能夠準確地預測真實終點的處理效應。
另外,通常期望替代終點與真實終點的強關聯(lián),在個體水平上,能夠反應替代終點與真實終點間的一些生物通路,這種關系可以通過ρZ解釋。如果ρZ值夠大,則可以間接證明替代終點在生物學上是可信的,且真實終點很大程度上可由替代終點所決定,與處理效應無關,此外還需要有基因生物學證據(jù)的支持[21]。
實際上,用RE和ρZ評價替代終點也存在一些問題。Buyse指出RE的置信區(qū)間可能會較寬,這可以通過足夠大的樣本量解決。更重要的是,如果要用RE的估計值去預測一個新試驗中的處理效應,就必須假設替代終點和真實終點的處理效應間是乘法關系[10,14,16]。這一假設無法通過基于單個試驗的方法驗證,因此Buyse等建議通過基于多個試驗的meta分析方法進行驗證。
1.案例介紹
本例為老年性黃斑變性(age-related macular degeneration)的臨床試驗,患者主要表現(xiàn)為視力逐漸衰退[22]。試驗共納入來自42個中心的190例受試者,采用標準視力表測量受試者的視力。視力表由50個字母組成,每行5個字母,從上到下、從大到小排列,通過受試者正確辨認的字母數(shù)評價其視力。本例中,處理(Z)為0表示安慰劑,1表示干擾素組。待評價的替代終點為接受治療后6個月的視力變化;真實終點為接受治療后1年的視力變化。分析時,發(fā)現(xiàn)其中6個中心僅納入安慰劑組或干擾素組的受試者,因而被剔除,最終分析36個中心(181例受試者)??傮w上,替代終點(P=0.351)與真實終點(P=0.218)的處理效應均無統(tǒng)計學意義。
2.Prentice準則
通過R軟件Surrogate程序包的Prentice函數(shù)構建公式(1)~(4)模型估計參數(shù)得:α=-0.889(P= 0.351)、β=-1.456(P= 0.218)、γ=0.926(P<0.0001)、βS=-0.636(P= 0.421)。前3個回歸系數(shù)中只有γ有統(tǒng)計學意義,因此,驗證過程不得不停止。α和β沒有統(tǒng)計學意義,可能僅僅是由于該試驗樣本量不足。
3.可解釋比例PE
根據(jù)已估計的參數(shù)可得:PE=1-βS/β=1-(-1.456)/(-0.636)=0.563,Bootstrap法估計的95%置信區(qū)間為[-1.887,3.421]。不難發(fā)現(xiàn),該置信區(qū)間較寬,且超出了理論范圍[0,1]。這也印證了方法部分關于PE精確性的描述。
4.相對效應RE和調(diào)整關聯(lián)AA
通過R軟件Surrogate程序包的Single.Trial.RE.AA函數(shù)可得:RE=β/α=(-1.456)/(-0.889)=1.638,Delta法估計的95%置信區(qū)間為[-0.652,3.927]。調(diào)整關聯(lián)ρZ=0.745(Bootstrap法估計的95%置信區(qū)間為[0.650,0.819])??梢?調(diào)整關聯(lián)估計較準確,但是相對關聯(lián)的置信區(qū)間過寬而不能提供有價值的信息。
在樣本量不大時,Prentice準則過于嚴格,可解釋比例PE和相對效應RE的置信區(qū)間較寬、精確性較低,而調(diào)整關聯(lián)AA的估計較準確。
傳統(tǒng)的替代終點評價方法,包括Prentice準則及其衍生出的可解釋比例PE和相對效應RE,在實際應用中均存在缺陷。但是Prentice-Freedman框架的價值在于開創(chuàng)了量化評價替代終點的研究領域。Freedman[11]將參數(shù)估計作為一個重要的補充引入了Prentice提出的基于假設檢驗的方案[8]。
可解釋比例PE試圖解釋Prentice準則(4),即真實終點的處理效應可完全由替代終點解釋。其著眼于處理的回歸系數(shù)βS,并要求βS=0(或等價于PE=1)。然而,這一方法并不完善,因為其未將不同來源的變異分開。PE實際上合并了試驗水平的相對效應、個體水平的調(diào)整關聯(lián)和真實終點與替代終點方差的比,這種概念上的困難比PE的區(qū)間過寬更棘手[11]。
從多水平的角度看待替代終點的評價更有意義。個體水平更關注T對S和Z的條件回歸的殘差變異,即可由個體水平的調(diào)整關聯(lián)解釋的替代終點與真實終點的關聯(lián)。在完美的情境下,殘差變異不復存在,那么在已知替代終點和處理的情況下就可以精確地預測真實終點。試驗水平更關注在給定替代終點處理效應的情況下對真實終點處理效應的預測,用于預測的指標即RE。
基于單個試驗的替代終點評價方法雖然存在各種問題,但為后續(xù)發(fā)展的基于多個試驗的方法提供了理論基礎,在樣本量足夠大時具有一定的應用價值。