南京醫(yī)科大學公共衛(wèi)生學院生物統計學系(211166)
譚明敏 楊 旻 仲子航 于全驥 于朝雷 周佳薇 倪森淼 蔡麗馨 于 浩△ 柏建嶺△ 陳 峰
【提 要】 目的 探討貝葉斯方法和Simon二階段方法應用于籃子試驗設計的優(yōu)劣及實例分析判斷試驗療效。方法 模擬研究針對二分類結局變量,考慮不同試驗層數、期中分析納入人數等參數設置,比較兩種方法的籃子試驗設計在檢驗效能、控制I錯誤率及樣本量的區(qū)別,并通過實例來介紹其應用。結果 模擬試驗結果表明,除異質性較高的2種情景外,貝葉斯方法的籃子試驗設計效能均高于應用Simon二階段方法,且對假陽性率控制更為嚴格,代價便是無效籃子增多時檢驗效能降低。貝葉斯方法的籃子試驗的樣本量總體較少,尤其在試驗層數較多和同質情況下。結論 貝葉斯方法的籃子試驗更加靈活,可借用層間信息,相比Simon二階段方法,更嚴格地控制整體一類錯誤率,且在試驗層數和期中分析次數多時更節(jié)省平均總樣本量。
2014 年,美國腫瘤研究學會(American Association for Cancer Research,AACR)在腫瘤研究進展里提出了針對精準腫瘤醫(yī)學的創(chuàng)新性臨床試驗——籃子試驗[1],同年美國臨床腫瘤學會的會議也多次提到了籃子試驗[2]?;@子試驗是一種新型臨床試驗模式。FDA 發(fā)布的主方案中提到,籃子試驗指旨在評估單藥或藥物聯合在不同群體(通過疾病分期、組織學、治療史、基因、標志物或人口統計學特征來定義)中療效的試驗設計?;@子試驗具體設計框架如圖1,對幾種不同(但相關)的疾病使用相同治療,和針對單一腫瘤組織學患者使用單一治療方式的傳統臨床試驗相比更具有治療潛力,并減少了成本和研究時間[3]。
根據藥物作用機制和患者分子變異選擇,可將籃子試驗劃分為以下三種類型[4]:(1)研究單藥在靶點為相同分子變異的多種腫瘤類型中的療效,例如Hyman[5]等人研究BRAF口服抑制劑維羅非尼治療含有BRAF V600E突變陽性的不同組織學非黑色素瘤患者的療效。這項研究表明,與組織學無關的生物標記物選擇的籃子設計是可行的。(2)研究單藥在靶點為少數分子變異的多種腫瘤類型中的療效,例如試驗AcSe′[6]和CREATE,均是評估克唑替尼治療含有ALK和/或MET等變異的多個腫瘤患者隊列療效的大型籃子試驗。(3)研究多個靶向藥在多種分子變異的多種腫瘤類型中的療效,例如試驗NCI-MATCH[7]、基因泰克的MyPathway[8],諾華的Signature[9]及美國臨床腫瘤學的TAPUR[10],這些研究定義的藥物突變特異籃子目的是確定某些具體通路的靶向藥的有效性?;@子試驗沒有固定模式,因此,它的多樣性及普適性的特點非常適合在靶向治療時代推廣應用。
圖1 籃子試驗示意圖
Simon[11]等人在腫瘤精準醫(yī)學背景下開發(fā)了一種應用貝葉斯方法評估單藥治療不同原發(fā)部位緩解率的籃子試驗。該設計已經開發(fā)了網上的應用平臺以及相應軟件,在網頁“https://brbnci.shinyapps.io/BasketTrials/”可以進行查看使用。本文將具體介紹這種基于貝葉斯方法的籃子試驗,并與基于Simon二階段設計方法的籃子試驗進行模擬試驗,比較不同療效情景下的樣本量和錯誤率以及不同試驗層數設置下的總樣本量和整體一類錯誤率,并通過案例介紹貝葉斯方法的實際應用。
1.基于貝葉斯方法的籃子試驗
假設按k個原發(fā)部位或組織學類型進行分層,我們用pk來表示每一層未知的反應率,假設pk有兩個取值,表示藥物有研發(fā)前景的高反應率phi或無研發(fā)前景的低反應率plo。H0假設每層反應率都是相等的,換言之就是藥物活性不取決于腫瘤原發(fā)部位/組織學類型,所有層均有效或是均無效。原假設若為真,則設定各層反應率相同且取值為phi的概率為γ。H1假設每層反應率是互相獨立的。對于每層,γ=Pr[pk=phi|H1],此外,λ為各層完全相關的先驗概率,即λ=P(H0)。
在任何期中分析中,我們都可以計算每層反應率的后驗概率,與事先預設的界值T和1-T作比較,具體的計算流程見圖2(A),設計流程見圖2(B)。
圖2 期中分析時評估各層藥物療效的計算流程及決策的設計流程
我們定義b(r;p,n)是二項分布的概率密度函數,表示當反應率為p時,n例受試者中恰好有r例受試者緩解的概率。在期中分析時,假設在k層治療的nk例患者中有rk人緩解,H0的后驗概率為:
藥物對第k層有療效的后驗概率的計算公式如下:
Pr[pk=phi|data]=Pr[pk=phi|data& H0]Pr[H0|data]+Pr[pk=phi|data& H1]Pr[H1|data]
當同質的后驗概率非常小時,表示層間幾乎沒有信息共享。如果后驗概率小于1-T因無效提前終止該層試驗,若后驗概率大于T則因高效提前終止,這種自適應設計節(jié)約資源,并可惠及患病率低的患者群體,此外早期陽性結果可以促進該層隨后的擴展隊列II期試驗研究。
該貝葉斯籃子設計涉及到了四個參數,分別是藥物有效的反應率phi、藥物無效的反應率plo、H0的先驗概率λ和在任意層有效的概率γ。對于已獲批用于某些原發(fā)部位藥物,在籃子試驗里我們通常建議λ和γ的取值分別為0.33和0.5[11-12]。隨著患者群體的增加,傳統II期試驗設計就不再合適,在這個組學技術和個性化醫(yī)療的時代,上述的這種貝葉斯籃子設計易于修改適應各種情形。為了推廣貝葉斯籃子設計,Simon提出兩個方法,其一就是讓λ和/或γ服從一個獨立先驗,其二就是構建一個“pmodal”去試圖削弱完全同質或完全獨立的假設[12]。
1.參數設置
籃子試驗中的子研究通常包括主要終點指標是總緩解率的單臂試驗。1989年,Simon提出了最優(yōu)化二階段設計和最小最大值二階段設計,這兩種設計在之后的單臂二階段臨床試驗中應用非常廣泛,也會出現在籃子試驗中,即每個子研究單獨應用傳統Simon二階段設計[13]。
本文通過模擬試驗去比較層數為5時應用Simon二階段設計方法和貝葉斯方法的籃子試驗的操作特征。首先設置藥物有效反應率phi=0.25和無效反應率plo=0.05,指定先驗概率λ=0.33和任意層有效的概率γ=0.5,界值T參考BATTLE I臨床試驗[14],建議后驗概率若超過0.8則認為有臨床活性。此外假設各層的患病率相等,且當療效的后驗概率小于0.2或大于0.8時停止納入病人,如果期中分析試驗層沒有全關閉,則達到提前設置的最大總樣本量時結束試驗。在Ⅰ類錯誤和Ⅱ類錯誤均為0.2的條件下,使用Simon優(yōu)化二階段設計計算出第一階段需要納入6人,若至少有1人有療效則第二階段繼續(xù)納入10人,同樣條件下,使用Simon最小最大二階段設計計算出第一階段需要納入10人,兩階段共需納入11人。當對試驗藥物信心不足時,希望確實無效時盡早終止試驗,我們偏向選擇最優(yōu)化設計,而對試驗藥物有信心時,可以選擇最小最大設計。因為傳統籃子試驗大多是II期探索性試驗,所以我們更偏向選擇最優(yōu)化設計。為了與每層單獨應用Simon二階段設計的傳統籃子試驗可比,我們設置N為應用Simon優(yōu)化二階段設計的最大樣本量,即80(試驗層數為5時),每次期中分析納入5個人。模擬試驗的結果見表1、表2和圖3,每種情形結果均是基于1000次模擬試驗得到的。
2.模擬結果
試驗層數為5的籃子試驗中會出現6種情形(從全部有效到全部無效),在每一種特定情形下我們去比較應用Simon二階段設計方法和貝葉斯方法的籃子試驗在無效假設下的拒絕率和實際樣本量,結果見表1。所有情形下,Simon二階段兩種設計的樣本量相差不大,前4種情形優(yōu)化設計比最小最大設計所需樣本量要大,隨著無效籃子增多,差異越來越小,無效籃子占大多數時,最小最大設計的樣本量將反超。貝葉斯方法因為期中分析能自適應關閉試驗層,相比傳統籃子樣本量有明顯優(yōu)勢。此外,應用貝葉斯方法的籃子設計在同質情況(情形1和6)下樣本量最少。從表中我們可以發(fā)現,應用優(yōu)化Simon二階段的傳統籃子設計的Ⅰ類錯誤率均能控制在12%左右,相比應用最小最大Simon二階段的傳統籃子設計的Ⅰ類錯誤率稍高,情形2和3中,應用貝葉斯方法的籃子設計的無效層的Ⅰ類錯誤率稍高于Simon二階段的籃子設計,但隨著無效籃子增多,貝葉斯籃子設計對Ⅰ類錯誤率的控制逐漸顯示出優(yōu)勢,尤其在情形6所有層均無效時對每層的Ⅰ類錯誤率都能控制在5%左右。各情形下兩個Simon二階段方法的效能差異不大,都能達到80%左右,在前3個情景中,貝葉斯方法的籃子設計效能均優(yōu)于傳統籃子設計,但缺點就是異質的情況下效能明顯有所縮減,如情形4和5,效能范圍在63.7%~74.3%,明顯低于傳統籃子試驗的效能。
表1 傳統籃子設計和貝葉斯籃子設計無效假設下拒絕率的比較
注:灰色區(qū)域表示一類錯誤;非灰色區(qū)域表示檢驗效能。
試驗層數分別為3/5/10時不同籃子試驗設計下至少拒絕一次無效假設的概率見表2,從表中可以看出單獨使用Simon二階段設計的傳統籃子設計具有更高的整體假陽性率(即在至少一種腫瘤類型中實際無效的藥物被認為有效)。比如,5個腫瘤類型且每個腫瘤類型具有10%假陽性率,一個無效藥物被在一個或多個腫瘤類型中宣稱為有效的概率高達40%以上,若腫瘤類型增多,假陽性率則更高,相比之下,貝葉斯籃子設計優(yōu)勢顯現,既能借用層間信息,又能相對嚴格的控制整體假陽性率。
表2 傳統籃子設計和貝葉斯籃子設計總一類錯誤的比較
不同籃子試驗設計下的平均總樣本量比較見圖3,為了便于比較,我們分別設置不同試驗組的最大總樣本量為60/100/200。(A)~(C)圖參數設置唯一的差異就是貝葉斯籃子設計指定的每次期中分析納入人數不同,分別設置為5、10和20人。從圖中可明顯看到設置不同的期中分析人數,對貝葉斯方法的樣本量有所影響,所以臨床中要視實際情況而定。Simon二階段方法計算出的平均總樣本量差不多,優(yōu)化方法計算出的樣本量略高。如圖3(A),當每次期中分析納入5人時,應用貝葉斯方法的籃子設計計算出樣本量均小于傳統設計,當每次期中分析納入人數變多之后,應用貝葉斯方法的籃子設計樣本量增多,但當試驗層數和期中分析次數較多時貝葉斯籃子設計方法依舊是非常節(jié)省樣本量的。
圖3 傳統籃子試驗和貝葉斯籃子試驗的平均總樣本量比較
眾所周知,維羅非尼已經獲批用于含有BRAF V600E突變的黑色素瘤患者,它是針對不同原發(fā)部位和組織學的多種癌癥中的單一變異靶向藥,從而定義了疾病特異的籃子設計。Hyman[5]等研究者納入了122例攜帶BRAF V600E基因突變的患者,探索維羅非尼分別在非小細胞肺癌、卵巢癌、大腸癌、肝小膽管癌/膽管癌、乳癌、多發(fā)性骨髓瘤和其他實體瘤中的安全性和有效性,該籃子試驗的初步臨床療效很可觀,我們可以用貝葉斯方法去計算每個試驗層反應率的后驗概率。根據本文的模型,我們可以指定參數plo=0.15,phi=0.35,γ=0.5,λ=0.33,基于這些參數及實際數據,我們首先可以計算不同腫瘤亞組同質的后驗概率Pr[H0|data]=0.0034,可見同質性不高,因此層間借用信息很少,但從后驗概率的計算結果來看還是可以發(fā)現非小細胞肺癌、埃爾德海姆-切斯特病或朗格漢斯細胞組織細胞增生癥、間變性多形性黃瘤反應率大于有效率0.35的后驗概率分別是0.9787、0.9497、0.9067,可初步判斷維羅非尼對其治療有效,相反,在結腸直腸癌和神經膠質瘤中療效并不理想。此外,膽管癌、甲狀腺未分化癌、多發(fā)性骨髓瘤和其他種類的后驗概率處于界值之間,所以療效還不確定,需要進一步研究。有效的后驗概率可能并不用在正式評估,但它便于總結反應率觀察值和樣本大小,而這些發(fā)現將也有助于未來研究的設計。
表3 維羅非尼治療Braf V600陽性腫瘤籃子試驗的反應率大于0.35的后驗概率
隨著下一代測序和免疫治療的不斷發(fā)展,主方案(包括傘、籃子、平臺試驗)成為創(chuàng)新型臨床試驗的需求?;@子試驗是主方案的一種,目標是研究多種疾病或疾病亞型下的單一靶向治療[15]。越來越多的大型籃子試驗如NCI-MATCH[7]、TAPUR[10]正如火如荼的進行著?;@子設計適用于靶向藥物在早期腫瘤研究中的瘤種篩選以及以某一靶點為適應癥的臨床研究。早期腫瘤臨床試驗若采用籃子試驗設計來評估試驗中不同腫瘤患者的有效性和安全性,就會篩選出較有前途的瘤種進行確證性臨床試驗,從而提高早期腫瘤研發(fā)的效率。相同靶點的病人往往在不同瘤種所占比例非常低,若靶向藥療效好,不僅能提高臨床研究效率,同時也能節(jié)約臨床運營成本,使之盡早惠及患者,在控制醫(yī)療保健的社會成本方面發(fā)揮重要作用[3]。
在評估藥物對不同組織學/分子變異亞組療效時,人們有理由相信組間的臨床活性存在某種程度相似,也越來越多考慮借用組間信息提高試驗效率的貝葉斯方法的籃子試驗理論研究[16]。很多研究者提出使用貝葉斯層次模型的方法,本文介紹的基于貝葉斯方法的籃子試驗可以看作是二階段設計從單臂向多臂的推廣,也是層次貝葉斯方法的一種。理論上講,使用結果自適應跨組借用很有吸引力,但專家經驗表明采用貝葉斯層次模型的方法在10個或更少亞組的II期臨床試驗中可能不能有效的識別有反應的亞組[16]。對各適應癥單獨應用Simon二階段設計[13]進行分析往往不能控制整體Ⅰ類錯誤率,從而導致無效適應癥被繼續(xù)研究,若通過多重校正提高各適應癥檢驗水準來控制整體Ⅰ類錯誤率,則會導致樣本量變大,而籃子試驗大多是探索性II期試驗,樣本量通常較小,在這種情況下單獨評估療效是缺乏效能的[17]。本文介紹的基于貝葉斯方法的籃子試驗操作靈活,對整體Ⅰ類錯誤的控制率更為嚴格,在識別出藥物有足夠的活性前分配較少的樣本量,在試驗層數較多情形下節(jié)約樣本量,而且也可以推廣到組間不同質的情形,但不同的先驗選擇會影響信息借用程度,應用局限于終點指標為二分類變量的非隨機籃子試驗,因此貝葉斯籃子設計的理論與應用還需要進一步探討和研究。