朱 迪 劉 寶
21世紀以來,真實世界研究(real-world study)在我國發(fā)展迅速,已逐漸成為藥物研發(fā)與監(jiān)管、相關衛(wèi)生政策制定的重要依據(jù)。我國在2002年提出要使用醫(yī)保數(shù)據(jù)為藥物處方與藥物經(jīng)濟學評價提供支持;2010年,“真實世界證據(jù)”一詞首次被應用于一項中藥的研究中;2012年,中國醫(yī)師協(xié)會開展了一項關于“如何在觀察性研究中評估健康干預效果”研究;2018年,3項我國的真實世界研究支持了貝伐珠單抗在我國的適應證拓展;2019年,國家藥審中心發(fā)布了《真實世界證據(jù)支持藥物研發(fā)的基本考慮(征求意見稿)》,涵蓋上市前臨床研發(fā)和上市后再評價等環(huán)節(jié)[1-3]。
大量真實世界研究需要使用觀察性數(shù)據(jù)進行因果推斷,如政策效果評估中需要考察政策實施帶來的結(jié)果與影響,藥物經(jīng)濟學評價中需考察不同用藥方案成本與健康結(jié)果的差異[4]。因果推斷的具體方法包括匹配法、斷點回歸法、工具變量法、結(jié)構(gòu)方程模型法等等,其中最為常用的方法之一是傾向性評分匹配法(propensity score matching, PSM)[5-6]。
PSM應用十分廣泛,但同時也具有一定局限性。有學者論證了PSM的局限性,并提出“粗化精準匹配”(coarsened exact matching, CEM);CEM在某些方面比常見匹配方法更加具有優(yōu)勢,且已有一定的實證性研究驗證了其效果[7-8]。
本研究首先對因果推斷及真實世界研究進行介紹,然后對真實世界研究中常用的“匹配(matching)”方法進行闡述;在此基礎上進一步介紹CEM,并基于文獻闡述其與 PSM 等匹配方法比較的優(yōu)勢,為CEM的推廣與應用做鋪墊。
因果推斷是尋找觀測到的現(xiàn)象的成因的過程,通過模型與統(tǒng)計方法,對兩者之間的因果關系進行判斷[4]。
現(xiàn)在最常用于因果推斷的模型是1970年提出的“反事實框架(counterfactual framework)”,也叫“潛在結(jié)果框架(potential outcomes framework)”。反事實框架基于這樣一種邏輯:一個個體接受或未接受某種干預時,結(jié)果指標的差異即為干預產(chǎn)生的結(jié)果,因此便可以將干預與結(jié)果之間建立因果關系;但是一個個體不可能同時處于干預和不干預兩種不同的狀態(tài),因此要通過多種方式(如選擇相似的個體、同一個體先后觀察兩種干預狀態(tài)和結(jié)果指標等)來模擬不能與被觀測的狀態(tài)同時存在的另一種狀態(tài),建立“虛擬的事實”,進行因果推斷[9]。
在實際應用中,因果推斷的重要作用是觀察不同的健康干預措施后的健康產(chǎn)出,以測量健康干預措施的效果[9]。一般會通過內(nèi)部效度(internal validity)和外部效度(external validity)來評估因果推斷的有效性。內(nèi)部效度用來衡量干預與結(jié)果之間關系的確實性程度,因果推斷越準確,則內(nèi)部效度越高,結(jié)論越可信;外部效度用來衡量研究結(jié)果的代表性與普遍性,樣本人群對總體人群越有代表性、結(jié)論越能在更多人群中推廣,則外部效度越高,研究與結(jié)論越具有現(xiàn)實意義。
隨機對照試驗(randomized-control trial, RCT)具有很好的內(nèi)部效度,被視為因果推斷的金標準;但由于其納入排除標準嚴格,樣本人群對總體人群的代表性較弱;為了更好地進行因果推斷,RCT往往對干預措施有一定的限制,這種與實際情況的差異也會導致外部效度的下降。另外,RCT也面臨難以操作、成本高昂等問題,有時也會因為倫理問題而難以實施[9-10]。
由于RCT具有上述局限性,研究者們開始尋找通過觀察性數(shù)據(jù)進行因果推斷的方法。國內(nèi)外已有越來越多的學者開始使用觀察性數(shù)據(jù)進行真實世界研究,國內(nèi)也有學術(shù)組織對相關研究建立了方法學框架。真實世界研究體系主要包括建立研究型數(shù)據(jù)庫、研究設計、政策轉(zhuǎn)化 3大內(nèi)容。研究者需要從電子病歷、醫(yī)保數(shù)據(jù)庫等中獲取信息并進行整合,“基于科研目的,形成統(tǒng)一、標準化、可用的研究型數(shù)據(jù)庫形式”[11]。真實世界研究的設計思路與RCT略有不同:RCT需要首先明確研究目標并進行研究設計,以此為基礎進行干預并收集數(shù)據(jù),進行統(tǒng)計分析與政策建議;真實世界研究則在明確研究目的后,對已有的觀察性數(shù)據(jù)進行探索與全面了解,以此為基礎形成相應的研究設計,之后對數(shù)據(jù)進行整理與分析,并提出政策建議[5]。
與RCT等干預性研究比較,真實世界研究所需要的觀察性數(shù)據(jù)相對容易獲得,對總體人群更加具有代表性,外部效度較高;但基于觀察性數(shù)據(jù)進行研究設計與因果推斷時面臨內(nèi)部效度較低的問題,主要體現(xiàn)為各種偏倚與混雜影響結(jié)果的真實性、可靠性[12]。
“匹配”是使用真實世界觀察性數(shù)據(jù)進行因果推斷時的重要方法,可以提高因果推斷的內(nèi)部效度[10]。匹配是為了根據(jù)研究目的從總體的觀察性數(shù)據(jù)集中識別出這樣一組子數(shù)據(jù)集:這個子數(shù)據(jù)集由RCT產(chǎn)生,根據(jù)是否接受健康干預措施可被分為干預組與對照組,使兩組樣本在除了健康干預之外的協(xié)變量情況盡可能一致。如果能夠識別出這樣的子數(shù)據(jù)集并去除其他樣本,就相當于從觀察性數(shù)據(jù)集中識別出了經(jīng)過隨機對照的研究設計得到的數(shù)據(jù)集,便能夠使用觀察性數(shù)據(jù)模擬隨機對照試驗,提升證據(jù)力度與內(nèi)部效度[7]。
最理想的情況下,干預組中的每個樣本都能匹配到對照組中的某個樣本,且兩個對應的樣本在所有協(xié)變量上的情況完全一致。這種情況被稱為精準匹配(exact matching)。在這種情況下,干預組與對照組在健康產(chǎn)出上的差異完全由干預帶來。但在實際情況中往往無法做到精準匹配,只能為干預組中的部分樣本匹配到“相似”的樣本作為對照。此時,健康產(chǎn)出的差異不完全是由干預帶來的,因此在匹配后還需要進一步借助統(tǒng)計模型進行推斷。
想要得出可信的因果推斷結(jié)論,需要降低模型依賴性和干預組與對照組之間的不平衡性。有效的的匹配可以實現(xiàn)這樣的目的[8]。
2.2.1 匹配降低模型依賴性模型依賴性(model dependence)是指統(tǒng)計推斷會受到統(tǒng)計模型選擇的影響,導致不同的統(tǒng)計模型可能會給出不同的結(jié)果,影響結(jié)果的真實性、可靠性。
使用觀察性數(shù)據(jù)進行統(tǒng)計推斷時,需要基于數(shù)據(jù)情況、研究目的等多種因素進行研究設計并選擇統(tǒng)計模型?,F(xiàn)實情況中,面對大量的觀察性數(shù)據(jù),研究者難以很好地掌握所有的數(shù)據(jù)細節(jié),因此并不知道何種統(tǒng)計模型最適合于當前的觀察性數(shù)據(jù)。這時,研究者會基于經(jīng)驗和實際情況使用多種模型進行嘗試,并得到多種研究結(jié)果;之后,研究者會根據(jù)經(jīng)驗與專業(yè)知識等,對模型與結(jié)果進行選擇、報告與發(fā)表。在因果推斷的過程中納入研究者的經(jīng)驗與專業(yè)知識有利于得到更加可信的研究結(jié)果,但也可能導致研究者的偏好、利益相關等因素影響到模型與研究方法的選擇,進而影響研究結(jié)果[7]。
上述情況的存在使模型依賴性成為衡量研究結(jié)果真實可靠與否的重要維度。有學者設計出了指標來測算模型依賴性大小,用于衡量統(tǒng)計推斷結(jié)果對模型選擇依賴程度。通俗地來講,對于一個數(shù)據(jù)集,如果使用不同模型得出的統(tǒng)計推斷結(jié)果差異較大,即模型的選擇對統(tǒng)計推斷有很大的影響,則被認為模型依賴性較大;如果使用不同的模型得出的統(tǒng)計推斷結(jié)果幾乎沒有差異,即模型的選擇基本不影響統(tǒng)計推斷,則被認為模型依賴性較小。模型依賴性小的因果推斷更加真實、可靠;有效的匹配可以降低模型依賴性[7-8]。
2.2.2 匹配降低不平衡性如前文所述,匹配的目標是通過對真實世界觀察性數(shù)據(jù)的處理與刪減,使最終篩選出的數(shù)據(jù)集近似從嚴格設計的隨機對照實驗中得到的數(shù)據(jù)集;最理想的情況是精準匹配[13]。因此,可以用匹配后得到的數(shù)據(jù)集與精準匹配時得到的數(shù)據(jù)集之間的差距來衡量匹配的效果,即越接近精準匹配,則匹配的效果越好;這種差距被稱為“不平衡性(imbalance)”。
數(shù)據(jù)集的不平衡性降低時,其模型依賴性也會越降低;有效的匹配可以降低數(shù)據(jù)集的不平衡性,同時也會降低其模型依賴性;基于這樣的數(shù)據(jù)集得出的因果推斷更加真實可靠[7]。
有效的匹配應該經(jīng)歷兩大步驟:首先,需要將干預組與對照組中的“非一般經(jīng)驗支持樣本(units outside the common empirical support)”從觀察性數(shù)據(jù)集中去除,否則會對研究的外推性提出要求,而這是根據(jù)數(shù)據(jù)本身無法給出的;然后,在剩余的樣本中,根據(jù)樣本之間的相似程度,將干預組與對照組的樣本進行匹配。只有識別出了哪些是可以進行有效匹配樣本,才能夠判斷哪些是非一般經(jīng)驗支持樣本;但是只有當匹配過程降低了數(shù)據(jù)集的不平衡性,才能夠識別出能夠有效匹配的樣本;然而,要衡量數(shù)據(jù)集的不平衡性的變化,首先要將非一般經(jīng)驗支持樣本去除。雖然研究者們提出了很多識別、去除非一般經(jīng)驗支持樣本的方法,如核密度估計等,但是這種邏輯循環(huán)卻無法避免;也因為其他種種困難,很多研究在實踐中跳過了第一步驟,直接對整個觀察性數(shù)據(jù)集進行匹配[8]。
現(xiàn)在最常用的匹配方法之一是 PSM?;趨f(xié)變量計算每個樣本的傾向性評分后,將干預組與對照組之間評分最接近的樣本匹配在一起,可以使匹配后的數(shù)據(jù)集接近于通過完全隨機對照試驗產(chǎn)生的數(shù)據(jù)集。但是,和大量其他方法一樣,PSM 方法也無法解決前文提到的邏輯循環(huán)等難題;且由于PSM基于傾向性評分進行匹配,并非直接基于協(xié)變量進行匹配,因此無法保證配對成功的樣本的協(xié)變量取值相似;在實踐中需要進行多次嘗試,或者加入一些其他限制條件,直到匹配出干預組與對照組在協(xié)變量的不平衡性在可接受范圍內(nèi)的結(jié)果。這種匹配方法在不斷地嘗試的過程中去發(fā)現(xiàn)不平衡性較低的結(jié)果,隨機性大,效率低下,在某些情況下效果較差。另外,由于PSM通過匹配來模擬完全隨機對照試驗,因此會產(chǎn)生“傾向性評分悖論(propensity score paradox)”:在數(shù)據(jù)集本身不平衡性較大的時候,可以一定程度上減少不平衡性;但是若數(shù)據(jù)集的不平衡性本身已經(jīng)較低,希望通過匹配來使其進一步降低,此時PSM會增加其不平衡性[7,14-15]。
King和Nielsen[7]、Iacus等[8]提出的CEM能夠一定程度上克服上述困難。CEM的思想是先“粗化”,再精準匹配?!按只辈⒎窃谶@里首次出現(xiàn),它是一種研究者常用的數(shù)據(jù)處理方法。比如,對于教育程度變量,研究者一般會將其分類為小學、高中、大學等,而較少更加細致地分為小學一年級、小學二年級等;又如,對于年齡變量,根據(jù)不同的研究類型,可以將其作為連續(xù)性變量納入研究,也可將其分段并作為分類變量納入研究,這種分段即為粗化思想的應用。雖然在匹配過程中進行粗化會不可避免地帶來信息的損失,但是CEM后的統(tǒng)計分析仍然使用原數(shù)據(jù)集中的值,而不是在CEM中粗化后的值;因此,CEM的粗化對后續(xù)建模與統(tǒng)計分析帶來的影響很小。
CEM的實施可大致分為4步:1)將所有要納入匹配的協(xié)變量記為X= (X1,X2, . . . ,Xk),X是一個用來表示每個樣本在k個協(xié)變量上取值的k維向量;復制每個樣本的X,并記為X*,用于進行后續(xù)粗化和匹配。2)根據(jù)研究目的、文獻、國際標準、研究者的經(jīng)驗或?qū)I(yè)知識等,對X*中的每個變量進行粗化。3)根據(jù)每個協(xié)變量的粗化情況建立層,并將所有X*放入相應的層內(nèi);例如,如果在第二步中每個變量都被粗化為了3類,那么在這一步就會建立3k個層。4)判斷每個層中是否同時存在干預組和對照組,如果是,則保留這個層以及其中的樣本,反之則刪除;最后根據(jù)篩選后留下的X*在原數(shù)據(jù)集中找到對應的X,得到最終的匹配結(jié)果。
與PSM等常見匹配方法相比,CEM具有許多優(yōu)勢和特性[8,16-17]:1)匹配的有效與否由兩組間的不平衡性判斷,不平衡性降低則匹配有效;CEM 的原理決定了它不會使不平衡性上升,保證了匹配的有效性。在進行粗化時,不平衡性的上限就已被決定,后續(xù)的匹配過程不會使不平衡性上升。2)CEM在進行粗化和匹配時,對每個協(xié)變量的處理是獨立的,對一個協(xié)變量的處理不會影響其他協(xié)變量的粗化與匹配。研究者可以對每個協(xié)變量進行單獨處理,有利于降低兩組間的不平衡性,同時也能夠單獨研究每個協(xié)變量對降低不平衡性的貢獻。PSM 等方法需要使用所有協(xié)變量構(gòu)建傾向性評分,并根據(jù)傾向性評分進行匹配,研究者難以對每個協(xié)變量進行單獨的處理與研究。3)CEM 符合“一致性原則(congruence principle)”,有利于因果推斷。常用的匹配方法不基于原始數(shù)據(jù)進行匹配,如PSM方法基于傾向性評分進行匹配,馬氏距離法使用原始數(shù)據(jù)計算馬氏距離進行匹配,這會導致因果推斷力度變?nèi)?。CEM 基于原始數(shù)據(jù)進行匹配,在更加符合直覺的同時,有利于做出有力因果推斷。4)CEM不需要提前去除非一般經(jīng)驗支持樣本。如前文所述,匹配面臨邏輯循環(huán):有效的匹配需要首先去除非一般經(jīng)驗支持樣本,而這需要基于有效的匹配。CEM 將去除樣本和匹配兩個步驟合二為一,在同一個層中不同時存在干預組和對照組的樣本時,這個層中的樣本便未被匹配并被去除。這樣的操作簡單、易理解,且由于不需要提前去除樣本,更有利于比較匹配前后數(shù)據(jù)集的不平衡性,以衡量匹配的效果。5)對于質(zhì)量較好的數(shù)據(jù)集,CEM能夠保留大量的樣本,且速度比其他匹配方法更快。有研究使用真實的數(shù)據(jù)集比較不同匹配方法的效果,發(fā)現(xiàn)CEM能夠保留最多樣本量,且計算機運算時間最短;也有一項實證研究對相同的數(shù)據(jù)庫分別使用了 PSM和CEM,發(fā)現(xiàn)CEM保留了更多的樣本[8,18-19]。大量的樣本保證了數(shù)據(jù)集對目標人群的代表性,同時也能夠增強因果推斷的力度。6)CEM可以降低的模型依賴性。由于CEM不會使不平衡性上升,可以穩(wěn)定地降低數(shù)據(jù)集的不平衡性。模型依賴性會隨著不平衡性的下降而下降,因此CEM可以在較低的模型依賴性下做出更加可信的因果推斷。另外,CEM可以納入幾乎所有類型的協(xié)變量;CEM可以將缺失作為單獨的一種取值來進行匹配。CEM的效果受到粗化方式的影響,粗化得越合理、越細致,則匹配效果越好;不過有研究在同一數(shù)據(jù)集中嘗試不同的粗化方式,發(fā)現(xiàn)更加合理的粗化方式確實能夠使匹配后的不平衡性下降得更多,但沒有明顯的優(yōu)勢,即粗化方式的不同不會顯著地影響匹配效果,研究者在粗化方式的選擇上有較大的自由空間[8]。
部分實證研究已采用了CEM。在Pubmed數(shù)據(jù)庫中以“coarsened exact matching”為關鍵詞進行檢索,截止到2019年4月,共有131篇文獻;其中66篇為公共衛(wèi)生領域的實證性研究,43篇為關于臨床操作項目的實證性研究,9篇為關于臨床用藥的實證性研究。
大多干預性研究通過對干預組及其對照組進行匹配,評估干預措施對醫(yī)療費用/健康產(chǎn)出的影響,進而評估干預措施/政策的實施效果,為監(jiān)管與決策提供證據(jù)。
美國與歐洲都已開始使用真實世界研究為藥品監(jiān)管提供證據(jù)。美國食品藥品管理局(FDA)于2018年發(fā)布了《真實世界證據(jù)項目框架》,指出真實世界研究可提供健康產(chǎn)品的安全性、有效性證據(jù),可以輔助決策,發(fā)揮加快審批流程等重要作用;歐洲藥品管理局EMA于2018年發(fā)布文件闡述了真實世界研究在藥品上市前后可以發(fā)揮的不同作用[20-21]。
已有一些真實世界研究為藥品的監(jiān)管提供了支持。一項2014年的真實世界研究為Invega Sustenna的適應證拓展提供了證據(jù);一項2016年的真實世界研究作為一項單臂的Ⅱ期臨床試驗的對照,加快了Bavencio在歐洲和美國的上市;另有三項我國的回顧性真實世界研究為貝伐珠單抗在我國的適應證拓展提供了證據(jù)[22-23]。
隨著我國醫(yī)院電子病歷數(shù)據(jù)庫、醫(yī)保數(shù)據(jù)庫等的完善,真實世界研究能夠在藥品上市后的安全性與有效性評估、費用研究、藥物經(jīng)濟學評價、預算影響分析等方面發(fā)揮重要作用,為藥品監(jiān)管與相關決策提供支持。
真實世界研究需要采用包括匹配在內(nèi)的多種方法提升其真實性、可靠性,提升其證據(jù)力度。PSM是最常用的方法之一,它使用協(xié)變量構(gòu)建傾向性評分,將具有多個維度的個體特征壓縮至一維并以之為匹配的依據(jù);CEM不對個體特征的維度數(shù)量進行壓縮,而是對每個維度的取值進行粗化,并基于多維特征進行匹配。這種原理上的差異產(chǎn)生了匹配結(jié)果上的差異。
一些實證性研究顯示PSM等匹配方法能夠匹配出更多的樣本,但是要納入所有可能對結(jié)果有影響的協(xié)變量,否則會影響結(jié)果的真實性。CEM能夠避免匹配過程中的邏輯循環(huán),在匹配后大幅降低干預組與對照組之間的不平衡性并降低模型依賴性;但是一些實證性研究顯示CEM獲得的樣本量較少,特別是在協(xié)變量中包含大量分類變量的情況下,CEM的結(jié)果可能會失去對原人群的代表性。樣本量越大則能夠?qū)υ巳河懈玫拇硇?,兩組間越均衡則更能得出真實可信的結(jié)論;PSM與CEM在這兩方面各有優(yōu)劣,研究者需要結(jié)合數(shù)據(jù)的實際情況與研究設計在樣本量與均衡性兩方面進行權(quán)衡,選擇恰當?shù)钠ヅ浞椒╗7,15,24-25]。
除了可單獨使用外,CEM也可與其他匹配方法共同使用,提高匹配效果。比如,可以在CEM將變量粗化、分層并匹配后,將同一層內(nèi)的干預組與對照組樣本使用其他匹配方法進行二次匹配;或者也可以在CEM之后,對得到的數(shù)據(jù)集整體直接使用其他的匹配方法再次匹配,此時是將CEM作為去除非一般經(jīng)驗支持樣本的手段,提升匹配效果[8,14]。
CEM是一種優(yōu)秀的匹配方法,但國內(nèi)還鮮有實證性研究使用;PSM和CEM各有優(yōu)劣,適用于不同類型的數(shù)據(jù)與研究設計。近幾年,越來越多的研究開始使用真實世界數(shù)據(jù),更加需要基于實際情況選擇合適的匹配方法,以獲得更加科學可信的研究結(jié)果。