第二軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室(200433)
張新佶 張?zhí)煲弧≡S金芳 葉小飛 錢 維 賀 佳△
?
隨機森林傾向性評分方法及其在藥品不良反應(yīng)信號檢測中的應(yīng)用*
第二軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室(200433)
張新佶張?zhí)煲辉S金芳葉小飛錢維賀佳△
【提要】目的探討利用隨機森林傾向性評分法控制混雜因素的基本思想和步驟,及其在藥品不良反應(yīng)信號檢測中的應(yīng)用。方法利用隨機森林計算給定危險因素的條件下研究對象服用雙膦酸鹽的概率,而后分別通過傾向性評分1:1匹配,1:M匹配和回歸調(diào)整法控制性別、年齡等混雜因素,分析服藥雙膦酸鹽與骨折發(fā)生風險的關(guān)系,并與logistic回歸傾向性評分法對應(yīng)結(jié)果進行比較。結(jié)果隨機森林傾向性評分法與logistic回歸傾向性評分方法的結(jié)果是一致的。其中,傾向性評分1:1匹配樣本量損失較大,且與1:M匹配和回歸調(diào)整法的結(jié)果相差較大。結(jié)論隨機森林傾向性評分法能有效控制藥品不良反應(yīng)信號檢測過程中的混雜因素,可以與logistic回歸傾向性評分法所得結(jié)果相互驗證,提高結(jié)果的可靠性;但1∶1匹配可能不適用于藥品自發(fā)呈報系統(tǒng)數(shù)據(jù)。
傾向性評分隨機森林不良反應(yīng)檢測混雜因素
藥品上市后不良反應(yīng)信號監(jiān)測主要依賴于藥品自發(fā)呈報系統(tǒng)數(shù)據(jù),由于藥品上市流通后,無法像隨機對照試驗?zāi)菢訉τ^察對象進行隨機分配,在分析過程中難免受到混雜因素的影響,導致藥品不良反應(yīng)分析結(jié)果的準確性面臨挑戰(zhàn)。
近年來,傾向性評分(propensity score,PS)作為一種新興的控制觀察性研究中混雜因素的方法,越來越受到研究者的重視[1-3]。傾向性評分法是在1983年由Rosenbaum和Rubin提出的一種均衡組間協(xié)變量的方法[4]。它首先計算出在給定協(xié)變量的條件下觀察對象被分到暴露組的概率,將其作為傾向評分值,然后根據(jù)得出的傾向評分值作為匹配或分層的依據(jù)從而實現(xiàn)對觀察對象的事后隨機化。由于傾向性評分值綜合了所有已觀測到的混雜因素,能夠去除這部分混雜因素帶來的偏倚,故在不存在未觀測到的混雜因素的前提下,傾向性評分法能夠?qū)崿F(xiàn)對觀察性研究中暴露因素的處理效應(yīng)的無偏估計[5]。目前最常用計算個體傾向評分值的方法仍然是logistic回歸模型,該方法具有模型簡單、容易實現(xiàn)、結(jié)果易于解釋等明顯優(yōu)勢。然而,logistic回歸模型有其特定的適用條件和局限性,因此,在利用logistic回歸模型計算傾向評分值時應(yīng)充分考慮數(shù)據(jù)是否滿足相應(yīng)條件[6]。近年來,很多國外的研究者開始探索采用機器學習方法計算傾向性評分值,常用的方法有神經(jīng)網(wǎng)絡(luò)、支持向量機、隨機森林和Boosting等。Lee等研究者比較了各種方法在傾向性評分時的性能,認為綜合的分類算法例如隨機森林、Boositng等具有一定的優(yōu)勢,特別是在變量較多而樣本量偏小或變量間存在多重共線性時,使用綜合的分類算法計算傾向性評分值產(chǎn)生的偏倚更小,結(jié)果更為穩(wěn)定[7]。
由于藥品自發(fā)呈報系統(tǒng)的數(shù)據(jù)量巨大,且在藥品不良反應(yīng)信號檢測過程中缺乏金標準,單一的方法進行數(shù)據(jù)挖掘時很容易得到大量的有統(tǒng)計學意義的藥品-不良反應(yīng)組合,給進一步的臨床評價實施帶來困難。因此,有必要采用不同方法進行相互驗證以排除假陽性信號,提高信號檢測的效率。本文擬介紹利用隨機森林計算傾向性評分值的基本思想,以FDA不良事件報告系統(tǒng)中的實際數(shù)據(jù)為例,介紹隨機森林傾向性評分法在藥品不良反應(yīng)信號檢測過程的應(yīng)用步驟及實現(xiàn)代碼。該方法能控制藥品不良反應(yīng)信號檢測過程的混雜因素,可與logistic回歸傾向性評分進行相互驗證,以減少假陽性信號;或者作為logistic回歸傾向性評分的一種補充,在數(shù)據(jù)不滿足其適用條件時進行有效分析。
1.隨機森林的構(gòu)建[8-10]
(1)如圖1所示,應(yīng)用自助法(bootstrap)重抽樣技術(shù)有放回地隨機抽樣N次,每次從原始數(shù)據(jù)中抽取約2/3的數(shù)據(jù)生成一個自助樣本集,作為一棵分類樹的訓練數(shù)據(jù),并由此數(shù)據(jù)構(gòu)建分類樹,每次未被抽到的1/3樣本組成N個袋外數(shù)據(jù),作為測試數(shù)據(jù),用于估計分類誤差。
(2)每個自助樣本集用于建立一棵決策樹或者條件樹。在生成每棵樹的過程中,一般在每個節(jié)點處從全部變量中隨機抽取M個變量,然后在M中選擇一個最具有分類能力的變量對數(shù)據(jù)進行分類。分裂準則可采用Gini不純度、熵不純度等等方式。變量分類的閾值通過檢查每一個分類點確定。
(3)利用每棵分類樹對數(shù)據(jù)進行分類與判別,隨機森林總的分類結(jié)果按每棵分類樹的投票多少而定。袋外數(shù)據(jù)為測試集,用于評價每棵樹的性能。
圖1 構(gòu)建隨機森林示意
2.利用隨機森林計算傾向性評分值
(1)隨機森林是由樹組成,根據(jù)生成方式的不同可以將樹分為決策樹和條件樹?!皹洹逼鋵嵕褪且环N樹型分類方法,目的是將研究人群通過設(shè)定的危險因素分成若干個相對同質(zhì)的亞人群。其結(jié)構(gòu)類似一棵倒置的樹,由主干和許多分支組成。在樹中有許多節(jié)點即樹結(jié)。如圖2所示,橢圓形框為中間結(jié),表示各項危險因素(或協(xié)變量)。長方形框為終止結(jié)。每個樹結(jié)中的數(shù)字為分類結(jié)果,樹結(jié)間有實線連接,在橢圓形框下方標有判別條件。終止結(jié)內(nèi)為判別到該類別的例數(shù)。每棵樹都給出一定條件下研究對象被分配到暴露組(如感染乙肝組)或?qū)φ战M(如未感染乙肝組)的分類。
圖2 隨機森林中單棵樹對人群的分類示例
(2)隨機森林根據(jù)某個研究對象的特征(即協(xié)變量的取值),將所有單棵樹的分類結(jié)果綜合起來進行判定,計算其被分到暴露組或?qū)φ战M的概率,得到一個綜合傾向性評分值。如圖3所示,隨機森林中總共建立了n棵樹,每棵樹都根據(jù)該研究對象的特征進行了一次判定,共判斷了n次。其中n2棵樹判斷某個研究對象屬于1類(假設(shè)1類代表被分到暴露組),那么該研究對象被分到暴露組的概率(即傾向性評分值)為n2/n,同理,可計算該研究對象被分到對照組的概率為n1/n。
由于隨機森林法是綜合分類器得出的結(jié)果,因而比一般的分類樹或決策樹具有更高的準確性,得出的分類概率也相對較可靠。同時,隨機森林對數(shù)據(jù)的樣本量不作限制,在小樣本時同樣能發(fā)揮較好的作用。
圖3 隨機森林計算傾向性評分值
1.實例采用FDA不良事件報告系統(tǒng)中2011年1月1日至2012年12月31日兩年內(nèi)上報的有關(guān)“雙膦酸鹽-骨折”不良反應(yīng)監(jiān)測數(shù)據(jù)。本實例中,擬研究雙膦酸鹽與骨折之間的關(guān)系,暴露因素為是否服用雙膦酸鹽,結(jié)局變量為是否發(fā)生“骨折”,二者皆為二分類變量。由于每份報告中包含多個“藥品-不良事件”的組合,進行單藥分析時有些報告可能被拆成了幾例甚至幾十例進行分析。進行拆分無疑增加了對照的例數(shù),并且對照之間不獨立。因此,本研究將每份報告作為1例進行分析,如果報告了目標藥品雙膦酸鹽則作為1例暴露進行分析,反之則作為1例對照。從FDA不良事件報告系統(tǒng)中選擇與結(jié)局或暴露變量有關(guān)的協(xié)變量,結(jié)合數(shù)據(jù)填寫完整情況,選擇5個協(xié)變量用于演示隨機森林傾向性評分法的應(yīng)用過程,包括年齡、性別、體重和報告地區(qū)和不良反應(yīng)觸發(fā)時間。分析數(shù)據(jù)集中共4942份報告,其中暴露組樣本量為916份,對照組為4026份。
2.分別利用logisitic回歸和隨機森林算法計算傾向性評分值,并將結(jié)果輸出到數(shù)據(jù)集中。隨機森林計算傾向性評分的R軟件代碼如下(#后文字為注釋):
> dataset <-read.table(“H:/data.txt”,header=T)#導入數(shù)據(jù)集
> y_c<-factor(dataset$Y,levels=0:1)#將暴露變量設(shè)置為0-1變量
> dataset<-cbind(dataset,y_c)
>result<-randomForest(y_c~ X1+X2+…X5,data=dataset,ntree=500,mtry=1,replace=FALSE,nodesize=5,importance=TRUE)#用隨機森林計算傾向性評分值,X1~X5分別代表年齡、性別、體重、報告地區(qū)和不良反應(yīng)觸發(fā)時間等5個協(xié)變量
> ps<-result$vote #將PS值導出到數(shù)據(jù)集
> write.table(ps,file=“H:/ps.txt”,row.names=F,quote=F)
3.利用傾向性評分控制混雜因素后,應(yīng)用logistic回歸分析 “雙膦酸鹽-骨折”是否為潛在不良反應(yīng)信號??刂苹祀s因素的方法包括傾向性評分1∶1匹配,1∶4匹配,回歸調(diào)整(表1)。
表1 雙膦酸鹽與骨折之間的關(guān)系分析
利用logistic回歸傾向性評分和隨機森林傾向性評分控制混雜因素后進行分析的結(jié)果是一致的,兩種方法的計算結(jié)果可以相互驗證,為進一步的分析提供更加穩(wěn)健的結(jié)果。值得注意的是,1∶1匹配后數(shù)據(jù)提示雙膦酸鹽與骨折之間沒有關(guān)系,而1∶4匹配和回歸調(diào)整均提示“雙膦酸鹽-骨折”為可疑信號。這可能是由于自發(fā)呈報系統(tǒng)數(shù)據(jù)中暴露組與對照組的比例懸殊較大,采用1∶1匹配法不僅造成樣本的大量損失,甚至可能改變樣本結(jié)構(gòu),影響處理效應(yīng)的估計。
本文針對觀察性研究數(shù)據(jù),介紹了控制混雜因素的隨機森林法傾向性評分法,并以FDA不良事件報告系統(tǒng)的數(shù)據(jù)為實例展示了該方法在不良反應(yīng)信號檢測過程中的實施步驟和程序?qū)崿F(xiàn)。隨機森林作為一種組合分類方法,已經(jīng)越來越多地應(yīng)用在生物醫(yī)學和醫(yī)藥衛(wèi)生領(lǐng)域[11]。在基因表達數(shù)據(jù)領(lǐng)域,許多微陣列數(shù)據(jù)的分析均采納了隨機森林算法,包括基因篩選和對微陣列數(shù)據(jù)進行分類。在研究疾病的保護及危險因素方面,隨機森林也能較好地識別疾病的危險或保護因素。隨機森林是一種非參數(shù)的機器學習算法,它對變量之間的關(guān)系不作任何要求,且對樣本量不作限制,能夠分析線性、非線性以及具有交互作用的復(fù)雜數(shù)據(jù),是一種有效的預(yù)測工具。隨機森林與傾向性評分的結(jié)合,可以對傳統(tǒng)logistic回歸傾向性評分的分析結(jié)果進行相互驗證,提高結(jié)果的穩(wěn)定性;還能作為一種補充分析方法,彌補傳統(tǒng)的logistic回歸傾向性評分法對樣本量和數(shù)據(jù)完整性及變量間關(guān)系的限制,可作為其補充或驗證,有一定推廣應(yīng)用價值[12-13]。
計算出傾向性評分后,可以采用匹配法、分層法或回歸調(diào)整法對混雜因素進行控制。在實際應(yīng)用中,由于藥品不良反應(yīng)自發(fā)呈報系統(tǒng)數(shù)據(jù)庫中暴露組和對照組的樣本量差別很大,1∶1匹配的樣本量損失過多且有可能改變樣本特征,因此,并不建議在藥品不良反應(yīng)信號檢測中使用匹配法。1∶M匹配也會損失一定的樣本量,而且M取值多少最合適也沒有定論。因此,在藥品不良反應(yīng)自發(fā)呈報系統(tǒng)數(shù)據(jù)中使用傾向性評分時,建議采用不損失樣本量,保留原有信息的方法,如回歸調(diào)整法。
隨機森林傾向性評分作為一種控制混雜的有效方法,近年來其應(yīng)用呈逐年上升趨勢,然而,在實際運用時仍然需要注意其局限性。首先,傾向性評分只能調(diào)整觀察到的協(xié)變量,對于未觀察到的協(xié)變量,傾向性評分是無法處理的。其次,隨機森林作為一種非參數(shù)的機器學習算法,其穩(wěn)定性和可靠性在模擬研究中被評估過,其實際應(yīng)用效果尚需大量實踐驗證。在數(shù)據(jù)滿足logistic回歸的應(yīng)用條件時,建議仍用logistic回歸計算傾向性評分,隨機森林傾向性評分方法可作為其驗證和補充。最后,計算傾向性評分時協(xié)變量的選擇也十分重要。只有選擇了真正的混雜因素,才能提高后續(xù)效應(yīng)估計的精度。若協(xié)變量選擇不當,則有可能造成矯正過正。選擇協(xié)變量的常用方法有四種:①只考慮與暴露因素有關(guān)的協(xié)變量;②只考慮與結(jié)局有關(guān)的協(xié)變量;③考慮既與暴露因素又與結(jié)局有關(guān)的協(xié)變量;④考慮測量的一切協(xié)變量,不管其與暴露因素和/或結(jié)局是否相關(guān)。目前應(yīng)用較廣的是第②種。
[1]Grosse-Sundrup M,Henneman JP,Sandberg WS,et al.Intermediate acting non-depolarizing neuromuscular blocking agents and risk of postoperative respiratory complications:prospective propensity score matched cohort study.British Medical Journal,2012,345:e6329.
[2]Charlot M,Grove EL,Hansen PR,et al.Proton pump inhibitor use and risk of adverse cardiovascular events in aspirin treated patients with first time myocardial infarction:nationwide propensity score matched study.British Medical Journal,2011,342:d2690.
[3]呂軍陳,王素珍.傾向性指數(shù)匹配法在肺癌化療效果評價中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2014(2):190-192.
[4]Little RJ,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70(1):41-55.
[5]Luellen JK,Shadish WR,Clark MH.Propensity Scores:An Introduction and Experimental Test.Evaluation Review,2005,29(6):530-558.
[6]吳美京,吳騁,王睿,等.傾向性評分中評分值的估計方法及比較.中國衛(wèi)生統(tǒng)計,2013,30(3):440-444.
[7]Lee BK,Lessler J,Stuart EA.Improving propensity score weighting using machine learning.Statistics in Medicine,2010,29(3):337-346.
[8]錢維,王超,吳騁,等.運用隨機森林分析藥品不良反應(yīng)發(fā)生的影響因素.中國衛(wèi)生統(tǒng)計,2013,30(2):209-213.
[9]錢維.藥品不良反應(yīng)監(jiān)測中隨機森林方法的建立與實現(xiàn).第二軍醫(yī)大學碩士論文,2012.
[10]Breiman L.Random forests.Machine learning,2001,45(1):35-32.
[11]Moorthy K,Mohamad MS.Random forest for gene selection and microarray data classification.Bioinformation.2012,7(3):142-146.
[12]Sturmer T,Joshi M,Glynn RJ,et al.A review of the application of propensity score methods yielded increasing use,advantages in specific settings,but not substantially different estimates compared with conventional multivariable methods.Journal of Clinical Epidemiology,2006,59(5):437-447.
[13]Westreich D,Lessler J,Funk MJ.Propensity score estimation:neural networks,support vector machines,decision trees(CART),and meta-classifiers as alternatives to logistic regression.Journal of Clinical Epidemiology,2010,63(8):826-833.
(責任編輯:鄧妍)
Random Forest Propensity Scores Method and its Application in Drug Adverse Reaction Signal Detection
Zhang Xinji,Zhang Tianyi,Xu Jinfang,et al
(Department of Health Statistics,Second Military Medical University(200433),Shanghai)
ObjectiveThe aim of this paper is to describe the basic ideas and algorithms of random forest propensity scores method for controlling confounders and apply it in detecting drug adverse reaction signals.MethodsFirst,we used random forest to calculate a patient′s probability of taking bisphosphonates.Then,we analyzed the association of bisphosphonate intake with risk of fracture by controlling potential confounders with propensity score method.The controlling confounders methods included 1∶1 matching,1∶Mmatching and regression adjustment by using the propensity score calculated by random forest.The results were compared with those from logistic propensity score.ResultsThe results of random forest propensity score and logistic propensity score were comparable.One to one propensity score matching cause a lot of sample lost and its results were quite different from those based on other methods.ConclusionRandom forest propensity score method can reduce the confounding bias.Hence,it could be used as an alternative to and verification of the logistic propensity score in controlling confounders.However,1∶1 propensity score matching may not be suitable for adverse drug reaction data from a spontaneous reporting system.
Propensity score;Random forest;Adverse reaction detection;Confounder
國家自然科學基金(No.81373105,81502895)
賀佳,E-mail:hejia63@yeah.net