廣東藥科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室(510310)
李偉南 林暢琪 廖海寧 潘敏儀 郜艷暉 周舒冬△
【提 要】 目的 介紹隨機效應(yīng)-最大期望回歸樹模型(random effect-expectation maximization regression tree,RE-EM回歸樹)方法原理,比較RE-EM回歸樹與CART回歸樹在具有系統(tǒng)結(jié)構(gòu)特征的縱向數(shù)據(jù)中的估計效果。方法 通過計算機生成不同參數(shù)設(shè)置的模擬數(shù)據(jù),比較在不同隨機效應(yīng)及殘差存在相關(guān)結(jié)構(gòu)的縱向數(shù)據(jù)中兩種樹模型對特征空間的預(yù)測能力,并通過均方殘差指標對擬合效果進行評價。結(jié)果 本研究所構(gòu)建的RE-EM回歸樹在不同參數(shù)設(shè)置下的預(yù)測性能均優(yōu)于CART回歸樹。結(jié)論 RE-EM回歸樹具有較強的預(yù)測性能,能準確預(yù)測特征空間且數(shù)據(jù)擬合效果好,相對于CART回歸樹具有明顯的優(yōu)勢。
在醫(yī)療衛(wèi)生領(lǐng)域,重復(fù)測量數(shù)據(jù)(repeated measures data)和縱向數(shù)據(jù)(longitudinal data)十分常見,此類型數(shù)據(jù)往往具有系統(tǒng)結(jié)構(gòu)特征,同一觀測對象的多次測量之間存在相關(guān)性[1-2],并且數(shù)據(jù)中的隨機誤差分布于不同的層次,因此在進行數(shù)據(jù)分析時不宜采用常規(guī)的統(tǒng)計方法,如一般線性模型。而決策樹作為數(shù)據(jù)挖掘技術(shù)中的一種分類方法,為該問題提供了較好的解決方案。決策樹的思想主要源于Breiman等人在1984年提出[3]的CART(classification and regression tree)算法,其根據(jù)因變量的類型可以分為回歸樹和分類樹。30多年來,基于樹的方法已經(jīng)在統(tǒng)計學(xué)和數(shù)據(jù)挖掘的相關(guān)文獻中得到廣泛研究和應(yīng)用,因其輸出的結(jié)果簡潔直觀,具有較強的解釋性,且核心算法較為成熟,目前已是數(shù)據(jù)挖掘領(lǐng)域中使用最廣泛的算法之一[4]。但是對于具有系統(tǒng)結(jié)構(gòu)特征的縱向數(shù)據(jù),傳統(tǒng)的樹方法(如CART回歸樹)往往容易忽略其聚集性結(jié)構(gòu)及殘差間的相關(guān)性,從而導(dǎo)致模型構(gòu)建的準確性較低,偏倚較大[5]。因此為了解決傳統(tǒng)CART回歸樹擬合縱向數(shù)據(jù)的缺陷,從上世紀90年代開始,國外學(xué)者就將回歸樹在縱向數(shù)據(jù)中的應(yīng)用進行了探索。例如學(xué)者Segal(1992)[6]和De′Ath(2002)[7]分別提出了應(yīng)用于縱向數(shù)據(jù)的樹方法,但該樹模型要求研究對象在所有觀測時期都使用同一組自變量,即各個時期因變量的估計值都存在于同個節(jié)點上,這雖然防止了在第一個觀測時期后受到時依性變量的影響,但是容易導(dǎo)致信息的丟失,從而使預(yù)測性能較差。學(xué)者Galimberti和Montanari(2002)也創(chuàng)建了一種處理縱向數(shù)據(jù)結(jié)構(gòu)的樹模型[8],其基本思想是將隨機效應(yīng)與殘差協(xié)方差矩陣獨立于程序外進行估計,該模型允許時依性協(xié)變量的存在,同一研究對象的不同觀測值可以出現(xiàn)在樹的不同節(jié)點上,但由于其分割函數(shù)較為復(fù)雜,目前該算法尚未整合于軟件中,因此其推廣性較差。而學(xué)者Sela和Simonoff(2012)也提出了與該樹方法類似的隨機效應(yīng)-最大期望回歸樹模型(random effect-expectation maximization regression tree,RE-EM),并將該模型算法整合于“REEMtree”R包中[9]。
RE-EM回歸樹是基于混合線性模型思想的樹方法。目前在國外,RE-EM回歸樹在醫(yī)學(xué)、教育學(xué)、生態(tài)學(xué)等領(lǐng)域都得到一定的應(yīng)用,但尚未有研究就模型擬合的準確性對RE-EM回歸樹與CART回歸樹進行比較,因此在本研究中將對RE-EM回歸樹的原理進行探討,并通過模擬研究進一步驗證比較RE-EM回歸樹與CART回歸樹在具有系統(tǒng)結(jié)構(gòu)特征的縱向數(shù)據(jù)中的估計效果。
1.混合線性模型結(jié)構(gòu)
縱向數(shù)據(jù)是指對每個個體在不同時間進行觀測而得到的數(shù)據(jù),即在t=1,…,p的不同時期上觀測同一組研究對象i=1,…,n,其相對應(yīng)的一組因變量觀測值為yi=(yi1,…,yip)′,每個研究對象其自變量向量為Xi=(xi1,…,xip)′,其中xit=(xit1,…,xitq),即Xi為一p×q維矩陣。在實際的縱向數(shù)據(jù)中,隨機殘差向量往往是不滿足一般線性模型的獨立性與方差齊性的條件,而混合線性模型則允許殘差項具有更加靈活的結(jié)構(gòu),包括相關(guān)性和方差不齊性,另外,在某些研究中,分組因素或回歸因子不是人為指定的,而是隨機的,因而其參數(shù)估計值含有隨機部分,并且隨機部分可能存在某種相關(guān)關(guān)系,為了將這種隨機部分分離出來以提高對總體預(yù)測的有效性,因此在模型中納入一個設(shè)計矩陣Zi和相應(yīng)未知的隨機參數(shù)向量bi。模型的一般形式可表現(xiàn)為[10]:
yit=f(Xi)+Zibi+eit
(1)
2.回歸樹模型結(jié)構(gòu)
回歸樹為一個if-then規(guī)則的集合[11],由決策樹的根節(jié)點到葉節(jié)點的每一條路徑構(gòu)建一條規(guī)則,建立回歸樹的過程大致可以分為兩步:
(1)將預(yù)測變量空間(即X1,X2,…,Xq的可能取值構(gòu)成的集合)分割成J個互不重疊的區(qū)域R1,R2,…,Rj。
(2)對落入?yún)^(qū)域Rj的每個觀測值作同樣的預(yù)測,預(yù)測值等于Rj上訓(xùn)練集的因變量的簡單算術(shù)均值。
因此回歸樹模型的形式如下:
(2)
3.隨機效應(yīng)-最大期望回歸樹模型結(jié)構(gòu)
基于混合線性模型的優(yōu)勢及回歸樹模型的較強解釋性,學(xué)者Sela和Simonoff將(1)式和(2)式進行結(jié)合,使混合線性模型推廣到基于樹的方法,解決了傳統(tǒng)回歸樹對縱向數(shù)據(jù)估計的不足。RE-EM回歸樹是一種基于樹結(jié)構(gòu)估計f函數(shù)的方法[9],其中包含了隨機效應(yīng)bi,在這種方法中,節(jié)點可以基于任何自變量進行分割,使同一對象的不同觀測可以放置在不同的節(jié)點中,RE-EM回歸樹可以對縱向數(shù)據(jù)或聚集性數(shù)據(jù)進行分析,并且可以在線性模型假設(shè)不成立的情況下進行建模。RE-EM回歸樹在進行預(yù)測的同時也考慮了時依性協(xié)變量的影響,能對因變量和自變量的潛在關(guān)系進行探索。
因為包含隨機效應(yīng)的回歸樹在進行估計時,使用的是最大期望算法(expectation maximization algorithm,EM),因此本研究構(gòu)建的回歸樹稱為隨機效應(yīng)-最大期望回歸樹或RE-EM回歸樹。
以下為RE-EM回歸樹的估計過程:
(1)將待估計的隨機效應(yīng)bi初始化為零。
(2)通過以下迭代,直到估計的隨機效應(yīng)bi收斂(基于似然值的變化或受限似然函數(shù)小于某個容差值):
步驟①中回歸樹的擬合可以使用CART回歸樹的算法,通過樹的生長和修剪準則來實現(xiàn)。步驟②中混合線性模型的估計方法可以使用最大似然估計或受限最大似然估計。
1.模擬方法及參數(shù)設(shè)置
以預(yù)測棒球運動員的薪水為例[12],根據(jù)運動員效力于職業(yè)棒球聯(lián)盟的年份(Years),以及一年所擊出的安打數(shù)(Hits),分別以CART回歸樹和RE-EM回歸樹對運動員的薪水進行預(yù)測(薪水Salary以十萬美元為單位)。假定回歸樹模型如圖1所示,樹的根節(jié)點從年份(Years)開始分裂,表示當棒球運動員效力年份小于4.5年,那么年薪平均值為5.11(單位:十萬美元)。而當效力年份大于4.5年,一年的安打數(shù)小于117.5次,則年薪平均值為10。當效力年份大于4.5年且一年安打數(shù)大于等于117.5次,那么年薪平均值為12.74。該樹包含了三個特征空間或三個終端節(jié)點。
圖1 假定回歸樹模型
(1)回歸樹模擬數(shù)據(jù)集的生成
假定模擬人群共有3000人,每個研究對象共有12條觀測記錄,即基線(0年)到隨訪第11年,根據(jù)if-then規(guī)則生成模擬數(shù)據(jù)集:
特征空間1:ifYears<4.5thenSalary=μ1+Zibi+eit
特征空間2:ifYears>4.5andHits<117.5thenSalary=μ2+Zibi+eit特征空間3:ifYears>4.5andHits≥117.5thenSalary=μ3+Zibi+eit
模擬數(shù)據(jù)共有36000條觀測,數(shù)據(jù)結(jié)構(gòu)如表1所示:
據(jù)報道,我國護理科研在心理護理、人文護理等的研究遠遠落后于發(fā)達國家,我國在對照顧者的護理方面與國外相比差距甚遠[4]。因此,重視患者照顧者的早期心理狀況,盡早介入照顧者的心理干預(yù),能有效減輕照顧者的身心壓力,有助于促進患者的康復(fù)。
表1 模擬研究數(shù)據(jù)結(jié)構(gòu)
(2)模擬研究參數(shù)設(shè)置
表2 模擬研究數(shù)據(jù)結(jié)構(gòu)參數(shù)設(shè)置情況
當不存在殘差相關(guān)矩陣時,相關(guān)系數(shù)ρ=0。
2.評價指標
(1)預(yù)測特征空間
對于每種擬合情況,考察預(yù)測特征空間與假定特征空間的差異,判斷模型預(yù)測性能。
(2)均方殘差(mean-square error,MSE)
采用MSE作為模型的評價指標,評價CART回歸樹和RE-EM回歸樹對數(shù)據(jù)擬合的情況。
(1)預(yù)測特征空間
表3顯示,當模擬數(shù)據(jù)集中無隨機效應(yīng)結(jié)構(gòu)及無殘差相關(guān)結(jié)構(gòu)時,傳統(tǒng)的CART回歸樹與RE-EM回歸樹的預(yù)測效果一致,而當存在隨機效應(yīng)結(jié)構(gòu)時,CART回歸樹的預(yù)測值與假定的回歸樹(圖1)相差較大,特別是當數(shù)據(jù)結(jié)構(gòu)中包含截距項及年份兩個隨機效應(yīng)時,傳統(tǒng)的CART回歸樹不能準確預(yù)測出特征空間,表中“—”表示模型無法預(yù)測出第三個特征空間,最終擬合出樹的結(jié)構(gòu)只有兩個終端節(jié)點,以第5種參數(shù)設(shè)置為例,兩種樹結(jié)構(gòu)如圖2和圖3所示。
(2)均方誤差
表3顯示,當模擬數(shù)據(jù)集中無隨機效應(yīng)結(jié)構(gòu)而觀測間存在相關(guān)時,雖然CART回歸樹與RE-EM回歸樹兩者間的預(yù)測特征空間與假定的模型特征空間相近,但是兩者間MSE相差較大。而當模擬數(shù)據(jù)中存在隨機效應(yīng)結(jié)構(gòu)時,兩種模型間差異進一步加大,RE-EM回歸樹對數(shù)據(jù)的擬合結(jié)果明顯優(yōu)于CART樹。
表3 CART回歸樹與RE-EM回歸樹對模擬數(shù)據(jù)的擬合結(jié)果
圖2 CART回歸樹
圖3 RE-EM回歸樹
本文通過模擬研究從模型擬合準確性和偏倚兩方面對RE-EM回歸樹和CART回歸樹進行了比較,結(jié)果顯示,RE-EM回歸樹相較于CART回歸樹,在處理具有隨機效應(yīng)及殘差間存在相關(guān)關(guān)系的縱向數(shù)據(jù)時更能反映數(shù)據(jù)的真實關(guān)系,建模準確性高。另外從模擬研究中可以發(fā)現(xiàn),在不同的數(shù)據(jù)結(jié)構(gòu)設(shè)定下,RE-EM回歸樹的MSE值始終較低,因此RE-EM回歸樹相較于CART回歸樹對于數(shù)據(jù)的擬合效果更具優(yōu)勢。因此總的來看,RE-EM回歸樹在建模的準確性及靈活性上均明顯優(yōu)于CART回歸樹。
RE-EM回歸樹是一種將CART回歸樹與混合線性模型進行結(jié)合的一種方法,其具有兩者的優(yōu)點[12]:(1)解釋性強,RE-EM回歸樹在解釋性方面甚至比線性模型更加方便;(2)與傳統(tǒng)的統(tǒng)計方法相比,回歸樹更接近人的決策模式,其輸出結(jié)果簡潔直觀,非統(tǒng)計專業(yè)人士也可以輕松解釋(尤其當樹規(guī)模較小時);(3)樹方法可以直接處理定性的預(yù)測變量而不需要創(chuàng)建啞變量;(4)在處理分析非線性數(shù)據(jù)時,回歸樹是一種較為理想的方法;(5)允許資料具有某種相關(guān)性以及協(xié)方差矩陣的多樣性;(6)允許研究中的處理因素具有隨機性質(zhì)。
目前在國內(nèi)的醫(yī)學(xué)研究中,尚未見RE-EM回歸樹的相關(guān)研究報道。而本研究驗證了RE-EM回歸樹對于擬合縱向數(shù)據(jù)的適用性,因此在對實際資料進行分析時我們可以同時采用RE-EM回歸樹與混合線性模型以提高分析效率。本研究的不足在于構(gòu)建的RE-EM回歸樹只適用于連續(xù)型因變量,而對于離散型因變量還需進一步探討,另外對于RE-EM回歸樹能否進一步發(fā)展為隨機森林方法,還需后續(xù)更多的研究。
隨著R軟件在統(tǒng)計學(xué)中的推廣和應(yīng)用,基于R軟件開發(fā)的RE-EM回歸樹開始受到學(xué)者們的關(guān)注,因此,本文通過模擬研究對RE-EM回歸樹的原理方法、數(shù)據(jù)結(jié)構(gòu)、軟件實現(xiàn)、案例分析和模型評價進行探討,并希望該方法能為醫(yī)學(xué)縱向數(shù)據(jù)的分析提供一定的參考。