郭 劍 高洪艷 王 媛
【提 要】 目的 介紹組基礎(chǔ)模型雙軌跡分析原理,以HIV/AIDS發(fā)病和死亡縱向資料演示。方法 建立HIV/AIDS發(fā)病、死亡組基礎(chǔ)模型,確定最優(yōu)軌跡組數(shù)目和發(fā)展軌跡形態(tài),將發(fā)病、死亡組基礎(chǔ)模型參數(shù)帶入雙軌跡分析,以概率形式反映1990-2015年195個(gè)國家或地區(qū)HIV/AIDS發(fā)病、死亡軌跡組間關(guān)聯(lián)性。結(jié)果 組基礎(chǔ)模型將HIV/AIDS發(fā)病和死亡都分為4組:高水平、中高水平、中低水平、低水平。雙軌跡分析表明,發(fā)病高水平組成為死亡高水平組概率為66.7%,成為死亡中高水平組概率為33.3%;發(fā)病中高水平組成為死亡中高水平組概率為80%,成為死亡高水平組概率為20%。發(fā)病低水平組、中低水平組與死亡相應(yīng)組別100%對應(yīng)。結(jié)論 組基礎(chǔ)模型雙軌跡分析能以概率形式反映兩測量結(jié)局發(fā)展軌跡間關(guān)聯(lián)程度和離散程度。
組基礎(chǔ)模型雙軌跡分析(group-based model dual trajectory analysis,GBMDTA)被用來分析兩個(gè)測量結(jié)局縱向資料的關(guān)聯(lián)性。在縱向研究中,研究者可能關(guān)心兩個(gè)不同測量指標(biāo)的關(guān)聯(lián)程度。同時(shí)期的,如成年人血壓與血脂;不同時(shí)期的,如兒童期肥胖和成年血壓。傳統(tǒng)用于表述兩個(gè)不同但存在關(guān)聯(lián)的測量指標(biāo)間關(guān)系的統(tǒng)計(jì)量主要是相關(guān)系數(shù)、比值比等。這樣最多只關(guān)注兩個(gè)時(shí)期的統(tǒng)計(jì)方法,無法充分利用縱向研究數(shù)據(jù)信息。而且超過兩個(gè)時(shí)期的縱向數(shù)據(jù)能反映的遠(yuǎn)不止一條線性發(fā)展軌跡,這也是傳統(tǒng)的匯總式統(tǒng)計(jì)量無法有效反映的。GBMDTA通過聯(lián)接兩個(gè)不同指標(biāo)的發(fā)展軌跡,以概率形式評價(jià)兩者關(guān)聯(lián)程度。最早,由Nagin等人用于分析兒童期過渡活躍與成年期焦慮的關(guān)系[1],在心理學(xué)領(lǐng)域有所應(yīng)用。而公共衛(wèi)生領(lǐng)域罕有報(bào)道。本研究旨在介紹GBMDTA原理,并以HIV/AIDS發(fā)病和死亡縱向資料演示,以推動其在公共衛(wèi)生領(lǐng)域的應(yīng)用。
資料來源于全球疾病負(fù)擔(dān)研究(global burden of disease,GBD 2017)195個(gè)國家或地區(qū)1990年、1995年、2000年、2005年、2010年、2015年HIV/AIDS年齡標(biāo)化發(fā)病率和死亡率。
(1)GBMDTA原理
似然函數(shù):假設(shè)Y1的J個(gè)軌跡組與Y2的K個(gè)軌跡組存在概率上的聯(lián)系,以j和k,Y1與Y2為條件的分布相互獨(dú)立,則Pjk(Y1,Y2)=fj(Y1)hk(Y2)。因此,Y1與Y2的非條件似然函數(shù)為每個(gè)個(gè)體的Pjk(Y1,Y2)合計(jì),并且每個(gè)這種條件分布以πjk(屬于Y1的j個(gè)軌跡組和Y2的k個(gè)軌跡組的成員聯(lián)合概率)為權(quán)重。
(1)
公式(1)中πjk=πk|jπj,因此公式(1)也可寫作:
(2)
公式(2)中的似然函數(shù)由兩個(gè)部分按順序組成,Y1的每個(gè)j組與Y2的每個(gè)k組通過條件概率πk|j聯(lián)接。公式(2)自然反映了Y1在時(shí)間上先于Y2的順序。然而,無論孰先孰后,公式(2)也有另一種對等形式,通過條件概率πj|k聯(lián)接每個(gè)k組與每個(gè)j組。對于每個(gè)個(gè)體的似然函數(shù)公式可表達(dá)為:
(3)
描述兩個(gè)結(jié)局軌跡間關(guān)聯(lián)的概率用πj|k、πk|j和πjk表示,說明兩結(jié)局發(fā)展軌跡的重疊程度。公式(1)~(3)中涉及πj、πk、πj|k,πk|j和πjk,計(jì)算過程介紹如下:
①πj表示一個(gè)隨機(jī)選取的個(gè)體Y1屬于某一亞組j的概率,即總體中第j個(gè)亞總體的比例:
(4)
其中,θj,j=1,2,…,j,是由不帶協(xié)變量的多項(xiàng)式logit模型估計(jì)所得的參數(shù)。因各組πj相加等于1,只需計(jì)算J-1個(gè)θj。
②πk表示一個(gè)隨機(jī)選取的個(gè)體Y2屬于某一亞組k的概率。
(5)
πjk=πk|jπj
(6)
公式(5)表示Y2的k個(gè)軌跡組中每一個(gè)組的成員概率。公式(6)說明公式(5)中每一部分是屬于軌跡組k和j的成員聯(lián)合概率,πjk=πk|jπj,即在給定j軌跡組條件下,屬于第k組的概率。為計(jì)算πk需要對Y1的j個(gè)組的聯(lián)合概率求合計(jì)。因?yàn)閭€(gè)體屬于Y2的某一軌跡組k的同時(shí),也屬于Y1的J個(gè)軌跡組中的一組,J個(gè)軌跡組的聯(lián)合概率πjk的合計(jì)等于πk。
③πj|k可用于反映Y1的j軌跡組對Y2特定的軌跡組k的貢獻(xiàn)。即在給定某些k軌跡組時(shí),個(gè)體屬于特定j軌跡組的概率。
(7)
④πk|j在給定軌跡組j條件下,個(gè)體屬于軌跡組k的概率。
(8)
其中,γk|j,j=1,2,…,J,k=1,2,…,K,是由不帶協(xié)變量的多項(xiàng)式logit模型估計(jì)所得的參數(shù)。
公式(8)需要計(jì)算J×K個(gè)概率。對每一個(gè)Y1的J個(gè)軌跡組,都有K個(gè)轉(zhuǎn)換概率,對應(yīng)Y2的K個(gè)軌跡組之一。因此,每個(gè)亞組j需要估計(jì)K-1個(gè)參數(shù),每一個(gè)對應(yīng)Y2的K-1個(gè)軌跡組之一。第K組的轉(zhuǎn)換概率能夠通過1減其他K-1個(gè)組的概率得到。因此,公式8需要估計(jì)J×(K-1)個(gè)參數(shù)。即為Y1的J個(gè)軌跡組中的每個(gè)亞組估計(jì)K-1個(gè)參數(shù)。
GBMDTA的兩個(gè)概念模型。在限制模型中Y1的每個(gè)軌跡都與Y2的軌跡單獨(dú)關(guān)聯(lián)。研究者可以假設(shè)特定Y1與Y2軌跡一一對應(yīng)。在全模型中Y1與Y2間的關(guān)聯(lián)限制被去除,取而代之的是采用概率描述軌跡間的關(guān)聯(lián)。這種多方面關(guān)聯(lián)允許模型反映軌跡間聯(lián)接特征的模式,研究者也不必假定兩個(gè)不同結(jié)局的關(guān)聯(lián)形式(圖1)。本研究采用全模型的形式演示GBMDTA分析過程。
圖1 概念模型
(2)分析步驟
建立單指標(biāo)組基礎(chǔ)模型,確定最優(yōu)軌跡組數(shù)目和發(fā)展軌跡形態(tài),依據(jù)BIC(接近0者擬合優(yōu)度最好)篩選不同模型[3]。確定模型后,將兩個(gè)單指標(biāo)組基礎(chǔ)模型所得參數(shù)代入GBMDTA。
(3)統(tǒng)計(jì)軟件
采用SAS 9.4統(tǒng)計(jì)軟件包的PROC TRAJ過程實(shí)施GBMDTA擬合。
HIV/AIDS年齡別標(biāo)化發(fā)病率和死亡率為正偏態(tài)分布資料。因此,本研究將其進(jìn)行標(biāo)準(zhǔn)化正態(tài)變換后再分析。
模型選擇過程:從1組開始逐步增加軌跡組數(shù)目,嘗試各軌跡組形態(tài)包括:常數(shù)、線性、2次曲線、3次曲線。將BIC作為篩選標(biāo)準(zhǔn)選擇最佳模型(BIC越接近0越好),具體如下:
HIV/AIDS發(fā)病率:1組 BIC=-1664.22(N=1170),BIC=-1662.42(N=195);2組 BIC=-1023.95(N=1170),BIC=-1016.78(N=195);3組 BIC=-897.68(N=1170),BIC=-888.72(N=195);4組BIC=-892.64(N=1170),BIC=-880.10(N=195)。因分4組時(shí)BIC最接近于0,最終確定發(fā)病率分為4個(gè)軌跡組,從低到高各組軌跡形態(tài)分別為:線性、線性、線性、3次曲線。地理分布:高水平組(4.6%)多位于非洲南部;中高水平組(2.7%)多位于非洲東部;中低水平組(6%)多位于非洲中西部;低水平組(86.6%)位于世界各地(圖2)。發(fā)病率GBM估計(jì)結(jié)果見表1。
表1 HIV/AIDS發(fā)病率GBM參數(shù)估計(jì)結(jié)果
HIV/AIDS死亡率:1組BIC=-1664.22(N=1170),BIC=-1662.42(N=195);2組BIC=-1093.07(N=1170),BIC=-1086.80(N=195);3組BIC=-940.96(N=1170),BIC=-932.00(N=195);4組BIC=-884.44(N=1170),BIC=-872.79(N=195)。因分4組時(shí)BIC最接近于0,最終確定死亡率分為4個(gè)軌跡組,從低到高各組軌跡形態(tài)分別為:線性、線性、線性、2次曲線。地理分布范圍與發(fā)病率相近:高水平組(3.6%)、中高水平組(4.1%)、中低水平組(7.7%)、低水平組(84.7%)(圖2),死亡率GBM估計(jì)結(jié)果見表2。
圖2 1990-2015年全球HIV/AIDS發(fā)病率、死亡率軌跡分組
表2 HIV/AIDS死亡率GBM參數(shù)估計(jì)結(jié)果
我們將表1、表2中發(fā)病率、死亡率GBM估計(jì)結(jié)果所得參數(shù)帶入GBMDTA中作為模型參數(shù)估計(jì)的初始值,擬合模型。
因概率基于發(fā)病率軌跡組,表3中每列合計(jì)為1。發(fā)病率高水平組成為死亡率高水平組可能性為66.7%,成為死亡率中高水平組可能性為33.3%;發(fā)病率中高水平組成為死亡率中高水平組概率為80%,成為死亡率高水平組概率20%。發(fā)病率低水平組、中低水平組分別與死亡率相應(yīng)組別100%對應(yīng)(表3)。
表3 基于發(fā)病率組j條件的死亡率組k的概率(πk|j,%)
因概率基于死亡率軌跡組,表4中每行合計(jì)為1。死亡率高水平組85.7%歸因于發(fā)病率高水平組,14.3%歸因于發(fā)病率中高水平組;死亡率中高水平組57.1%歸因于發(fā)病率中高水平組,42.9%歸因于發(fā)病率高水平組。死亡率低水平組、中低水平組分別100%歸因于發(fā)病率的低水平組、中低水平組(表4)。
表4 基于死亡率組k條件的發(fā)病率組j的概率(πj|k,%)
①πk=3,4|j=3為表1中發(fā)病率中高組對死亡率中高組、高組概率合計(jì)80%+20%=100%。
②πj為總體估計(jì)比例,前面發(fā)病率組基礎(chǔ)模型時(shí)4組比例,低水平組πj=1=86.6%,中低水平組πj=2=6%,中高水平組πj=3=2.7%,高水平組πj=4=4.6%。
③πk=3,4可根據(jù)公式(5)利用πj和表1中的πk|j求得:
πk=3=πk=3|j=1πj=1+πk=3|j=2πj=2+πk=3|j=3πj=3+πk=3|j=4πj=4=0×86.6%+0×6%+80%×2.7%+33.3%×4.6%=3.7%
同樣可求得:
πk=4=3.6%
πk=3,4=πk=3+πk=4=3.7%+3.6%=7.3%。
因此,死亡率的中高水平組和高水平組37%歸因于發(fā)病率的中高水平組。
表5是發(fā)病率軌跡與死亡率軌跡的聯(lián)合概率,總計(jì)4×4=16個(gè)聯(lián)合概率的合計(jì)為1。結(jié)果表明,84.9%的國家同時(shí)屬于發(fā)病率和死亡率的低水平組,7.9%屬于發(fā)病率和死亡率中低水平組,3.1%屬于發(fā)病率和死亡率高水平組,其余以此類推(表5)。
表5 發(fā)病率組j和死亡率組k的聯(lián)合概率(πjk,%)
圖3為全球195個(gè)國家發(fā)病率、死亡率地理分布圖。HIV/AIDS發(fā)病、死亡水平在全球分布并不均衡。以非洲中部、南部最為嚴(yán)重,其余各地較低[4]。從中可見HIV/AIDS發(fā)病、死亡分布范圍相似,與GBMDTA結(jié)果基本一致。
圖3 2015年全球195個(gè)國家或地區(qū)HIV/AIDS發(fā)病率和死亡率
本研究結(jié)果表明,HIV/AIDS發(fā)病率、死亡率都被分為4個(gè)軌跡組。GBMDTA表明,發(fā)病率高水平組成為死亡率高水平組可能性為66.7%,成為死亡率中高水平組可能性為33.3%;發(fā)病率中高水平組成為死亡率中高水平組概率為80%,成為死亡率高水平組概率20%。發(fā)病率低水平組、中低水平組分別與死亡率相應(yīng)組別100%對應(yīng)。大多數(shù)國家(84.9%)同時(shí)屬于發(fā)病率和死亡率低水平組。很少國家(3.1%)的國家同時(shí)屬于發(fā)病率和死亡率高水平組。
GBMDTA是建立在單指標(biāo)組基礎(chǔ)模型之上的分析方法,通過事先將測量結(jié)局劃分為不同等次的軌跡組描述縱向資料的發(fā)展軌跡,區(qū)分了資料的異質(zhì)性。傳統(tǒng)統(tǒng)計(jì)方法是假設(shè)所有個(gè)體來自同一研究總體,即反映異質(zhì)性的亞總體的平均相關(guān)程度。事實(shí)上某些亞總體可能只存在較強(qiáng)相關(guān),其他亞總體可能存在微弱關(guān)聯(lián)。
另一方面,GBMDTA能反映兩個(gè)結(jié)局測量的軌跡組趨勢,每個(gè)軌跡組中的成員概率,跨軌跡組間的關(guān)聯(lián)成員概率。采用軌跡組的形式總結(jié)感興趣結(jié)局的發(fā)展軌跡以發(fā)掘縱向資料的特征,更專注于兩個(gè)變量間動態(tài)重疊的幅度。相比之下,傳統(tǒng)統(tǒng)計(jì)方法,最多只關(guān)注兩個(gè)時(shí)期,僅反映同期、非同期關(guān)聯(lián),未能充分利用耗資龐大的縱向研究數(shù)據(jù)信息。而且,GBMDTA通過總結(jié)每種結(jié)局的軌跡組的跨組關(guān)聯(lián),以概率的形式表達(dá),而非單一的總結(jié)性統(tǒng)計(jì)量,不僅能反映軌跡組間平均趨勢,還能闡釋對平均趨勢的離散程度,為反映兩個(gè)變量間發(fā)展過程的內(nèi)在聯(lián)系模式提供了豐富的信息。
GBMDTA通過πj|k,πk|j和πjk三組概率可以描述兩個(gè)發(fā)展軌跡的關(guān)聯(lián)程度,可以幫助研究者探索以下問題:Y2特定軌跡組的成員概率是否獨(dú)立于Y1的軌跡組成員概率?這有助于評價(jià)Y1與Y2發(fā)展軌跡的關(guān)聯(lián),即兩變量間平均趨勢的關(guān)聯(lián)程度。本研究中各國家的HIV/AIDS發(fā)病率與死亡率軌跡就存在著密切的對應(yīng)關(guān)系。另一方面,通過Y1與Y2聯(lián)合成員概率,判定分布于極端軌跡組的亞群大小。這有助于評價(jià)針對特定極端亞組開展干預(yù)項(xiàng)目的成本效益。本研究中發(fā)病率高水平組與死亡率高水平組聯(lián)合概率3.1%,主要包含位于非洲南部的7個(gè)國家。相比低流行區(qū),這些地區(qū)為HIV/AIDS流行的重災(zāi)區(qū),開展針對性的防控項(xiàng)目成本效益更為合理。
GBMDTA僅限于兩個(gè)結(jié)局的關(guān)系,無法滿足分析兩個(gè)以上結(jié)局隨時(shí)間變化關(guān)系的需求。因此,有研究者建議采用結(jié)構(gòu)方程模型思路[5],構(gòu)建兩個(gè)以上結(jié)局測量發(fā)展過程的線性或非線性潛發(fā)展模型(latent growth model with multiple growth process),這一思路與GBMDTA一樣也包括多測量結(jié)局同時(shí)存在的平行發(fā)展過程(parallel growth processes)和具有前因后果的順序發(fā)展過程(sequential growth process)[6-7]。然而,隨著測量結(jié)局?jǐn)?shù)量增多,結(jié)構(gòu)方程模型復(fù)雜性也升高,要估計(jì)的參數(shù)也增加,模型所需樣本量也增大。
GBMDTA能在區(qū)分總體異質(zhì)性的前提下探索兩個(gè)結(jié)局各軌跡亞組間的關(guān)聯(lián)性。在公共衛(wèi)生領(lǐng)域中,可用于縱向研究探索兩研究因素的關(guān)聯(lián)程度,如一定時(shí)期內(nèi)某地高危性行為頻率與HIV/AIDS流行情況關(guān)系,或個(gè)體腰臀比變化對血壓影響等。