喻嘉宏 陳小娜 郜艷暉 張巖波 陳柏楠 孔羨怡 楊 朔 李麗霞△
【提 要】 目的 介紹潛變量混合增長(zhǎng)模型理論,并將該模型應(yīng)用于醫(yī)學(xué)研究實(shí)踐。方法 以453名接受治療的抑郁患者的隨訪研究為例,采用Mplus7.4軟件構(gòu)建潛變量混合增長(zhǎng)模型。結(jié)果 識(shí)別出2個(gè)增長(zhǎng)趨勢(shì)不同的亞類“一般抑郁組”和“嚴(yán)重抑郁組”,每個(gè)亞類人數(shù)分別為380人(83.89%)和73人(16.11%),年齡較小患者屬于“一般抑郁組”可能性高(t=-0.051,P<0.05)。結(jié)論 潛變量增長(zhǎng)混合模型在縱向數(shù)據(jù)分析中能夠識(shí)別不可觀測(cè)亞群的不同增長(zhǎng)軌跡,可以很好的彌補(bǔ)傳統(tǒng)的增長(zhǎng)模型在探討群體異質(zhì)性方面的不足,是縱向數(shù)據(jù)分析的有力工具。
隨著大數(shù)據(jù)時(shí)代的到來(lái),醫(yī)學(xué)、心理學(xué)、社會(huì)學(xué)等領(lǐng)域的大型人群隊(duì)列研究越來(lái)越多,隊(duì)列研究中的數(shù)據(jù)是對(duì)每一個(gè)個(gè)體在不同時(shí)間點(diǎn)多次重復(fù)測(cè)量得到的追蹤數(shù)據(jù),即縱向數(shù)據(jù)。縱向數(shù)據(jù)中同一個(gè)體的多次重復(fù)觀測(cè)之間往往具有相關(guān)性,不同時(shí)間點(diǎn)的觀測(cè)變量取值不獨(dú)立[1],如何處理這種個(gè)體內(nèi)的相關(guān)性便成為縱向數(shù)據(jù)分析中必須要解決的問(wèn)題。目前,縱向隨訪數(shù)據(jù)常用的分析方法有時(shí)間序列分析(time series analysis,TSA)、多水平模型(multilevel modeling,MLM)、廣義估計(jì)方程(generalized estimated equation,GEE)和潛變量增長(zhǎng)曲線模型(latent growth curve modeling,LGCM)等,這些方法可以對(duì)所研究特征的總體發(fā)展趨勢(shì)進(jìn)行分析,或者探討個(gè)體的特征隨時(shí)間變化的特點(diǎn)以及個(gè)體間發(fā)展變化趨勢(shì)是否存在差異。但不論哪種分析方法前提都假設(shè)全部研究對(duì)象的發(fā)展趨勢(shì)是相同的。越來(lái)越多的研究顯示研究總體中可能存在不可觀測(cè)的亞群[2],不同亞群擁有各自不同的增長(zhǎng)參數(shù),即不同的增長(zhǎng)軌跡,傳統(tǒng)的縱向數(shù)據(jù)分析方法無(wú)法識(shí)別潛在亞群,這可能會(huì)導(dǎo)致研究結(jié)果的準(zhǔn)確性和預(yù)測(cè)效果降低[3]。
Muthen等人[4]1999年提出潛變量增長(zhǎng)混合模型(latent growth mixture modeling,LGMM),該模型是識(shí)別縱向數(shù)據(jù)變化趨勢(shì)的新的縱向數(shù)據(jù)分析方法。當(dāng)研究的全部個(gè)體的發(fā)展趨勢(shì)不一致時(shí),LGMM可以很好的彌補(bǔ)傳統(tǒng)的增長(zhǎng)模型在探討群體異質(zhì)性方面的不足。LGMM假設(shè)總體中存在多個(gè)潛在的增長(zhǎng)軌跡,每個(gè)潛在的軌跡代表一個(gè)亞類,不同亞類的增長(zhǎng)模式不同,即允許研究總體存在異質(zhì)性。該模型的運(yùn)用能夠?qū)︻A(yù)防、臨床治療及病因探索等研究領(lǐng)域提供研究線索。本文介紹潛變量增長(zhǎng)混合模型的基本原理,并通過(guò)實(shí)例來(lái)介紹該方法的實(shí)際應(yīng)用。
潛變量增長(zhǎng)混合模型將研究總體分成若干個(gè)不可觀測(cè)的亞群,并描述亞群的發(fā)展軌跡和亞群內(nèi)個(gè)體隨時(shí)間變化的情況,該模型包含兩種潛變量:連續(xù)潛變量和分類潛變量。連續(xù)潛變量包含增長(zhǎng)特征參數(shù)截距和斜率,分類潛變量把研究總體分成互斥的亞群來(lái)描述群體的異質(zhì)性[5]。
潛變量增長(zhǎng)混合模型的表達(dá)式如下:
(1)
(2)
(3)
模型中也可以考慮協(xié)變量X對(duì)發(fā)展軌跡的影響,圖1是包含協(xié)變量的LGMM路徑圖,圖中有五次重復(fù)測(cè)量(Y1,Y2,Y3,Y4和Y5),分類潛變量C和連續(xù)潛變量(截距α和斜率β)。Li等人[7]研究發(fā)現(xiàn)協(xié)變量在確定模型潛在的類別個(gè)數(shù)上有重要的作用,故協(xié)變量的納入能夠提高模型識(shí)別不可觀測(cè)亞群的能力。
圖1 包含協(xié)變量的LGMM模型路徑圖
潛變量增長(zhǎng)混合模型的參數(shù)估計(jì)方法常用的有最大似然法(maximum likelihood,ML)和貝葉斯法,這兩種方法均是對(duì)數(shù)據(jù)進(jìn)行多次迭代,獲得模型參數(shù)的估計(jì)值和后驗(yàn)概率。目前,潛變量增長(zhǎng)混合模型常在Mplus或Amos中擬合,兩種統(tǒng)計(jì)軟件進(jìn)行參數(shù)估計(jì)時(shí)分別采用最大期望算法(expectation-maximization,EM)和馬爾科夫鏈蒙特卡洛法(markov chain monte carlo,MCMC)。當(dāng)研究數(shù)據(jù)存在缺失值時(shí),Mplus 7.4軟件會(huì)采用完全信息極大似然估計(jì)法(full information maximum likelihood estimator)對(duì)模型進(jìn)行擬合[8]。
確定LGMM模型的類別數(shù)是模型擬合的關(guān)鍵,一般根據(jù)信息指數(shù)與模型擬合檢驗(yàn)結(jié)果來(lái)選擇模型類別個(gè)數(shù)。常用的信息指數(shù)有AIC,BIC和aBIC指標(biāo),Karen等人[9]研究指出aBIC是最好的信息指標(biāo),該指標(biāo)越小說(shuō)明模型的擬合效果越好。此外,Entropy值表示模型能夠?qū)€(gè)體歸為相應(yīng)類別的精確程度,取值在0~1之間,一般大于0.80可認(rèn)為該模型的分類準(zhǔn)確性較高[10]。常用的模型擬合檢驗(yàn)有BLRT檢驗(yàn)(bootstrapped likelihood ratio test)和VLRT檢驗(yàn)(vuong-lo-mcndell-rubin likelihood ratio test),其中BLRT檢驗(yàn)比較含C類的模型與C-1類模型擬合情況,若結(jié)果P<0.05,則提示含C個(gè)亞類的模型更優(yōu);反之,則C-1類模型擬合較優(yōu)。VLRT檢驗(yàn)也能夠評(píng)價(jià)C類模型與C-1類模型擬合情況,VLRT檢驗(yàn)在確定類別數(shù)目時(shí)比BLRT檢驗(yàn)更為敏感,故VLRT檢驗(yàn)結(jié)果更加可靠。Tofight等人[11]研究認(rèn)為aBIC和VLRT檢驗(yàn)是正確選擇模型類別數(shù)的兩個(gè)最佳指標(biāo)。
研究對(duì)象為山西醫(yī)科大學(xué)附屬醫(yī)院收集的符合DSM-Ⅳ(《診斷與統(tǒng)計(jì)手冊(cè):精神障礙》)抑郁發(fā)作診斷的患者。納入標(biāo)準(zhǔn)為年齡在18~65歲,首次測(cè)量漢密頓抑郁量表(hamilton depression rating scale,HAMD)總分≥7分且整個(gè)隨訪調(diào)查中缺失次數(shù)<3次的患者。本研究共有453名患者滿足入選標(biāo)準(zhǔn)。
每名患者接受抑郁治療后,每隔3周采用HAMD量表測(cè)量患者的抑郁狀況,該量表包含17個(gè)項(xiàng)目,共5個(gè)維度,大部分條目采用5級(jí)評(píng)分法,“0~4”分別表示無(wú)、輕度、中度、重度、很重;少數(shù)條目采用3級(jí)評(píng)分法,“0~2”分別為無(wú)、輕中度、重度,量表得分越高表明抑郁情況越嚴(yán)重[12]。本研究?jī)H采用前5次的得分?jǐn)?shù)據(jù),并記錄患者的年齡、性別等人口學(xué)特征指標(biāo)。研究探討患者抑郁癥狀隨時(shí)間的改善情況,將人口學(xué)特征指標(biāo)作為協(xié)變量,5次重復(fù)測(cè)量的抑郁得分作為可測(cè)變量分別擬合線性、二次、自由估計(jì)三種類型增長(zhǎng)混合模型。使用Epidata 3.1軟件進(jìn)行錄入,使用SAS 9.4對(duì)人口學(xué)變量進(jìn)行統(tǒng)計(jì)描述,Mplus 7.4軟件進(jìn)行潛變量混合增長(zhǎng)模型分析。
納入研究的抑郁癥患者共453人,年齡為(32.49±11.78)歲。其中男性217人,占47.90%;女性236人,占52.10%。其他人口學(xué)特征指標(biāo)見(jiàn)表1。
表1 抑郁癥患者人口學(xué)特征
將潛在類別數(shù)從1增加到3,分別擬合線性、二次、自由估計(jì)三種類型增長(zhǎng)混合模型,結(jié)果見(jiàn)表2。除含3個(gè)潛類別自由估計(jì)的LGMM外,BLRT均大于0.05,且VLRT在3個(gè)潛類別時(shí)也大于0.05,自由估計(jì)時(shí)Entropy值最大(Entropy=0.812),結(jié)合信息指標(biāo)提示含2個(gè)潛在類別自由估計(jì)的LGMM模型較優(yōu)。
采用自由估計(jì)的含2個(gè)潛類別的模型參數(shù)估計(jì)結(jié)果和增長(zhǎng)趨勢(shì)圖分別見(jiàn)表3和圖2。第一類截距和斜率的均值分別為18.935(P<0.05)和-6.607(P<0.05),該類起始抑郁得分較低,隨時(shí)間變化下降速率先加快后減緩,命名為“一般抑郁組”,該組380人,占83.89%。第一類截距和斜率的方差分別為16.187(P<0.05)和3.247(P<0.05),說(shuō)明該類個(gè)體間抑郁水平初始值和抑郁下降率均存在差異。第二類截距和斜率的均值分別為23.081(P<0.05)和-1.814(P<0.05),該類起始抑郁得分較高,處于嚴(yán)重的抑郁水平,隨時(shí)間變化下降速率先緩慢后加快,命名為“重度抑郁組”,該組73人,占16.11%。第二類截距和斜率的方差為18.847(P<0.05)和1.415(P=0.072),說(shuō)明該類個(gè)體間抑郁水平初始值存在差異,而抑郁下降率差異沒(méi)有統(tǒng)計(jì)學(xué)意義。第一類與第二類的截距與斜率間的協(xié)方差分別為-6.025(P<0.05)和-3.939(P<0.05),說(shuō)明抑郁水平初始值與抑郁下降率之間存在關(guān)聯(lián),抑郁水平初始值越高,抑郁下降率越小。
表2 增長(zhǎng)混合模型擬合統(tǒng)計(jì)量結(jié)果
表3 抑郁癥發(fā)展趨勢(shì)的兩個(gè)類別模型參數(shù)估計(jì)結(jié)果
以亞類為因變量(以第二類為參照),人口學(xué)特征指標(biāo)為自變量擬合logistic回歸,結(jié)果見(jiàn)表4,結(jié)果顯示僅年齡有統(tǒng)計(jì)學(xué)意義,其估計(jì)值為-0.051(P<0.05),說(shuō)明年齡較小的患者,更容易分到第一類,即年輕患者出現(xiàn)一般抑郁的可能性大。
圖2 兩類別LGMM增長(zhǎng)趨勢(shì)圖
變量估計(jì)值標(biāo)準(zhǔn)誤t值P值年齡-0.0510.019-2.6190.009性別男1.000---女-0.2250.303-0.7430.458婚姻狀況未婚1.000---已婚0.4160.5370.7750.439家族史無(wú)1.000---有-0.1440.357-0.4050.686
傳統(tǒng)的縱向數(shù)據(jù)分析方法假設(shè)研究總體的增長(zhǎng)軌跡是相同的,越來(lái)越多的縱向研究提示增長(zhǎng)軌跡存在異質(zhì)性的情況,許多研究結(jié)果已證實(shí)增長(zhǎng)混合模型在公共衛(wèi)生預(yù)防和臨床疾病病因探索等研究中都能很好地識(shí)別潛在的異質(zhì)性亞群,這使得增長(zhǎng)混合模型在縱向研究領(lǐng)域開(kāi)始受到廣泛的關(guān)注。Ryan等人[13]在一項(xiàng)關(guān)于青少年抑郁癥研究中,構(gòu)建LGMM模型發(fā)現(xiàn)抑郁的四種發(fā)展軌跡,認(rèn)為校園暴力、網(wǎng)絡(luò)暴力和犯罪等是影響青少年抑郁發(fā)展的因素,建議學(xué)校管理者根據(jù)抑郁發(fā)展類型制定相應(yīng)有針對(duì)性的預(yù)防措施進(jìn)行干預(yù)。Yoo等人[14]將LGMM用于研究隨訪5年的慢阻肺病人生活質(zhì)量變化情況,結(jié)果提示存在五種發(fā)展軌跡,發(fā)現(xiàn)年齡、睡眠質(zhì)量、抑郁水平等因素對(duì)患者生活質(zhì)量增長(zhǎng)軌跡有影響,建議醫(yī)生根據(jù)慢阻肺患者具體情況提出個(gè)性化方案提高患者生活質(zhì)量。本研究采用增長(zhǎng)混合模型對(duì)抑郁患者隨時(shí)間抑郁發(fā)展情況進(jìn)行分析,識(shí)別出“一般抑郁組”和“嚴(yán)重抑郁組”兩個(gè)不同增長(zhǎng)軌跡的潛在亞群,為疾病治療方案的制定提供科學(xué)依據(jù)。
LGMM模型最大特點(diǎn)是將連續(xù)潛變量和分類潛變量結(jié)合起來(lái),該模型通過(guò)分類潛變量將研究總體識(shí)別為不同亞群,并根據(jù)連續(xù)潛變量描述不同亞群發(fā)展趨勢(shì)以及個(gè)體間是否存在差異[15]。擬合LGMM模型時(shí)潛在類別數(shù)的確定至關(guān)重要,雖然根據(jù)信息指數(shù)等指標(biāo)可以提供一定的信息,但潛在類別數(shù)的選擇仍存在一定的主觀性,建議結(jié)合專業(yè)知識(shí)為模型的構(gòu)建提供理論支持。另外,LGMM模型雖然可以分析非正態(tài)分布的變量,但數(shù)據(jù)的非正態(tài)性可能存在多種原因:有可能是真實(shí)的非正態(tài)分布,亦或是多個(gè)不同分布類別的混合[16],故研究者可以把數(shù)據(jù)隨機(jī)分成兩組(訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集)或使用新一批數(shù)據(jù)進(jìn)行建模來(lái)比較結(jié)果是否一致來(lái)確認(rèn)類別數(shù)選擇的正確性。LGMM模型需要足夠的樣本量,否則類別識(shí)別的準(zhǔn)確率會(huì)降低,模型類別數(shù)的選擇可以參考與樣本量無(wú)關(guān)的Entropy值。
目前,LGMM模型已在多個(gè)研究領(lǐng)域有成功的應(yīng)用,該模型在縱向數(shù)據(jù)分析中能夠識(shí)別不可觀測(cè)亞群的不同增長(zhǎng)軌跡,進(jìn)而深入剖析縱向數(shù)據(jù)中個(gè)體的發(fā)展情況,具有傳統(tǒng)增長(zhǎng)模型所不具有的優(yōu)勢(shì),相信會(huì)在越來(lái)越多縱向數(shù)據(jù)分析中被采用,為相關(guān)學(xué)科研究者提供更加科學(xué)合理的建議。
中國(guó)衛(wèi)生統(tǒng)計(jì)2018年4期