山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)教研室(030001)
李 金 劉小琴 曹紅艷 張巖波△
?
潛在類(lèi)別分析在出生缺陷高危人群識(shí)別中的應(yīng)用*
山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)教研室(030001)
李金劉小琴曹紅艷張巖波△
【提要】目的應(yīng)用潛在類(lèi)別分析(latent class analysis,LCA)對(duì)具有不同出生缺陷相關(guān)因素分布特征的人群進(jìn)行分類(lèi),識(shí)別出出生缺陷高危人群,為采取有重點(diǎn)、有針對(duì)性的干預(yù)措施提供依據(jù)。方法選取近親結(jié)婚、親屬缺陷兒、自然流產(chǎn)史、既往缺陷兒、孕期發(fā)熱、孕期感冒、居住地存在污染源、孕期用藥、育齡9個(gè)出生缺陷相關(guān)因素作為顯變量,進(jìn)行潛在類(lèi)別分析,識(shí)別出潛在類(lèi)別,進(jìn)而對(duì)人群進(jìn)行分類(lèi)。結(jié)果當(dāng)潛在類(lèi)別數(shù)目為4時(shí)模型擬合最佳,依據(jù)各因素在4個(gè)潛在類(lèi)別中的條件概率的分布特征,將類(lèi)別1~類(lèi)別4分別命名為:一般人群組、家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組。對(duì)個(gè)體進(jìn)行聚類(lèi)后,4類(lèi)人群的出生缺陷率比較,χ2值為3099.254,P<0.001。不同潛在類(lèi)別人群缺陷率有差別。家族缺陷史組(73.7%),感冒發(fā)熱組(3.8%),單純用藥組(2.5%),一般人群組(1.0%)缺陷率依次降低,其中家族缺陷史組缺陷率最高,提示家族缺陷史組人群為出生缺陷高危人群,應(yīng)該有重點(diǎn)有針對(duì)地進(jìn)行干預(yù)。結(jié)論潛在類(lèi)別分析可以應(yīng)用于出生缺陷高危人群識(shí)別中。依據(jù)各因素在潛在類(lèi)別中的條件概率的分布特征進(jìn)行人群的分型,通過(guò)比較不同類(lèi)別人群的缺陷率的差異,識(shí)別出生缺陷高危人群,揭示出生缺陷預(yù)防的重點(diǎn)人群和內(nèi)容,為制定出生缺陷預(yù)防措施提供依據(jù)。
潛在類(lèi)別模型出生缺陷出生缺陷危險(xiǎn)因素
出生缺陷(birth defect,BD)也稱(chēng)先天畸形,是指嬰兒出生前的身體結(jié)構(gòu)由于各種因素的作用,引起的胚胎或胎兒在發(fā)育過(guò)程中發(fā)生的解剖學(xué)結(jié)構(gòu)或功能上的異常改變。出生缺陷不僅帶給孩子痛苦、給家庭帶來(lái)嚴(yán)重的負(fù)擔(dān),也是公共衛(wèi)生問(wèn)題,影響經(jīng)濟(jì)發(fā)展和人們正常生活。我國(guó)是出生缺陷的高發(fā)國(guó)家之一,而山西省更是我國(guó)出生缺陷的高發(fā)省份之一[1]。因此,以山西省出生缺陷高發(fā)地區(qū)為研究地點(diǎn),以出生缺陷危險(xiǎn)因素在人群分布特征為研究重點(diǎn),揭示人群出生缺陷危險(xiǎn)因素的分布特征,對(duì)制定出生缺陷防控干預(yù)策略和提高人口質(zhì)量具有重要意義。出生缺陷危險(xiǎn)因素涉及廣泛,各種研究指標(biāo)呈現(xiàn)復(fù)雜且具有“高維度”的特點(diǎn),同時(shí)各指標(biāo)間可能存在相關(guān)性,對(duì)這些因素進(jìn)行的研究,不僅涉及單個(gè)變量的效應(yīng),也包括一組相關(guān)變量的整體效應(yīng)?,F(xiàn)有對(duì)出生缺陷的研究更多側(cè)重于危險(xiǎn)因素的單獨(dú)效應(yīng),而較少關(guān)注相關(guān)因素之間的局部獨(dú)立效應(yīng)。潛在類(lèi)別分析是探討存在統(tǒng)計(jì)學(xué)關(guān)聯(lián)的分類(lèi)外顯變量背后的類(lèi)別潛變量的一種統(tǒng)計(jì)學(xué)技術(shù)。較之傳統(tǒng)方法獨(dú)具優(yōu)勢(shì),它既能針對(duì)分類(lèi)變量進(jìn)行分析,彌補(bǔ)了傳統(tǒng)聚類(lèi)分析僅能處理連續(xù)變量的缺陷,又能反映單變量效應(yīng)或一組相關(guān)變量的整體效應(yīng),達(dá)到“降維”的效果[2-4]。通過(guò)對(duì)出生缺陷危險(xiǎn)因素進(jìn)行潛在類(lèi)別分析,將具有不同缺陷因素分布特征的人群分型,識(shí)別出出生缺陷高危人群,從而采取有針對(duì)性的措施,對(duì)出生缺陷的控制與預(yù)防具有重要的意義。本研究將潛在類(lèi)別分析方法應(yīng)用于出生缺陷高危人群識(shí)別中,通過(guò)對(duì)具有不同出生缺陷相關(guān)因素分布特征的人群進(jìn)行分類(lèi),進(jìn)一步分析具有不同群組人群的出生缺陷率的差異,識(shí)別出出生缺陷高危人群,揭示出生缺陷預(yù)防的重點(diǎn)人群和內(nèi)容,為針對(duì)性地制定預(yù)防措施提供依據(jù)?,F(xiàn)將研究結(jié)果報(bào)告如下。
1.數(shù)據(jù)來(lái)源
研究資料來(lái)源于山西醫(yī)科大學(xué)科研基地——山西省計(jì)生委科研所出生缺陷監(jiān)測(cè)基地。調(diào)查對(duì)象為2006年1月1日-2008年12月31日山西省平定縣、代縣、紛陽(yáng)市、懷仁縣、中陽(yáng)縣、交口縣6個(gè)縣(市)所有的出生兒母親及其家屬。本次調(diào)查共回收調(diào)查問(wèn)卷36917份,其中有效問(wèn)卷36716份,有效問(wèn)卷率達(dá)99.46%。
2.研究因素
本研究基于山西省六縣市出生缺陷情況調(diào)查表的調(diào)查結(jié)果,同時(shí)查閱相關(guān)文獻(xiàn)找出出生缺陷人群的危險(xiǎn)因素[5-6],對(duì)各因素與缺陷結(jié)果進(jìn)行單因素卡方檢驗(yàn),選取關(guān)聯(lián)性由大到小排序的前9個(gè)因素選入模型進(jìn)行分析,9個(gè)因素詳見(jiàn)表1。
表1 研究因素賦值方法
3.統(tǒng)計(jì)方法
(1) 潛在類(lèi)別分析的基本模型
潛在類(lèi)別模型包括潛在類(lèi)別概率(latent class probabilities)和條件概率(conditional probabilities)兩種類(lèi)型參數(shù)。假設(shè)有三個(gè)外顯變量A、B、C,其水平數(shù)分別為I、J、K,且其彼此之間不相互獨(dú)立。若存在某一具有T個(gè)潛類(lèi)別的潛變量X,該變量不僅可以解釋A、B、C三者間的關(guān)系,而且在X的每個(gè)類(lèi)別中可維持A、B、C這三個(gè)外顯變量的局部獨(dú)立性,即為潛在類(lèi)別分析,則其基本的潛在類(lèi)別模型為:
(1)
(2) 參數(shù)估計(jì)
潛在類(lèi)別分析主要采用極大似然法(maximum likelihood,ML)進(jìn)行參數(shù)估計(jì),其迭代過(guò)程中常用的算法有最大期望法(expectation-maximization,EM)、牛頓-拉普森(Newton-Raphson,NR)和Fisher計(jì)分法等,其中以EM算法最為常用。
(3) 模型評(píng)價(jià)
模型評(píng)價(jià)的主要工作就是找出包含較少參數(shù)、簡(jiǎn)潔,又具有較好擬合優(yōu)度的模型?,F(xiàn)得到廣泛使用的評(píng)價(jià)指標(biāo)有:Pearsonχ2值、似然比χ2值、Akaike信息準(zhǔn)則(AIC)和Baysian信息準(zhǔn)則(BIC)等。其中Pearsonχ2值和似然比χ2值所對(duì)應(yīng)的P值大于0.05,表明模型擬合得好;AIC 和BIC 統(tǒng)計(jì)量值越小,則意味著模型擬合得越好。有研究指出當(dāng)樣本量以數(shù)千計(jì)時(shí)BIC 指標(biāo)更可靠,否則AIC 更佳[7]。
(4) 個(gè)體的潛在分類(lèi)
在確定模型后,需要將各觀察值分類(lèi)到適當(dāng)?shù)臐撛陬?lèi)別當(dāng)中,以說(shuō)明觀察值的后驗(yàn)類(lèi)別屬性,即潛在聚類(lèi)分析。潛在聚類(lèi)分析是在一定的概率模型之下,利用估計(jì)所得的潛類(lèi)別概率和潛類(lèi)別中各外顯變量的條件概率計(jì)算每種外顯變量組合分類(lèi)到各潛類(lèi)別的后驗(yàn)概率,然后依據(jù)后驗(yàn)概率的大小決定該組合的個(gè)體應(yīng)歸入的潛類(lèi)別。后驗(yàn)概率的計(jì)算公式為:
(2)
(5) 統(tǒng)計(jì)分析軟件
本研究的潛在類(lèi)別分析采用Mplus 5.1軟件,其他統(tǒng)計(jì)學(xué)分析采用SPSS17.0軟件完成。
1.模型擬合結(jié)果
表2列出了9個(gè)模型的分析結(jié)果,可以看出隨著類(lèi)別數(shù)目的增多,Pearsonχ2值和似然比卡方(G2)值逐漸減小。BIC值在模型1-cluster到模型4-cluster依次下降,從模型5-cluster又開(kāi)始逐步上升。本研究調(diào)查樣本n=36716,屬于大樣本,所以模型擬合指標(biāo)以BIC為主,故選取模型4-cluster為最佳模型。
表2 不同類(lèi)別數(shù)的模型的擬合指標(biāo)
2.參數(shù)估計(jì)結(jié)果及類(lèi)別的命名
以潛在類(lèi)別數(shù)目為4作為最優(yōu)模型,進(jìn)一步獲得模型的參數(shù)估計(jì)結(jié)果,即各出生缺陷相關(guān)因素在4個(gè)潛在類(lèi)別上的條件概率與潛在類(lèi)別概率,如表3。
表3 各因素在四個(gè)潛在類(lèi)別上的條件概率與潛在類(lèi)別概率
從條件概率來(lái)看,類(lèi)別1在9個(gè)危險(xiǎn)因素中回答“無(wú)”的條件概率均遠(yuǎn)遠(yuǎn)高于回答“有”的概率,可見(jiàn)類(lèi)別1中不存在明顯的危險(xiǎn)因素分布特征,可將類(lèi)別1命名為:一般人群組;類(lèi)別2在親屬缺陷兒、既往缺陷兒兩個(gè)危險(xiǎn)因素回答“有”的條件概率分別為0.559、0.727,明顯高于其他3個(gè)類(lèi)別,故可將類(lèi)別2命名為:家族遺傳史組;類(lèi)別3在孕期發(fā)熱、孕期感冒兩個(gè)危險(xiǎn)因素回答“有”的條件概率均為1.000,明顯高于在其他3個(gè)類(lèi)別中的條件概率,故可將此類(lèi)別命名為:孕期感冒發(fā)熱組;類(lèi)別4中,孕期用藥因素回答“有”的條件概率為0.631,在四個(gè)類(lèi)別中最大,而在其它8個(gè)危險(xiǎn)因素回答“無(wú)”的條件概率均遠(yuǎn)高于回答“有”的概率,故可將類(lèi)別4命名為:?jiǎn)渭冇盟幗M。
從潛在類(lèi)別概率來(lái)看,類(lèi)別1到類(lèi)別4的潛在類(lèi)別概率分別為0.85169,0.00312,0.01536和0.12983,總和為1,其中類(lèi)別1所占比重最大。
3.分類(lèi)結(jié)果
潛在聚類(lèi)分析是潛在類(lèi)別分析的最后一步,即利用潛在類(lèi)別概率和條件概率計(jì)算每個(gè)個(gè)體分類(lèi)到各潛類(lèi)別的后驗(yàn)概率,見(jiàn)公式(2),然后依據(jù)后驗(yàn)概率的大小決定該組合的個(gè)體應(yīng)歸入的潛類(lèi)別。舉例如表4。
表4 潛在類(lèi)別分析的分類(lèi)結(jié)果舉例
表4列出了樣本的前9個(gè)個(gè)體分類(lèi)的結(jié)果,以第一個(gè)個(gè)體{000101010}為例,被分到第一個(gè)潛在類(lèi)別的概率為0.005,被分到第二個(gè)潛在類(lèi)別的概率為0.077,被分到第三個(gè)潛在類(lèi)別的概率為0.000,被分到第四個(gè)潛在類(lèi)別的概率為0.918,被分到第四個(gè)潛在類(lèi)別的概率最高,所以被分到第四類(lèi)別——單純用藥組中。同理我們也可以把其他的危險(xiǎn)因素組合分到相應(yīng)的潛變量類(lèi)別中。分類(lèi)結(jié)果:一般人群組32043人,家族缺陷史組76人,孕期感冒發(fā)熱組650人,單純用藥組3947人。
4.四組潛在類(lèi)別人群缺陷率比較
表5 各潛在類(lèi)別人群缺陷率比較
經(jīng)卡方檢驗(yàn),χ2=3099.254,P<0.001。不同潛在類(lèi)別人群缺陷率有差別。經(jīng)多個(gè)實(shí)驗(yàn)組間的兩兩比較卡方檢驗(yàn),α=0.007,其中家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組與一般人群組之間的卡方檢驗(yàn)P值均小于0.001,可以認(rèn)為家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組的缺陷率高于一般人群組;家族遺傳史組與一般人群組、孕期感冒發(fā)熱組、單純用藥組之間的卡方檢驗(yàn)P值均小于0.001,可以認(rèn)為家族缺陷史組缺陷率高于一般人群組、孕期感冒發(fā)熱組和單純用藥組。家族缺陷史組缺陷率高達(dá)73.7%,提示家族遺傳史組為出生缺陷兒發(fā)生高危人群,應(yīng)該成為出生缺陷預(yù)防的重點(diǎn)干預(yù)對(duì)象。
針對(duì)出生缺陷人群調(diào)查數(shù)據(jù)“異質(zhì)性,高維度,關(guān)系復(fù)雜和變量屬性不同”的特點(diǎn),傳統(tǒng)統(tǒng)計(jì)方法僅關(guān)注于危險(xiǎn)因素的單獨(dú)效應(yīng),而忽略相關(guān)危險(xiǎn)因素的整體效應(yīng),顯得略有不足。因此,本文采用潛在類(lèi)別模型,以山西省出生缺陷高發(fā)地區(qū)的人群調(diào)查為例,研究各類(lèi)影響因素在人群分布特征的分型,找出多個(gè)危險(xiǎn)因素的潛在類(lèi)別,提取多個(gè)危險(xiǎn)因素的綜合效應(yīng),實(shí)現(xiàn)了出生缺陷高危人群的異質(zhì)性分類(lèi),為出生缺陷病因?qū)W研究提供理論依據(jù),并為下一步制定出生缺陷防控干預(yù)策略提供方法支持。
出生缺陷的預(yù)防主要分三級(jí)。一級(jí)預(yù)防主要是危險(xiǎn)因素的消除與避免接觸,二級(jí)預(yù)防主要是早發(fā)現(xiàn)、早診斷,主要通過(guò)孕期檢查來(lái)實(shí)現(xiàn)。這兩級(jí)預(yù)防如果不采取有重點(diǎn),分人群的針對(duì)性干預(yù)方案,一方面會(huì)導(dǎo)致人群的接受度與執(zhí)行效率的低下,另一方面,會(huì)大大增加甚至是浪費(fèi)人力、物力與財(cái)力,最終缺陷率的降低也不一定明顯。本文采用潛在類(lèi)別分析,將人群分為:家族缺陷史組、孕期感冒發(fā)熱組、單純用藥組與一般人群組。進(jìn)而可針對(duì)具有不同出生缺陷相關(guān)因素分布特征的人群進(jìn)行針對(duì)性的干預(yù)措施,這樣,措施與人群具有的危險(xiǎn)因素相符,會(huì)大大增加人群對(duì)干預(yù)措施的接受度,同時(shí)節(jié)省人力、物力和財(cái)力。家族缺陷史組人群(具有既往缺陷兒與親屬缺陷兒危險(xiǎn)因素為特征的人群)是出生缺陷的高危人群,針對(duì)這類(lèi)人群,地方的計(jì)生醫(yī)學(xué)部門(mén)可以殘疾兒童父母或親屬的再生育審批工作為出發(fā)點(diǎn),尋找到遺傳疾病高發(fā)人群,組織專(zhuān)家對(duì)曾生育過(guò)缺陷兒計(jì)劃再生育的夫妻和親屬有過(guò)出生缺陷兒的夫妻進(jìn)行缺陷再發(fā)風(fēng)險(xiǎn)詳細(xì)分析研究,指導(dǎo)應(yīng)避免接觸相關(guān)危險(xiǎn)因素和如何去消除或避免出生缺陷的發(fā)生,從根本上杜絕出生缺陷的可能。另一方面,針對(duì)此類(lèi)高危人群進(jìn)行孕前出生缺陷監(jiān)測(cè)、實(shí)驗(yàn)室檢查和孕期的排畸檢查。減少高危人群缺陷的發(fā)生率,就能有效地降低總?cè)毕萋实陌l(fā)生。孕期感冒發(fā)熱組與單純用藥組人群缺陷率均高于一般人群組,所以孕期感冒、發(fā)熱與孕期用藥危險(xiǎn)因素的針對(duì)干預(yù)應(yīng)該引起重視??蓪?duì)孕前婦女進(jìn)行孕前教育與指導(dǎo),指導(dǎo)其健康生活,提高免疫,降低孕期的感冒、發(fā)熱和其他疾病的發(fā)生。如果患病,若能憑抵抗力自愈的話(huà),應(yīng)避免用藥。如必須用藥,則應(yīng)該在醫(yī)師指導(dǎo)下謹(jǐn)慎安全用藥。
潛在類(lèi)別分析是探討存在統(tǒng)計(jì)學(xué)關(guān)聯(lián)的分類(lèi)外顯變量背后的類(lèi)別潛變量的一種統(tǒng)計(jì)學(xué)技術(shù)。較之傳統(tǒng)方法獨(dú)具優(yōu)勢(shì),它能針對(duì)分類(lèi)變量進(jìn)行分析,彌補(bǔ)了傳統(tǒng)聚類(lèi)分析僅能處理連續(xù)變量的缺陷;能反映單變量效應(yīng)或一組相關(guān)變量的整體效應(yīng)。本文應(yīng)用潛在類(lèi)別分析,依據(jù)出生缺陷危險(xiǎn)因素分布特征的不同,實(shí)現(xiàn)了人群的分類(lèi)和高危人群的識(shí)別,為出生缺陷的預(yù)防與干預(yù)策略制定提供依據(jù)與思路。本次調(diào)查數(shù)據(jù)僅僅涉及山西省出生缺陷高發(fā)的六縣(市)三年的相關(guān)數(shù)據(jù),因此論文中給出的潛變量分類(lèi)結(jié)果不一定能全面反映出全省乃至全國(guó)出生缺陷人群高危特征分布的特點(diǎn)。另外,在參數(shù)估計(jì)結(jié)果中,近親結(jié)婚、自然流產(chǎn)史、周邊污染源、育齡四個(gè)因素在四個(gè)潛在類(lèi)別之間的條件概率差異不明顯,可能是因?yàn)檫x取的9個(gè)因素之間相關(guān)性不是很強(qiáng)。
結(jié)合目前有關(guān)育齡婦女的信息采集電子化,預(yù)防工作者可利用LCA對(duì)高危地區(qū)人群進(jìn)行分類(lèi),依據(jù)人群出生缺陷相關(guān)因素分布特征進(jìn)行有針對(duì)性地干預(yù),有效減低出生缺陷發(fā)生率。
[1]中華人民共和國(guó)衛(wèi)生部.中國(guó)出生缺陷防治報(bào)告2012.www.moh.gov.cn.
[2]張巖波.潛變量分析.北京:高等教育出版社,2009:220-246.
[3]邱唯政.潛在類(lèi)別模型的原理與技術(shù).北京:教育科學(xué)出版社,2008:14-86.
[4]曾憲華,肖 琳,張巖波.潛在類(lèi)別分析原理及實(shí)例分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):815-817.
[5]郭興萍,王裕,宋春英,等.山西省 6縣(市)出生缺陷發(fā)生相關(guān)因素分析.中國(guó)計(jì)劃生育學(xué)雜志,2011,19(6):342-346.
[6]賀亞琴,鄭玉華,王曉成,等.出生缺陷影響因素的meta分析.中國(guó)計(jì)劃生育學(xué)雜志,2012,20(4):233-236.
[7]Lin TH,Dayton CM.Model selection information criteria for non-nestedlatent class models.Journal of Education and Behavioral Statistics,1997,22(3):249-264.
(責(zé)任編輯:劉壯)
Application of Latent Class Analysis in the Identification of High-risk Population in Birth Defects
Li Jin,Liu Xiaoqin,Cao Hongyan,et al.
(Shanxi Medical University(030001),Taiyuan)
ObjectiveThis topic expect to identify the high-risk population in birth defects,by classifing the people with different distribution characteristics of risk factors of birth defects,applicating the latent class analysis(LCA),and to provide decision support for birth defects prevention and treatment.MethodsLatent class analysis was used to identify the latent class and classify the population with different distribution characteristics of risk factors for birth defect on the basis of nine key indicator variables:intermarriage,abnormal child-bearing of relatives,history of natural abortion,abnormal child-bearing history,catching a cold during pregnancy,fever during pregnancy,environment pollution resources near residence,drug use during pregnancy,mother′s child-bearing age.Then chi-square test was used to compare the rate of birth defects of different types of mothers and identify the high-risk groups of birth defects.ResultsPopulation of risk factors for birth defects could be divided into four types which were named:family heredity history group(the mothers were mainly characterized by abnormal child-bearing history and relatives having a baby with birth defect),cold and fevers group(the mothers were mainly characterized by catching a cold and having a fever during pregnancy),medication group(the mothers were mainly characterized by taking medicine during pregnancy),and general group(the mothers did not have distinct distribution characteristics of risk factors).The rate of birth defects of different types of mothers were as follows:family heredity history group(73.7%);cold and fevers group(3.8%);medication group(2.5%);general group(1.0%),and the difference was statistically significant(χ2=3099.254,P<0.001).We could find that the family heredity history group had a highest rate of birth defects,so the family heredity history group was the high-risk population in birth defects.ConclusionLatent class model can be used to classify the population basis on the different distribution characteristics of risk factors and identify the high-risk population in birth defects,which indicate the main contents and the most important tasks in birth defects prevention and provide decision support for birth defects prevention and treatment.
Latent class analysis;Birth defects;Risk factors of birth defects
張巖波,E-mail:sxmuzyb@126.com
*:國(guó)家自然科學(xué)基金資助項(xiàng)目(71403156)
中國(guó)衛(wèi)生統(tǒng)計(jì)2016年4期