蘭州大學(xué)公共衛(wèi)生學(xué)院(730000) 劉小寧 秦林元 楊冬華 晁麗麗 李娟生
兩水平logistic回歸模型在高血壓患病影響因素分析中的應(yīng)用*
蘭州大學(xué)公共衛(wèi)生學(xué)院(730000) 劉小寧 秦林元 楊冬華 晁麗麗 李娟生△
目的 應(yīng)用兩水平logistic回歸模型分析人群高血壓的患病因素。方法 通過(guò)多階段隨機(jī)抽樣,抽取蘭州市某區(qū)3個(gè)農(nóng)業(yè)鄉(xiāng)鎮(zhèn)6個(gè)村的18歲以上人群為調(diào)查對(duì)象,采用兩水平logistic回歸模型分析高血壓患病影響因素,并與傳統(tǒng)logistic回歸模型比較模型擬合效果。結(jié)果 調(diào)查人群年齡、BMI、一級(jí)親屬高血壓病史及疾病史與高血壓患病呈正相關(guān);而家庭經(jīng)濟(jì)收入、鍛煉和水果攝入與高血壓患病呈負(fù)相關(guān)。人群高血壓患病率在村級(jí)水平上呈現(xiàn)聚集性,各調(diào)查村間高血壓患病率有差異。與傳統(tǒng)logistic回歸模型比較,兩水平logistic回歸模型擬合效果較好,對(duì)數(shù)似然值最小。結(jié)論兩水平logistic回歸模型可以有效地處理具有層次結(jié)構(gòu)數(shù)據(jù),并可分解出調(diào)查村間患病率的變異。
兩水平logistic回歸 高血壓
△通信作者:李娟生,E-mail:lijsh@lzu.edu.cn
醫(yī)學(xué)流行病學(xué)橫斷面調(diào)查人群調(diào)查中,通常用多階段抽樣設(shè)計(jì)。例如樣本按照地區(qū)和個(gè)人,或者地區(qū)、觀察縱隊(duì)和個(gè)人進(jìn)行整群或分層隨機(jī)抽取,這樣的數(shù)據(jù)具有地區(qū)、個(gè)人兩個(gè)層次結(jié)構(gòu)或者是地區(qū)、觀察縱隊(duì)和個(gè)人三個(gè)層次。此類數(shù)據(jù)的主要特征是反應(yīng)變量的分布在個(gè)體間不具備獨(dú)立性,存在地理距離內(nèi)、某行政區(qū)內(nèi)或特定空間范圍內(nèi)的聚集性〔1-2〕。在以慢性病的相關(guān)影響因素為調(diào)查目的的橫斷面研究中,由于慢性病與個(gè)體的生活行為習(xí)慣、居住地區(qū)文化背景及地理環(huán)境密切相關(guān),相同地區(qū)的經(jīng)濟(jì)文化背景和人群的長(zhǎng)期生活習(xí)慣可能導(dǎo)致影響疾病發(fā)生的相關(guān)因素相似,這使得某些變量特征在某一地區(qū)或空間范圍內(nèi)呈現(xiàn)聚集性。
傳統(tǒng)回歸分析要求個(gè)體獨(dú)立,對(duì)分層數(shù)據(jù),由于層次之間存在比較明顯的差異性或異質(zhì)性,傳統(tǒng)的最小二乘估計(jì)往往不能有效地進(jìn)行統(tǒng)計(jì)建?;蚓_估計(jì),多水平模型正是基于此發(fā)展起來(lái)的,是一種適宜于處理層次結(jié)構(gòu)數(shù)據(jù)的方法。此方法充分考慮了數(shù)據(jù)的層次結(jié)構(gòu)性,把傳統(tǒng)的線性模型不僅分解成固定部分和隨機(jī)部分,而且把隨機(jī)部分分解到數(shù)據(jù)的不同層次上,從而能得到每個(gè)層次上的解釋信息,使得分析更完善和更準(zhǔn)確〔1〕。近年來(lái),多水平回歸分析在醫(yī)學(xué)及流行病學(xué)斷面研究中有了較多的應(yīng)用〔3-7〕。本研究以蘭州市農(nóng)村地區(qū)人群高血壓流行病學(xué)調(diào)查數(shù)據(jù)為基礎(chǔ),探討兩水平logistic回歸模型在二分類變量中的應(yīng)用。
以蘭州市某區(qū)隨機(jī)選擇3個(gè)農(nóng)業(yè)鄉(xiāng)鎮(zhèn),每個(gè)鄉(xiāng)鎮(zhèn)隨機(jī)選取2個(gè)村,每個(gè)村隨機(jī)抽取18歲以上常駐居民為調(diào)查對(duì)象。調(diào)查時(shí)間為2012年3月。
采用自行設(shè)計(jì)的調(diào)查問(wèn)卷,搜集調(diào)查對(duì)象社會(huì)人口學(xué)特征信息、生活行為信息、疾病史、高血壓健康知識(shí)、高血壓疾病史及用藥情況等。
采用標(biāo)準(zhǔn)汞柱血壓計(jì),被調(diào)查者安靜狀態(tài)至少5分鐘以上,取坐位,手臂置于桌面,與心臟水平位一致。每位調(diào)查者測(cè)量?jī)纱窝獕骸0凑?《中國(guó)高血壓防治指南》,2005年修訂版)的診斷標(biāo)準(zhǔn),收縮壓≥140mm Hg和(或)舒張壓≥90mm Hg或者近兩周內(nèi)服用降壓藥及醫(yī)生已診斷為高血壓的居民列為高血壓患者。調(diào)查者著薄衣,脫鞋,站姿進(jìn)行身高體重測(cè)量。
調(diào)查人員由蘭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)專業(yè)教師、碩士研究生及本科生組成。調(diào)查前進(jìn)行統(tǒng)一的調(diào)查培訓(xùn),統(tǒng)一對(duì)問(wèn)卷調(diào)查項(xiàng)目的認(rèn)識(shí)。調(diào)查現(xiàn)場(chǎng)由教師負(fù)責(zé)調(diào)查表的回收,對(duì)每份調(diào)查問(wèn)卷進(jìn)行完整性核查和邏輯核查,核對(duì)問(wèn)卷填寫是否完整無(wú)缺,對(duì)問(wèn)卷中的漏項(xiàng)進(jìn)行現(xiàn)場(chǎng)補(bǔ)填。
本次調(diào)查數(shù)據(jù)具有“鄉(xiāng)鎮(zhèn)-村-個(gè)體”的層次結(jié)構(gòu)。在同一鄉(xiāng)鎮(zhèn)、村的調(diào)查居民在經(jīng)濟(jì)水平、生活方式、飲食習(xí)慣上可能存在在某種相似性或聚集性,即個(gè)體數(shù)據(jù)并不獨(dú)立,不滿足傳統(tǒng)方法假定的誤差獨(dú)立分布。多水平模型的應(yīng)用將不同層次的變異分解出來(lái),使得參數(shù)估計(jì)更趨于保守,減少Ⅰ類錯(cuò)誤。本研究的結(jié)果變量為二分類,故選擇多水平logistic回歸模型進(jìn)行分析。以最基本的兩水平logistic回歸模型為例,其基本形式如下:
在該模型中,研究對(duì)象總的變異分解為兩個(gè)水平的變異,即水平2的變異和1水平的變異。通過(guò)對(duì)2水平及1水平殘差的估計(jì),可以檢驗(yàn)出各水平有無(wú)差異,從而推斷該水平引入模型是否有意義。通過(guò)對(duì)水平2殘差及其95%可信區(qū)間的估計(jì),可以分析2水平間研究變量是否有差異,在本研究中,即各調(diào)查村中高血壓患病率是否有差異。分析用軟件為Stata 9.2。
本次共調(diào)查3個(gè)鄉(xiāng)鎮(zhèn)6個(gè)行政村的18歲以上居民723人,調(diào)查人群社會(huì)人口學(xué)特征如表1。
表1 調(diào)查人群社會(huì)人口學(xué)特征
考慮到數(shù)據(jù)的層次結(jié)構(gòu),首先擬合“鄉(xiāng)鎮(zhèn)-村-個(gè)體”三水平logistic回歸零模型,結(jié)果顯示,鄉(xiāng)鎮(zhèn)水平的殘差估計(jì)值無(wú)統(tǒng)計(jì)學(xué)意義(P=0.065),而村級(jí)水平的殘差估計(jì)有統(tǒng)計(jì)學(xué)意義(P=0.012),提示數(shù)據(jù)在村級(jí)水平間有聚集性,計(jì)算村級(jí)水平方差成分系數(shù)VPC為7.07%,由調(diào)查村之間的差異占總變異的7.07%。因此選擇“村-個(gè)體”兩水平logistic回歸模型分析高血壓患病影響因素。
在模型中引入個(gè)體水平變量,擬合兩水平logistic回歸模型,結(jié)果顯示,村級(jí)水平有統(tǒng)計(jì)學(xué)意義(P=0.0313,VPC=8.48%);個(gè)體水平因素如調(diào)查人群年齡、BMI、一級(jí)親屬高血壓病史及疾病史與高血壓患病呈正相關(guān);而家庭經(jīng)濟(jì)收入、鍛煉和水果攝入與高血壓患病呈負(fù)相關(guān)。與零模型相比較,似然比統(tǒng)計(jì)量(-2LL)較小,模型擬合好。與傳統(tǒng)的logistic回歸模型比較,兩水平logistic回歸模型的-2LL值更小,模型優(yōu)于傳統(tǒng)模型。見(jiàn)表2。
表2 高血壓患病影響因素分析的不同模型參數(shù)估計(jì)比較
通過(guò)兩水平模型中對(duì)2水平殘差及其95%可信區(qū)間的估計(jì),殘差值提供了每一個(gè)該水平下的單個(gè)估計(jì)值,當(dāng)殘差值95%可信區(qū)間包含了殘差為0的直線時(shí),說(shuō)明這個(gè)估計(jì)值在平均范圍內(nèi)。在本研究的6個(gè)調(diào)查村中,有4個(gè)村的高血壓患病率包含了0直線,表明這4個(gè)村的高血壓患病率無(wú)差異;1個(gè)調(diào)查村在0直線以下,表明該調(diào)查村高血壓患病率低于平均水平;1個(gè)調(diào)查村在0直線之上,表明該調(diào)查村高血壓患病率高于平均水平。見(jiàn)圖1。
圖1 各調(diào)查村高血壓患病率的殘差估計(jì)值及其95%可信區(qū)間
本研究數(shù)據(jù)呈現(xiàn)層次結(jié)構(gòu),研究結(jié)果顯示,調(diào)查人群的高血壓患病率在調(diào)查村間存在聚集性,即同一調(diào)查村內(nèi)調(diào)查人群的高血壓患病率接近,不同調(diào)查村間的人群患病率有差異。由此提示了高血壓患病影響因素受到居住環(huán)境、人群文化背景及生活行為習(xí)慣的影響。因此,在高血壓患病影響因素的分析中,應(yīng)用多水平分析模型將地區(qū)因素的變異分離,模型參數(shù)的估計(jì)更加準(zhǔn)確,在慢性病流行病學(xué)調(diào)查在更具有現(xiàn)實(shí)意義和科學(xué)性。而個(gè)體水平的影響因素分析,與傳統(tǒng)回歸模型比較,相關(guān)因素對(duì)患病的影響沒(méi)有太大的差異。通過(guò)對(duì)村級(jí)水平的殘差估計(jì),對(duì)于高血壓患病率最高的調(diào)查村還可以進(jìn)一步的定性分析,探討該村高血壓患病的相關(guān)因素,為人群高血壓的防治提供有效的信息。
本研究存在的缺陷是:高水平單位即調(diào)查村的數(shù)量較少,總樣本量可能偏小。模型假定在2水平下的個(gè)體的患病率是相同的,模型的截距項(xiàng)是隨機(jī)的,而斜率是固定的,擬合模型為方差成分模型。在2水平中,未引入調(diào)查村的特征變量,這可能使得對(duì)調(diào)查村的變異估計(jì)偏小。
1.Harvey Goldstein.Multilevel statistical model.3rd ed.Oxford University Press Inc,2003.
2.楊珉,李曉松.醫(yī)學(xué)和公共衛(wèi)生研究常用多水平統(tǒng)計(jì)模型.北京:北京大學(xué)醫(yī)學(xué)出版社,2007.
3.高俊嶺,傅華.多水平發(fā)展模型在社區(qū)干預(yù)性研究中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(5):459-461.
4.衡明莉,王泓午,馬茂林,等.多水平模型在分層抽樣研究中的優(yōu)越性.首都醫(yī)科大學(xué)學(xué)報(bào),2010,31(3):373-376
5.高俊嶺,傅華.上海市社區(qū)老年高血壓患者血壓水平影響因素的多水平分析.中華流行病學(xué)雜志,2009,30(4):318-321
6.Hoang Van Minh,Peter Byass,Stig Wall.Multilevel analysis of effects of individual characteristics and household factors on self-rated health among older adults in rural Vietnam.GeriatrGerontolInt,2010,10:209-215.
7.Liu XN,Zhou XY,Yan H,et al.Use of maternal healthcare services in 10 provinces of rural western China.International Journal of Gynecology and Obstetrics,114(2011):260-264.
Application of Two-level Logistic Regression Model on Factors Associated with Hypertension
Liu Xiaoning,Qin Linyuan,Yang Donghua,et al.School of public health,Lanzhou university(730000),Lanzhou
ObjectiveTo apply the two-level logistic regression model on factors associated with hypertension.MethodsA multistage sampling method was used to collect a sample aged 18 years older individuals from 6 villages of 3 rural townships of Lanzhou city.A two-level logistic regression model was used to examine the data and the results were compared to the logistic regression model.ResultsAge,BMI,first-degree relative of hypertension and history of diseases had a positive relation to hypertension,and income,excises and ate fruits had a negative relation to hypertension.The prevalence differences of hypertension among villages,and the data clustered within villages.Compared to logistic regression model,the two-level logistic regression model was better and the-2LL was smaller.ConclusionTwo-level logistic regression model can examine the structured data effectively and the variation of villages was distinguished from the whole variation.
Two-level logistic regression model;hypertension
中央高?;緲I(yè)務(wù)科研業(yè)務(wù)專項(xiàng)資金自由探索項(xiàng)目(編號(hào):lzujbky-2011-90)
(責(zé)任編輯:郭海強(qiáng))