李銀,劉麗芬,盧利敏
(韶關(guān)學(xué)院 1. 教育學(xué)部,2. 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東 韶關(guān) 512005)
近年來(lái),肥胖危機(jī)在我國(guó)迅速蔓延,已逐漸成為全球性的健康問(wèn)題.肥胖人群是一類(lèi)特殊的群體,肥胖是人體體內(nèi)脂肪積聚過(guò)多導(dǎo)致的現(xiàn)象,不僅影響形體美,更重要的是肥胖人群比正常體質(zhì)量人群更容易患病,如高血壓和糖尿病等[1-6].本文針對(duì)韶關(guān)市湞江區(qū)現(xiàn)代人的肥胖現(xiàn)狀,運(yùn)用決策樹(shù)方法對(duì)韶關(guān)市湞江區(qū)人員的肥胖現(xiàn)狀及其成因進(jìn)行分析,并利用多元Logistic回歸模型和主成分分析法對(duì)決策樹(shù)CHAID模型得出的結(jié)果進(jìn)行檢驗(yàn),為相關(guān)決策者制定干預(yù)方案提供參考.
世界衛(wèi)生組織(WHO)一般用身體質(zhì)量指數(shù)(BMI)來(lái)對(duì)肥胖或超重進(jìn)行定義,用體質(zhì)量(kg)數(shù)除以身高(m)平方得出的數(shù)字,是目前國(guó)際上常用的衡量人體胖瘦程度的一個(gè)標(biāo)準(zhǔn).適合中國(guó)成年人的肥胖標(biāo)準(zhǔn)為:身體質(zhì)量指數(shù)小于18.5為輕體重,大于等于18.5小于24為健康體重,大于等于24為超重,大于等于28為肥胖.身體質(zhì)量指數(shù)按 B MI ≤ 18.5,18.5 ≤ BMI< 24,24 ≤ BMI< 28, B MI ≥ 28這4個(gè)等級(jí)水平依次賦值為1,2,3,4.本文在已有研究[7-10]的基礎(chǔ)上,得到調(diào)查問(wèn)卷指標(biāo)(見(jiàn)表1).
表1 調(diào)查問(wèn)卷指標(biāo)
通過(guò)問(wèn)卷星進(jìn)行網(wǎng)上發(fā)放問(wèn)卷和現(xiàn)場(chǎng)發(fā)放現(xiàn)場(chǎng)回收的方式,收集韶關(guān)市湞江區(qū)居民肥胖狀況的相關(guān)數(shù)據(jù),回收有效問(wèn)卷196份.問(wèn)卷采用國(guó)際通用的Likert五等級(jí)評(píng)分法,從“沒(méi)有”到“總是”按程度不同分為5個(gè)選項(xiàng),依次賦1~5分.正向條目評(píng)分與原始分相同,反向條目評(píng)分等于6減原始評(píng)分.性別與職業(yè)因素、年齡因素、代謝因素、睡眠因素、遺傳因素、心理因素、運(yùn)動(dòng)因素和飲食習(xí)慣8個(gè)一級(jí)指標(biāo)的得分之和為總分,得分越高對(duì)應(yīng)的肥胖狀況應(yīng)該越嚴(yán)重.
將原始得分換算為轉(zhuǎn)換分?jǐn)?shù),計(jì)算公式為
性別與職業(yè)因素理論最高得分為12,理論最低得分為3,因此性別與職業(yè)因素的轉(zhuǎn)化分?jǐn)?shù)為
決策樹(shù)CHAID模型是利用卡方自動(dòng)交互檢測(cè)法快速、有效地挖掘出主要的影響因素,它不僅可以處理非線性和高度相關(guān)的數(shù)據(jù),而且可以將缺失值考慮在內(nèi),能克服傳統(tǒng)的參數(shù)檢驗(yàn)方法在這些方面的限制.本文運(yùn)用決策樹(shù)方法,建立CHAID模型.
利用性別與職業(yè)因素、年齡因素、代謝因素、睡眠因素、遺傳因素、心理因素、運(yùn)動(dòng)因素和飲食習(xí)慣共8個(gè)變量共同建立一個(gè)決策樹(shù)CHAID模型來(lái)預(yù)測(cè)肥胖狀態(tài)的影響因素.
根據(jù)建立的決策樹(shù)CHAID模型,運(yùn)用SPSS軟件對(duì)模型進(jìn)行求解,具體部分操作:選擇菜單分析——分類(lèi)——決策樹(shù),打開(kāi)對(duì)話框,將相關(guān)變量選入到變量欄中,再進(jìn)行相關(guān)操作,得到最終的自變量為性別與職業(yè)因素得分、運(yùn)動(dòng)得分和代謝得分.
決策樹(shù)模型見(jiàn)圖1.決策樹(shù)共分為2層,第1層判斷依據(jù)是性別與職業(yè)因素,第2層判斷依據(jù)是運(yùn)動(dòng)因素和代謝因素.
圖1 決策樹(shù)模型
進(jìn)行模型風(fēng)險(xiǎn)評(píng)估,結(jié)果見(jiàn)表2.
表2 風(fēng)險(xiǎn)評(píng)估
由表2可以看出,風(fēng)險(xiǎn)評(píng)估值為0.388,表示該模型預(yù)測(cè)判別個(gè)案錯(cuò)誤率為0.388,模型擬合效果較好.
決策樹(shù)CHAID模型的分類(lèi)判別效果見(jiàn)表3(其中:1為輕體重,2為健康體重,3為肥胖/超重).
表3 分類(lèi)預(yù)測(cè)效果
由表3可以看出,決策樹(shù)CHAID模型對(duì)大概61.2%的個(gè)體進(jìn)行了正確的判別.由此看來(lái),該模型是比較合理的.
綜合分析可知,影響肥胖狀況的首要因素是性別與職業(yè),另外運(yùn)動(dòng)和代謝也是需要考慮的因素.
為了避免只采用決策樹(shù)CHAID模型方法得出的結(jié)論不具備較強(qiáng)的說(shuō)服力,采用多元Logistic回歸模型和主成分分析法對(duì)決策樹(shù)CHAID模型進(jìn)行檢驗(yàn).
設(shè)身體質(zhì)量指數(shù) BMI的等級(jí)為y,性別與職業(yè)因素為x1,年齡因素為x2,運(yùn)動(dòng)因素為x3,遺傳因素為x4,心理因素為x5,睡眠因素為x6,代謝因素為x7,飲食習(xí)慣為x8.
建立現(xiàn)代人肥胖狀況影響因素的實(shí)證模型
其中:μ為隨機(jī)擾動(dòng)項(xiàng),反映無(wú)法觀察到的其它因素.
由于被解釋變量身體質(zhì)量指數(shù)的選項(xiàng)有多個(gè)且有序,故采取多元Logistic回歸模型
其中:j為現(xiàn)代人肥胖程度的4個(gè)等級(jí),j=1,2,3,4;μj為分界點(diǎn);α為截距項(xiàng);βi為偏回歸系數(shù);為分類(lèi)j及其以下類(lèi)別的累積概率,即
采用SPSS進(jìn)行多元Logistic回歸估計(jì),得到初始模型,再根據(jù)似然比檢驗(yàn)結(jié)果將不顯著的變量逐個(gè)剔除,直到模型中的變量全部都為較顯著的變量.
對(duì)多元Logistic回歸模型進(jìn)行顯著性檢驗(yàn),結(jié)果見(jiàn)表4.
表4 模型擬合信息
由表4可以看出,顯著性水平的值明顯小于0.05,所以多元Logistic回歸模型是顯著的.
檢驗(yàn)?zāi)P偷膫?R,3種偽決定系數(shù)考克斯-斯奈爾系數(shù)、內(nèi)戈?duì)柨葡禂?shù)和麥克法登系數(shù)分別為0.481,0.570,0.353.
對(duì)多元Logistic回歸模型進(jìn)行似然比檢驗(yàn),結(jié)果見(jiàn)表5.
表5 含8個(gè)自變量多元Logistic回歸模型的似然比檢驗(yàn)
就顯著性水平來(lái)看,顯著性水平大于0.05的因素對(duì)肥胖狀態(tài)并沒(méi)有顯著的影響,因此可以剔除顯著性水平大于0.05的因素.根據(jù)表5,首先剔除最不顯著的飲食因素,再次建立回歸模型,以此類(lèi)推,直至不存在不顯著變量,依次分別剔除了飲食因素、年齡因素、代謝因素和遺傳因素.
在依次剔除飲食因素、年齡因素、代謝因素和遺傳因素后,對(duì)只包含自變量性別與職業(yè)因素、運(yùn)動(dòng)因素、睡眠因素和心理因素的多元Logistic回歸模型進(jìn)行似然比檢驗(yàn),結(jié)果見(jiàn)表6.
表6 含4個(gè)自變量多元Logistic回歸模型的似然比檢驗(yàn)
由表6可以看出,所有變量的顯著性水平都小于0.05,因此有理由認(rèn)為此時(shí)所有的變量對(duì)肥胖狀態(tài)都有顯著的影響.
綜合該模型分析可以認(rèn)為,肥胖狀態(tài)的主要影響因素是性別與職業(yè)因素、運(yùn)動(dòng)因素、睡眠因素和心理因素.
主成分分析是采用一種數(shù)學(xué)降維的方法,設(shè)法將原來(lái)眾多具有一定相關(guān)性的變量,重新組合成一組新的相互無(wú)關(guān)的綜合變量代替原來(lái)的變量.利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)(即主成分),其中每個(gè)主成分都能夠反映原始變量的大部分信息,且所含信息互不重復(fù).主成分分析所需樣本數(shù)據(jù)較多,比較適合本文的研究.
主成分分析(PCA)方法的基本步驟為:
Step1對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到樣本觀測(cè)數(shù)據(jù)矩陣
Step2計(jì)算樣本相關(guān)系數(shù)矩陣
Step3計(jì)算相關(guān)系數(shù)矩陣R的特征值λ1,λ2,λ3,λ4,λ5,λ6,λ7,λ8和相應(yīng)的特征向量.
Step4選擇重要的主成分,并寫(xiě)出主成分的表達(dá)式.主成分個(gè)數(shù)的選取主要根據(jù)主成分的累計(jì)貢獻(xiàn)率來(lái)決定,一般要求累計(jì)貢獻(xiàn)率達(dá)到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息.
根據(jù)建立的主成分分析模型,運(yùn)用Matlab軟件對(duì)模型進(jìn)行求解.
運(yùn)用Matlab軟件計(jì)算相關(guān)系數(shù)矩陣及相關(guān)系數(shù)陣的特征值,計(jì)算結(jié)果為
前7個(gè)特征值之和所占比例(累計(jì)貢獻(xiàn)率)達(dá)到92.88%,因此去掉第8個(gè)主成分.7個(gè)保留的特征值對(duì)應(yīng)的7個(gè)特征向量分別為
因此取前7個(gè)主成分,分別為
對(duì)數(shù)據(jù)直接作線性回歸,得到經(jīng)驗(yàn)回歸方程
作主成分回歸分析,得到回歸方程
化為標(biāo)準(zhǔn)化變量的回歸方程為
綜合分析可以認(rèn)為,影響肥胖狀況的首要因素是性別與職業(yè)因素,其次是運(yùn)動(dòng)因素和飲食因素.
通過(guò)主成分模型提示人們,如果平時(shí)壓力較大,不經(jīng)常運(yùn)動(dòng)且飲食習(xí)慣較為不正常者,則肥胖的可能性較大.通過(guò)該模型,讓健康人群(非患病等特殊人群)中任一人填寫(xiě)該問(wèn)卷,可以預(yù)測(cè)該人的肥胖狀況,且準(zhǔn)確率較高.
綜合分析結(jié)果,建議肥胖人群應(yīng)該做到:(1)適當(dāng)?shù)卦黾舆\(yùn)動(dòng).人體能量的消耗主要是通過(guò)基礎(chǔ)代謝、肌肉運(yùn)動(dòng)和食物的生熱效應(yīng)進(jìn)行的.正常情況下,人的基礎(chǔ)代謝較為穩(wěn)定,肌肉運(yùn)動(dòng)是人體能量額外消耗的主要方式,通過(guò)運(yùn)動(dòng)可以達(dá)到減肥的效果.(2)多吃蔬菜水果和五谷雜糧,保持飲食均衡,這樣有利于促進(jìn)新陳代謝.(3)保持愉快的心情,調(diào)整好心態(tài),不要焦慮,適當(dāng)?shù)蒯尫艍毫Γ?/p>
對(duì)于某一健康人群,通過(guò)該人的某些數(shù)據(jù),利用本文模型可以預(yù)測(cè)該人的肥胖狀況并且準(zhǔn)確率較高.且模型對(duì)于研究高校大學(xué)生亞健康狀況,現(xiàn)代人亞健康狀況及其成因分析,現(xiàn)代人肥胖狀況及其成因分析等都具有一定的借鑒作用和參考價(jià)值.