王金虹 張曉薇 馬斌
(山西中醫(yī)藥大學(xué) 山西省太原市 030024)
2019年國務(wù)院發(fā)布《關(guān)于實(shí)施健康中國行動(dòng)的意見》指出高鹽、高油、高糖攝入等不合理膳食行為是影響人群健康的主要危險(xiǎn)因素,會(huì)導(dǎo)致肥胖、糖尿病、高血壓、腦卒中、冠心病等疾病的發(fā)生發(fā)展?!兑庖姟愤€提出通過合理膳食行動(dòng),到2022年和2030年,成人肥胖增長率持續(xù)減緩,成人脂肪供能比下降到32%和30%。研究表明北方地區(qū)總體糖尿病患病率高于全國平均以及南方,尤其是北方農(nóng)村地區(qū),糖尿病增長率特別突出。成年人的脂肪肝發(fā)病率也逐年增加,40 歲以上的男性脂肪肝發(fā)病率大于30%[1-2]。
近年來許多學(xué)者都圍繞我國及各地區(qū)居民生活習(xí)慣、居住環(huán)境等健康影響因素及常見病、慢性病開展了流行病學(xué)調(diào)研及前瞻性研究。研究地區(qū)涉及有全國范圍、陜西、北京、云南、新疆、江蘇、河南、吉林等[4-10],山西省研究相對(duì)欠缺。研究主要采用統(tǒng)計(jì)方法,只有個(gè)別采用遺傳算法與粗糙集等從算法角度進(jìn)行分析。本研究采用邏輯回歸與關(guān)聯(lián)算法對(duì)山西人口尤其是農(nóng)村人口生活習(xí)慣特別是膳食習(xí)慣對(duì)代謝疾病的影響分析,以網(wǎng)絡(luò)在線調(diào)研和現(xiàn)場隨機(jī)調(diào)研的方式進(jìn)行廣泛調(diào)查,再通過數(shù)據(jù)挖掘算法深入分析膳食習(xí)慣與慢性病的關(guān)聯(lián)關(guān)系,為我省慢病為慢性病的公共衛(wèi)生干預(yù)方法提供相關(guān)依據(jù)。
研究在查閱文獻(xiàn)資料的基礎(chǔ)上,結(jié)合山西當(dāng)?shù)氐赜蛱攸c(diǎn)及居民生活習(xí)慣,進(jìn)行問卷設(shè)計(jì),經(jīng)過預(yù)調(diào)查處理,再依托問卷星平臺(tái)向我省11 個(gè)地區(qū)居民進(jìn)行線上問卷調(diào)研,而后對(duì)收回的數(shù)據(jù)進(jìn)行冗余記錄、缺失數(shù)據(jù)及規(guī)范化標(biāo)準(zhǔn)化預(yù)處理。為了提高分析的可行性和準(zhǔn)確性,首先對(duì)影響常見慢性代謝疾?。ㄈ缣悄虿 ⒏哐獕?、高脂血癥等)的主要有效特征進(jìn)行提取,而后對(duì)提取到的各疾病的主要有效特征進(jìn)行關(guān)聯(lián)分析,從而找出影響常見慢性代謝疾病的因素及影響作用。本研究的研究思路與框架如圖1所示。
圖1:研究思路與框架圖
2.2.1 問卷設(shè)計(jì)與調(diào)查
研究在參考國務(wù)院發(fā)布的《關(guān)于實(shí)施健康中國行動(dòng)的意見》《“健康中國2030”規(guī)劃綱要》和《飲食質(zhì)量改變與總死亡率和死因別死亡率之間的關(guān)系》等文獻(xiàn)資料的基礎(chǔ)上,參照公共衛(wèi)生科學(xué)數(shù)據(jù)中心、國家人口健康科學(xué)數(shù)據(jù)中心、中國健康與營養(yǎng)調(diào)查(CHNS)等數(shù)據(jù)庫,結(jié)合實(shí)際,設(shè)計(jì)了包含個(gè)人基本情況、飲食習(xí)慣、其他生活習(xí)慣及健康認(rèn)識(shí)等四個(gè)方面共有127 個(gè)問題的調(diào)研問卷,涉及到性別、年齡、民族、文化水平、經(jīng)濟(jì)狀況等個(gè)人基本情況,也包含有高血壓,糖尿病等疾病史以及食物攝入頻率、飲食習(xí)慣和生活方式等內(nèi)容。問卷主要采用選擇題方式作答,有單選題、多選題兩種。經(jīng)過問卷的預(yù)預(yù)調(diào)查,將題目中的35 個(gè)單選題目以矩陣單選題目方式改進(jìn),最后形成了88 個(gè)在線問題。之后通過問卷星平臺(tái),向我省11 個(gè)地區(qū)居民進(jìn)行線上調(diào)研,同時(shí)到我省多家醫(yī)院體檢中心和內(nèi)分泌科進(jìn)行隨機(jī)流行病調(diào)查,共收集了2801 份調(diào)查問卷。
2.2.2 數(shù)據(jù)預(yù)處理
對(duì)收回的2801 份調(diào)查問卷進(jìn)行了冗余記錄的刪除、多選題向單選題的拆分轉(zhuǎn)換,而后運(yùn)用算法對(duì)缺失屬性值進(jìn)行處理、將數(shù)據(jù)格式轉(zhuǎn)換,最后形成了包含2699 條記錄、281 個(gè)屬性的有效數(shù)據(jù)表。
缺失數(shù)據(jù)處理:問卷調(diào)查受人為因素影響,存在數(shù)據(jù)填寫不完全問題,研究采用拉格朗日插值法對(duì)缺失數(shù)據(jù)進(jìn)行了填充。插值法是利用函數(shù)f(x)在某區(qū)間中若干點(diǎn)的函數(shù)值,作出適當(dāng)?shù)奶囟ê瘮?shù),在這些點(diǎn)上取己知值,在區(qū)間的其他點(diǎn)上用這特定函數(shù)的值作為函數(shù)f(x)的近似值來補(bǔ)充缺失值[13]。
一般地,對(duì)于平面上已知的任意互不相同的n 個(gè)點(diǎn),可以找到一個(gè)n-1 次多項(xiàng)式,使此多項(xiàng)式曲線過這n 個(gè)點(diǎn)。將n 個(gè)點(diǎn)的坐標(biāo)代入多項(xiàng)式函數(shù),可求得拉格朗日多項(xiàng)式,如公式(1)所示:
將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)x 代入插值多項(xiàng)式得到缺失值的近似值L(x)。
2.2.3 數(shù)據(jù)分析
(1)有效特征提取。經(jīng)過數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)表為2699×281,其中包含糖尿病、高血壓、高血脂等慢性代謝疾病,為了找出影響代謝疾病的影響因素,首先利用邏輯回歸算法對(duì)這些慢性代謝疾病的有效特征進(jìn)行了提取。
回歸分析是通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)形體及進(jìn)行預(yù)測(cè)的一種有效工具。邏輯回歸是利用邏輯函數(shù)、建立在與自變量之間的線性回歸模型,將因變量的取值范圍控制在0 和1 之間,表示取值為1 的概率[13]。邏輯回歸方程如公式(2)所示:
β0:在沒有自變量,即x1,x2,…,xp全部取0,y=1 與y=0 發(fā)生概率之比的自然對(duì)數(shù);
β1:某自變量xi變化時(shí),即xi=1 與xi=0 相比,y=1 優(yōu)勢(shì)比的對(duì)數(shù)值。
研究采用python 語言利用Scikit-Learn 對(duì)數(shù)據(jù)進(jìn)行邏輯回歸分析,對(duì)影響常見慢性代謝疾病的特征數(shù)據(jù)進(jìn)行了提取。首先利用Scikit-Learn 的feature_selection 庫中的F 檢驗(yàn)給出各個(gè)特征的F 值和p 值,再使用穩(wěn)定性選擇方法中的隨機(jī)邏輯回歸進(jìn)行特征篩選,然后利用篩選后的特征建立邏輯回歸模型,輸出平均正確率。
(2)關(guān)聯(lián)分析。居民生活方式對(duì)其慢性代謝疾病的影響是有規(guī)律可循的,這些規(guī)律隱藏在大量的生活數(shù)據(jù)中,如果能夠快速找出這些規(guī)律,對(duì)于指導(dǎo)居民健康生活具有很大作用,研究通過關(guān)聯(lián)分析法分析影響常見慢性代謝疾病的因素關(guān)系[14]。
①關(guān)聯(lián)規(guī)則的一般形式。
項(xiàng)集A、B 同時(shí)發(fā)生的概率稱為關(guān)聯(lián)規(guī)則的支持度(也稱相對(duì)支持度),如公式(3)所示。
項(xiàng)集A 發(fā)生,則項(xiàng)集B 發(fā)生的概率為關(guān)聯(lián)規(guī)則的置信度,如公式(4)所示。
②最小支持度和最小置信度。
最小支持度是用戶或?qū)<叶x的衡量支持度的一個(gè)閾值,表示項(xiàng)目集在統(tǒng)計(jì)意義上的最低重要性;最小置信度是用戶或?qū)<叶x的衡量置信度的一個(gè)閾值,表示關(guān)聯(lián)規(guī)則的最低可靠性,同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱作強(qiáng)規(guī)則。
③項(xiàng)集。
項(xiàng)集是項(xiàng)的集合。包含k 個(gè)項(xiàng)的項(xiàng)集成為k 項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是所有包含項(xiàng)集的事務(wù)計(jì)數(shù),又稱作絕對(duì)支持度或支持度計(jì)數(shù)。如果項(xiàng)集I 的相對(duì)支持度滿足預(yù)定義的最小支持度閾值,則I 是頻繁項(xiàng)集。把頻繁k 項(xiàng)集記作k。
④支持度計(jì)數(shù)。
項(xiàng)集A 的支持度計(jì)數(shù)是事務(wù)數(shù)據(jù)中包含項(xiàng)集A 的事務(wù)個(gè)數(shù),簡稱項(xiàng)集的頻率或計(jì)數(shù)。
已知項(xiàng)集的支持度計(jì)數(shù),則規(guī)則A?B 的支持度和置信度的推導(dǎo)計(jì)數(shù)如公式(5)、(6)所示。
所以,只要知道所有事務(wù)計(jì)數(shù)、項(xiàng)集A、B 和項(xiàng)集A ∩ B 的支持度計(jì)數(shù),就可以導(dǎo)出對(duì)應(yīng)的關(guān)聯(lián)規(guī)則A?B 和B?A,并可以檢查該規(guī)則是否是強(qiáng)規(guī)則。
研究采用python 語言實(shí)現(xiàn)Apriori 算法,對(duì)影響各慢性代謝疾病的有效特征進(jìn)行了關(guān)聯(lián)分析,研究設(shè)定最小支持度和最小置信度,首先通過連接和剪枝兩步的相互融合,找出事務(wù)集中所有支持度大于等于給定最小支持度閾值的頻繁項(xiàng)集,然后從最大頻繁項(xiàng)集中選擇同時(shí)滿足預(yù)定的最小置信度閾值的規(guī)則,得到所需的強(qiáng)關(guān)聯(lián)規(guī)則。
經(jīng)過預(yù)處理生成包含2699 條記錄、281 個(gè)屬性的數(shù)據(jù)表,而后對(duì)各表中的數(shù)據(jù)進(jìn)行了從文本向數(shù)字的數(shù)據(jù)類型轉(zhuǎn)換,將所有數(shù)值轉(zhuǎn)換為“0”、“1”標(biāo)準(zhǔn)數(shù)據(jù),“1”表示該屬性值存在與出現(xiàn),“0”表示不存在。
研究采用python 語言利用Scikit-Learn 對(duì)數(shù)據(jù)進(jìn)行邏輯回歸分析,對(duì)影響常見慢性代謝疾病的特征數(shù)據(jù)進(jìn)行了提取。
3.1.1 糖尿病的有效特征
將糖尿病及相關(guān)屬性合并作為因變量,其他屬性作為自變量,經(jīng)過邏輯回歸運(yùn)算,平均正確率大于0.85 的糖尿病有效特征如表1所示。
表1:糖尿病有效特征
3.1.2 高血壓的有效特征
將高血壓及相關(guān)屬性合并作為因變量,其他屬性作為自變量,經(jīng)過邏輯回歸運(yùn)算,平均正確率大于0.93 的高血壓有效特征如表2所示。
表2:高血壓有效特征
3.1.3 高脂血癥的有效特征
將高脂血癥及相關(guān)屬性合并作為因變量,其他屬性作為自變量,經(jīng)過邏輯回歸運(yùn)算,平均正確率大于0.92 的高脂血癥有效特征如表3所示。
表3:高脂血癥有效特征
3.1.4 脂肪肝的有效特征
將脂肪肝及相關(guān)屬性合并作為因變量,其他屬性作為自變量,經(jīng)過邏輯回歸運(yùn)算,平均正確率大于0.90 的脂肪肝有效特征如表4所示。
表4:脂肪肝有效特征
研究采用Apriori 算法思想,通過python 程序,在前期分析的基礎(chǔ)上,對(duì)影響常見慢性代謝疾病有效特征進(jìn)行了關(guān)聯(lián)分析。最小支持度為0.6,最小置信度為0.8 下糖尿病有效特征關(guān)聯(lián)分析結(jié)果如表5所示。
表5:糖尿病有效特征的關(guān)聯(lián)分析
最小支持度為0.6,最小置信度為0.7 下高血壓有效特征關(guān)聯(lián)分析結(jié)果如表6所示。
表6:高血壓有效特征的關(guān)聯(lián)分析
最小支持度為0.6,最小置信度為0.8 下高血壓有效特征關(guān)聯(lián)分析結(jié)果如表7所示。
表7:高脂血癥有效特征的關(guān)聯(lián)分析
慢性代謝性疾病是全世界面臨的最大挑戰(zhàn),是人類的第一殺手,已成為我國居民的主要致貧原因和第一死亡原因,是一種生活方式疾病,長期飲食的四高:高熱(量)、高糖、高鹽、高脂及生活的兩低:活動(dòng)不足、睡眠不足等不健康生活方式是疾病發(fā)生、發(fā)展的主要危險(xiǎn)因素,不合理的膳食是中國人疾病發(fā)生和死亡的最主要因素[15]。項(xiàng)目主要研究了山西省居民膳食習(xí)慣對(duì)代謝疾病的影響。
研究結(jié)果顯示,影響糖尿病的有效特征主要有年齡、血壓狀況、血脂狀況、早餐飲食情況、午餐晚餐米面攝入情況等21 個(gè)特征;影響高血壓的主要有年齡、血脂狀況、脂肪肝狀況、冠心病患病情況、外出吃飯情況等13 個(gè)特征;影響高脂血癥的主要有年齡、BMI 體重、脂肪肝狀況、血壓狀況、午餐晚餐米面攝入情況、在家做飯吃飯情況等20 個(gè)特征;影響脂肪肝的主要有體重、血壓狀況、在家做飯吃情況等13 個(gè)特征。從有效特征提取結(jié)果來看,糖尿病、高血壓、高血脂癥互為有效特征,互相影響;年齡、外出吃飯或者點(diǎn)外賣還是經(jīng)常在家吃飯是影響常見慢性代謝疾病的主要因素;吸煙、飲酒也是重要有效特征;BMI 體重是高脂血癥及脂肪肝的重要影響因素??梢?,隨著年齡增長,患慢性代謝疾病的風(fēng)險(xiǎn)將增加;需要有效控制體重;習(xí)慣性在外就餐或外賣點(diǎn)餐存在油鹽過度消費(fèi),以及膳食結(jié)構(gòu)不合理問題[15],無法有效控制飲食中熱量、糖、鹽及脂肪的攝入量。研究表明,高鹽攝入能夠增加高血壓的發(fā)病風(fēng)險(xiǎn),反式脂肪酸攝入過多可導(dǎo)致心血管疾病死亡風(fēng)險(xiǎn)升高,過多攝入含糖飲料可增加肥胖發(fā)生風(fēng)險(xiǎn)及2 型糖尿病的發(fā)病風(fēng)險(xiǎn)[15]。碳酸飲料也是影響慢性代謝性疾病的重要因素,研究表明,城市人群游離糖攝入有42.1%來自于含糖飲料和乳飲品[15]。
從關(guān)聯(lián)分析結(jié)果可以看出,正常血壓及血脂能夠有效保持血糖正常,以飲用水的方式補(bǔ)充水分、不喝碳酸飲料、很少外出吃飯、米面搭配均衡等是保持血糖正常的良好生活習(xí)慣。血脂正常能夠有效保持血壓正常,經(jīng)常跑步鍛煉、自己做飯、正常作息等都是保持血壓正常的良好生活習(xí)慣。另外工作一天后無心悸、胸悶并伴隨頭暈癥狀一般說明血壓正常。正常血壓能夠有效保持血脂正常,不喝飲品類零食、米面搭配均衡、經(jīng)常自己做飯、走路鍛煉等是保持血脂正常的良好生活習(xí)慣??梢?,保持身體健康就要做到飲食均衡、低糖低脂低油低鹽攝入等健康膳食模式,也要多參加戶外活動(dòng),適當(dāng)運(yùn)動(dòng)可以減少或延緩體重增加過多風(fēng)險(xiǎn),健康生活方式可以降低心血管疾病、高血壓、2 型糖尿病等慢性疾病的發(fā)生風(fēng)險(xiǎn)[15]。
本研究基于邏輯回歸和關(guān)聯(lián)算法,利用python 語言分析了山西膳食習(xí)慣對(duì)中醫(yī)代謝疾病的影響,分析提取了影響糖尿病、高血壓、高脂血癥及脂肪肝等常見慢性代謝性疾病的特征數(shù)據(jù),分析了影響糖尿病、高血壓及高血脂癥常見慢性代謝性疾病的飲食及生活習(xí)慣,總結(jié)了合理膳食、適量運(yùn)動(dòng)、戒煙限酒、保持良好作息規(guī)律等健康生活方式,為我省慢性病的公共衛(wèi)生干預(yù)方法提供一定的依據(jù)與參考。