呂曉燕,郭 威,崔宇琛
1.山西醫(yī)科大學(xué),山西 030001;2.吉林大學(xué)口腔醫(yī)學(xué)院
糖尿病是一種威脅人類生命與健康的常見(jiàn)慢性病,因其病機(jī)制復(fù)雜,發(fā)病病因仍未明確[1],因此發(fā)病率居高不下。據(jù)國(guó)際糖尿病聯(lián)盟(International Diabetes Federation,IDF)調(diào)查,全球罹患糖尿病的成年人高達(dá)4.63 億例,而我國(guó)患病人數(shù)占到其中的1/4[2],且保持增長(zhǎng)態(tài)勢(shì)?;诖?,本研究旨在通過(guò)對(duì)UCI 糖尿病數(shù)據(jù)集中數(shù)據(jù)的學(xué)習(xí),對(duì)糖尿病的潛在影響因素進(jìn)行探索,以期對(duì)糖尿病發(fā)病因素進(jìn)行干預(yù)。在此基礎(chǔ)上,建立糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型,做到疾病的早發(fā)現(xiàn),這對(duì)于“治未病”、促進(jìn)全民大健康也具有重要的現(xiàn)實(shí)意義[3-4]。
1.1 研究對(duì)象 以UCI 數(shù)據(jù)庫(kù)中768 條糖尿病篩查記錄為研究對(duì)象,數(shù)據(jù)集中各指標(biāo)及屬性見(jiàn)表1。
表1 糖尿病數(shù)據(jù)特征及含義
1.2 研究方法
1.2.1 數(shù)據(jù)預(yù)處理 利用SPSS 22 軟件,對(duì)糖尿病數(shù)據(jù)集中數(shù)據(jù)特征進(jìn)行分析(見(jiàn)表2)。根據(jù)醫(yī)學(xué)知識(shí),X2、X3、X4、X6、X7取值為0 不合常規(guī)。
表2 統(tǒng)計(jì)量描述
進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行可視化分析,發(fā)現(xiàn)X3、X6、X4、X7取值存在明顯異常,見(jiàn)圖1。對(duì)以上“問(wèn)題”數(shù)據(jù)及缺失數(shù)據(jù),采用刪除法和平均值填補(bǔ)法等進(jìn)行數(shù)據(jù)清理。
圖1 異常值分析
1.2.2 統(tǒng)計(jì)學(xué)方法 按是否患有糖尿病,將糖尿病數(shù)據(jù)集中數(shù)據(jù)分為兩組,定量資料用均數(shù)±標(biāo)準(zhǔn)差(±s)表示,采用兩獨(dú)立樣本t檢驗(yàn),找出對(duì)分類結(jié)果有影響的指標(biāo);基于此,利用10-Fold 交叉驗(yàn)證法,在SPSS 中確立最優(yōu)Logistic 回歸模型,應(yīng)用受試者工作特征(ROC)曲線下面積(AUC)與Python 建立的KNN 模型進(jìn)行性能比較。
2.1 糖尿病發(fā)病影響因素的單因素分析 對(duì)數(shù)據(jù)集中的數(shù)據(jù)按是否患有糖尿病分為兩組,對(duì)各指標(biāo)進(jìn)行單因素分析,結(jié)果見(jiàn)表3。
表3 糖尿病發(fā)病影響因素的單因素分析
2.2 糖尿病發(fā)病影響因素的Logistic 回歸分析 以單因素分析具有統(tǒng)計(jì)學(xué)差異的年齡、BMI 等7 項(xiàng)糖尿病相關(guān)指標(biāo)為自變量,分類結(jié)果Y為因變量,經(jīng)多因素Logistic 回歸分析,確定BMI(X2)、懷孕次數(shù)(X5)、血漿葡萄糖含量(X6)與糖尿病遺傳因素(X8)為糖尿病高危影響因素(P<0.05),見(jiàn)表4。
表4 糖尿病發(fā)病影響因素的Logistic 回歸分析
對(duì)回歸模型系數(shù)進(jìn)行檢驗(yàn),χ2=277.43,P<0.05,建立的回歸方程有統(tǒng)計(jì)學(xué)意義。
2.3 糖尿病風(fēng)險(xiǎn)模型評(píng)價(jià) 利用本研究建立的模型進(jìn)行糖尿病分類診斷,AUC 為0.879。為了進(jìn)一步驗(yàn)證模型的分類性能,與Python 構(gòu)建的KNN 算法模型進(jìn)行了比較,結(jié)果見(jiàn)圖2。KNN 模型用于分類預(yù)測(cè),AUC 為0.641,分類性能明顯低于Logistic 回歸模型。采用SPSS 中H-L 對(duì)構(gòu)建的回歸模型經(jīng)擬合優(yōu)度檢驗(yàn),該預(yù)測(cè)模型具有較好的擬合效果(P=0.415)。
圖2 糖尿病Logistic 回歸預(yù)測(cè)(與KNN 預(yù)測(cè)模型分類性能比較)
3.1 糖尿病遺傳因素與糖尿病的關(guān)系 研究表明,遺傳因素是糖尿病的高危誘因,這與已有的臨床研究結(jié)果[5-7]一致。這就提示醫(yī)護(hù)人員應(yīng)密切關(guān)注有糖尿病家族史的人員的糖尿病誘發(fā)因素,通過(guò)健康指導(dǎo)和臨床干預(yù)進(jìn)行控制,降低患病風(fēng)險(xiǎn)。
3.2 妊娠次數(shù)與糖尿病的關(guān)系 研究表明,多次妊娠是糖尿病發(fā)病的高危因素,這在已有的研究[8-10]中也得到證實(shí)。因此,對(duì)妊娠期婦女,應(yīng)密切關(guān)注其血糖的變化,必要時(shí)給予臨床干預(yù),如補(bǔ)充維生素D 等[11],降低妊娠期糖尿病發(fā)病風(fēng)險(xiǎn)。
3.3 肥胖與糖尿病的關(guān)系 研究表明,BMI 高是糖尿病的高危誘因。這是因?yàn)锽MI 高的人極易產(chǎn)生高胰島素血癥,從而使胰島素降糖作用受阻,引發(fā)糖尿病。因此,預(yù)防糖尿病,需注意健康飲食,積極控制體重[12]。
3.4 血漿葡萄糖含量與糖尿病的關(guān)系 血糖過(guò)高是糖尿病的高危誘因。這是因?yàn)閿z食過(guò)多的糖類時(shí),身體內(nèi)就會(huì)持續(xù)產(chǎn)生胰島素,以提高對(duì)糖類的吸收。久而久之,人體內(nèi)的胰腺功能將會(huì)下降,導(dǎo)致人體血糖濃度升高,從而導(dǎo)致高血糖[13]。這也警示人們?nèi)粘I偈掣咛鞘称?。?duì)于高血糖人群,需要通過(guò)服藥或其他干預(yù)措施,積極降糖,使其血糖維持在正常水平。
遺傳因素、妊娠次數(shù)、BMI、血漿葡萄糖含量是糖尿病發(fā)病的重要影響因素。年齡、三頭肌皮褶厚度、胰島素水平雖與糖尿病有關(guān),但非重要影響因素。但也有文獻(xiàn)研究認(rèn)為年齡是糖尿病的高危影響因素[14-15],這點(diǎn)在本研究中并未得到證實(shí),需要今后進(jìn)一步探索。