摘 要:在很多領(lǐng)域利用機器學(xué)習(xí)的方法對數(shù)據(jù)進行分析、預(yù)測、判斷具有非常重要的現(xiàn)實意義。將機器學(xué)習(xí)的算法應(yīng)用到醫(yī)學(xué)領(lǐng)域成為了研究的熱點之一。糖尿病是多發(fā)病癥,對是否患有糖尿病做出有效預(yù)測,意義重大。論文采用機器學(xué)習(xí)算法預(yù)測糖尿病,利用微軟的Azure machine learning作為實驗平臺。采用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機五種機器學(xué)習(xí)算法進行了預(yù)測,預(yù)測正確率分別是0.854,0.787,0.952,0.779,0.781。結(jié)果顯示決策樹預(yù)測效果最佳。在決策樹預(yù)測的基礎(chǔ)上對預(yù)測方法做出改進后,實驗結(jié)果表明正確率提高了0.002。
關(guān)鍵詞:機器學(xué)習(xí);糖尿病;決策樹;Azure machine learning
中圖分類號:TP181;R587
文獻標(biāo)識碼: A
科技不斷進步與發(fā)展,大數(shù)據(jù)時代已經(jīng)到來,面對各種紛繁復(fù)雜,基數(shù)巨大的數(shù)據(jù),如何在其中提取挖掘出最有價值的信息,為企業(yè)、團體或個人決策提供科學(xué)的依據(jù)顯得尤為重要。最近幾年,機器學(xué)習(xí)受到了企業(yè)、學(xué)校、學(xué)術(shù)研究機構(gòu)的廣泛關(guān)注。機器學(xué)習(xí)[1-3](Machine Learning, ML)是一門跨越多個領(lǐng)域的交叉學(xué)科,涉及統(tǒng)計學(xué)、概率論等多門學(xué)科,機器學(xué)習(xí)算法是從已有數(shù)據(jù)中分析挖掘獲得規(guī)律,并利用這些規(guī)律對未知數(shù)據(jù)做出預(yù)測。利用機器學(xué)習(xí)的算法對數(shù)據(jù)做處理、分析、預(yù)測可以應(yīng)用到很多領(lǐng)域。文獻[4]中闡述了機器學(xué)習(xí)方法在金融領(lǐng)域的應(yīng)用。文獻[5]介紹機器學(xué)習(xí)這一智能化探索型數(shù)據(jù)分析手段為處理地理學(xué)中普遍存在的高維非線性噪聲數(shù)據(jù)提供了方法支撐。文獻[6]研究了支持向量機算法在翻譯風(fēng)格研究中的應(yīng)用。文獻[7]介紹了機器學(xué)習(xí)方法在水文地質(zhì)中的研究。
在醫(yī)學(xué)領(lǐng)域應(yīng)用機器學(xué)習(xí)算法,可以有效節(jié)約各種人力、物力、財力,提高醫(yī)生的看病效率,緩解就醫(yī)難的問題。糖尿病作為多發(fā)病和嚴(yán)重的慢性病,患病率呈現(xiàn)逐步上升的趨勢。并且一直以來是受到醫(yī)學(xué)界、研究機構(gòu)的廣泛關(guān)注。世界衛(wèi)生組織發(fā)布的《全球糖尿病報告》[8],指出全球糖尿病患者人數(shù)已達到4.22億人,這些患病的人主要集中在中低收入國家。
糖尿病分為1型糖尿病和2型糖尿病,患者罹患2型糖尿病的占大多數(shù)。利用機器學(xué)習(xí)算法對2型糖尿進行預(yù)測的研究比較多[9-13]。糖尿病可能導(dǎo)致多種并發(fā)癥包括視力減退、中風(fēng)、心臟病發(fā)作,這將會給患者的身心健康造成嚴(yán)重傷害。糖尿病也會給患者及其家庭帶來較重的經(jīng)濟負擔(dān)。
我們選用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機五種機器學(xué)習(xí)算法進行了預(yù)測,如圖1是機器學(xué)習(xí)算法預(yù)測糖尿病的過程。五種方法比較,實驗結(jié)果顯示決策樹預(yù)測的更好,所以我們重點選用了決策樹進行預(yù)測,并根據(jù)數(shù)據(jù)特性選用合理的方法標(biāo)準(zhǔn)化數(shù)值特征。
1 決策樹
在機器學(xué)習(xí)算法中,決策樹是非常重要的算法之一,決策樹也被叫做判定樹。根據(jù)不同的特征點信息對給出的數(shù)據(jù)集進行劃分,最終結(jié)果得到的是一棵樹。每個劃分集存放在相應(yīng)的子樹里。決策樹的決策過程是從決策樹的根節(jié)點開始的,待測數(shù)據(jù)與決策樹中的特征節(jié)點進行比較,依照比較結(jié)果選擇相應(yīng)的分支。決策樹的學(xué)習(xí)過程如下:首先是特征選擇,從給定的訓(xùn)練數(shù)據(jù)的特征點中選擇其中一個作為節(jié)點的分裂選擇標(biāo)準(zhǔn)。其次是決策樹的生成,要依據(jù)所選標(biāo)準(zhǔn),從上到下遞歸地生成對應(yīng)的子節(jié)點,一直到數(shù)據(jù)集不可再分則停止生成。最后是對樹剪枝,決策樹很容易產(chǎn)生過擬合,針對這種情況需要通過剪枝來解決這一問題。
1.1 決策樹的基本算法
決策樹的基本算法如下[14]:
1.2 劃分選擇
從決策樹的算法中,希望決策樹分支節(jié)點所包含的樣本應(yīng)盡可能地屬于同一個類別,即節(jié)點純度越來越高。信息熵是用來評價樣本集合純度的最常用指標(biāo)。
1.3 剪枝處理
在決策樹學(xué)習(xí)過程中,由于節(jié)點劃分過程不斷地重復(fù),會造成決策樹分支過多,這時會導(dǎo)致訓(xùn)練樣本學(xué)的過于好,產(chǎn)生過擬合。采取的措施是通過主動去掉一些分支,來降低過擬合的風(fēng)險。
決策樹剪枝分為預(yù)剪枝與后剪枝兩種。決策樹學(xué)習(xí)中,對每個節(jié)點在劃分前首先進行估計,如果當(dāng)前節(jié)點的劃分不會使決策樹泛化性能得到提升,則要停止劃分,把當(dāng)前節(jié)點標(biāo)記為葉子節(jié)點。后剪枝是先從給定的訓(xùn)練集中生成一棵完整的決策樹,隨后自底向上對非葉節(jié)點進行檢查,如果這個結(jié)點對應(yīng)的子樹替換為葉子結(jié)點能帶來泛化性能的提升,則使用葉子結(jié)點替換它。后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支,后剪枝決策樹欠擬合風(fēng)險小,泛化性能上表現(xiàn)更優(yōu)秀。
2 實驗及結(jié)論
我們的樣本選用了15000條記錄的數(shù)據(jù)集,共有11個特征點,分別是其中10500個(70%)用作訓(xùn)練集,4500個(30%)用作測試集。所選用的機器學(xué)習(xí)工具為微軟的Azure Machine Learning[15]。
預(yù)測正確率(Accuracy)=真陽性+真陰性/真陽性+真陰性+假陽性+假陰性,正確率是接近真值的程度。越接近1越好。預(yù)測精度(Precision)=真陽性/真陽性+假陽性,分散程度越接近1越好。召回率(Recall)=真陽性/真陽性+假陰性,越接近1越好。曲線下面積(AUC)能夠體現(xiàn)模型性能的優(yōu)劣。如表1是對預(yù)測結(jié)果的評估。如圖2是ROC曲線顯示了真陽性率與假陽性率之間的曲線變化率。曲線越是靠近左上方,表明算法的預(yù)測效果越好。在5種機器學(xué)習(xí)方法種預(yù)測效果表現(xiàn)好的依次排名分別是決策樹,神經(jīng)網(wǎng)絡(luò),邏輯回歸,支持向量機,貝葉斯。在所有5種方法預(yù)測的基礎(chǔ)上,我們根據(jù)要預(yù)測的目標(biāo),剔除了病人編號和醫(yī)生兩個特征點。對于一些特征近似正態(tài)分布我們采用了均值方差作標(biāo)準(zhǔn)化,而對遠離正常值的則采用MinMax標(biāo)準(zhǔn)化。
3 總結(jié)
人工智能和大數(shù)據(jù)分析領(lǐng)域日益引起廣泛的關(guān)注,而機器學(xué)習(xí)是其中重要的理論依據(jù)和工具之一。在論文中分別采用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機等機器學(xué)習(xí)算法預(yù)測糖尿病,幾種方法比較結(jié)果表明決策樹預(yù)測的準(zhǔn)確度和精度更加準(zhǔn)確,更加有效,下一步我們將采用更加多樣的糖尿病方面的數(shù)據(jù)集,對我們的方法進行印證。我們堅信機器學(xué)習(xí)方法將會更廣泛地應(yīng)用于醫(yī)療領(lǐng)域,對于人們治療各種疾病起到積極的作用。
參考文獻:
[1]張潤,王永濱.機器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報(自然科學(xué)版),2016,23(2):10-18.
[2]余明華,馮翔,祝智庭.人工智能視域下機器學(xué)習(xí)的教育應(yīng)用與創(chuàng)新探索[J].遠程教育雜志,2017,35(3):11-21.
[3]Peter Flach.機器學(xué)習(xí)[M].北京:人民郵電出版社,2016:9-10.
[4]孫存一,龔六堂.大數(shù)據(jù)思維下的利率定價研究——以機器學(xué)習(xí)為視角的實證分析[J].金融理論與實踐,2017(7):1-5.
[5]張郴,黃震方,張捷,等.基于機器學(xué)習(xí)的南京市旅游地個性及其文化景觀表征[J].地理學(xué)報,2017,72(10):1886-1903.
[6]詹菊紅,蔣躍.機器學(xué)習(xí)算法在翻譯風(fēng)格研究中的應(yīng)用[J].外語教學(xué),2017,38(5):80-85.
[7]強玲娟,常安定,陳玉雪.機器學(xué)習(xí)算法反求水文地質(zhì)參數(shù)[J].煤田地質(zhì)與勘探,2017,45(3):87-90.
[8]世界衛(wèi)生組織全球糖尿病報告[DB/OL]. http://www.who.int/diabetes/zh/.
[9]G Luo.Automatically explaining machine learning prediction results: a demonstration on type 2 diabetes risk prediction[J]. Health Information Scienceamp; Systems,2016,4(1):1-9.
[10]HsinYi T, PeiYing C, ChiaYu S E. Predicting diabetic retinopathy and identifying interpretable biomedical features using machine learning algorithms[J].BMC Bioinformatics, 2018, 19(S9):195-205.
[11]T Zheng,W Xie, L Xu,et al. A machine learning-based framework to identify type 2 diabetes through electronic health records[J].International Journal of Medical Informatics,2017,97:120-127.
[12]N Yuvaraj, KR Sripreethaa.Diabetes prediction in healthcare systems using machine learning algorithms on Hadoop cluster[J].Cluster Computing,2017(1):1-9.
[13]蘇萍,楊亞超,楊洋,等.健康管理人群2型糖尿病病發(fā)風(fēng)險預(yù)測模型[J].山東大學(xué)學(xué)報(醫(yī)學(xué)版),2017,55(6):82-86.
[14]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:73-74.
[15]千賀大司,山本和貴,大澤文孝.微軟Azure機器學(xué)習(xí)實戰(zhàn)手冊[M].北京:中國人民大學(xué)出版社,2017.
(責(zé)任編輯:曾 晶)