亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機器學(xué)習(xí)算法在糖尿病預(yù)測中的應(yīng)用

2019-04-12 00:00:00賀其趙崗菊云霞周薏嵐李敏董琪趙凱

貴州大學(xué)學(xué)報(自然科學(xué)版) 2019年2期

摘要：在很多領(lǐng)域利用機器學(xué)習(xí)的方法對數(shù)據(jù)進行分析、預(yù)測、判斷具有非常重要的現(xiàn)實意義。將機器學(xué)習(xí)的算法應(yīng)用到醫(yī)學(xué)領(lǐng)域成為了研究的熱點之一。糖尿病是多發(fā)病癥，對是否患有糖尿病做出有效預(yù)測，意義重大。論文采用機器學(xué)習(xí)算法預(yù)測糖尿病，利用微軟的Azure machine learning作為實驗平臺。采用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機五種機器學(xué)習(xí)算法進行了預(yù)測，預(yù)測正確率分別是0.854，0.787，0.952，0.779，0.781。結(jié)果顯示決策樹預(yù)測效果最佳。在決策樹預(yù)測的基礎(chǔ)上對預(yù)測方法做出改進后，實驗結(jié)果表明正確率提高了0.002。

關(guān)鍵詞：機器學(xué)習(xí);糖尿病;決策樹;Azure machine learning

中圖分類號：TP181;R587

文獻標(biāo)識碼： A

科技不斷進步與發(fā)展，大數(shù)據(jù)時代已經(jīng)到來，面對各種紛繁復(fù)雜，基數(shù)巨大的數(shù)據(jù)，如何在其中提取挖掘出最有價值的信息，為企業(yè)、團體或個人決策提供科學(xué)的依據(jù)顯得尤為重要。最近幾年，機器學(xué)習(xí)受到了企業(yè)、學(xué)校、學(xué)術(shù)研究機構(gòu)的廣泛關(guān)注。機器學(xué)習(xí)[1-3]（Machine Learning， ML）是一門跨越多個領(lǐng)域的交叉學(xué)科，涉及統(tǒng)計學(xué)、概率論等多門學(xué)科，機器學(xué)習(xí)算法是從已有數(shù)據(jù)中分析挖掘獲得規(guī)律，并利用這些規(guī)律對未知數(shù)據(jù)做出預(yù)測。利用機器學(xué)習(xí)的算法對數(shù)據(jù)做處理、分析、預(yù)測可以應(yīng)用到很多領(lǐng)域。文獻[4]中闡述了機器學(xué)習(xí)方法在金融領(lǐng)域的應(yīng)用。文獻[5]介紹機器學(xué)習(xí)這一智能化探索型數(shù)據(jù)分析手段為處理地理學(xué)中普遍存在的高維非線性噪聲數(shù)據(jù)提供了方法支撐。文獻[6]研究了支持向量機算法在翻譯風(fēng)格研究中的應(yīng)用。文獻[7]介紹了機器學(xué)習(xí)方法在水文地質(zhì)中的研究。

在醫(yī)學(xué)領(lǐng)域應(yīng)用機器學(xué)習(xí)算法，可以有效節(jié)約各種人力、物力、財力，提高醫(yī)生的看病效率，緩解就醫(yī)難的問題。糖尿病作為多發(fā)病和嚴(yán)重的慢性病，患病率呈現(xiàn)逐步上升的趨勢。并且一直以來是受到醫(yī)學(xué)界、研究機構(gòu)的廣泛關(guān)注。世界衛(wèi)生組織發(fā)布的《全球糖尿病報告》[8]，指出全球糖尿病患者人數(shù)已達到4.22億人，這些患病的人主要集中在中低收入國家。

糖尿病分為1型糖尿病和2型糖尿病，患者罹患2型糖尿病的占大多數(shù)。利用機器學(xué)習(xí)算法對2型糖尿進行預(yù)測的研究比較多[9-13]。糖尿病可能導(dǎo)致多種并發(fā)癥包括視力減退、中風(fēng)、心臟病發(fā)作，這將會給患者的身心健康造成嚴(yán)重傷害。糖尿病也會給患者及其家庭帶來較重的經(jīng)濟負擔(dān)。

我們選用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機五種機器學(xué)習(xí)算法進行了預(yù)測，如圖1是機器學(xué)習(xí)算法預(yù)測糖尿病的過程。五種方法比較，實驗結(jié)果顯示決策樹預(yù)測的更好，所以我們重點選用了決策樹進行預(yù)測，并根據(jù)數(shù)據(jù)特性選用合理的方法標(biāo)準(zhǔn)化數(shù)值特征。

1 決策樹

在機器學(xué)習(xí)算法中，決策樹是非常重要的算法之一，決策樹也被叫做判定樹。根據(jù)不同的特征點信息對給出的數(shù)據(jù)集進行劃分，最終結(jié)果得到的是一棵樹。每個劃分集存放在相應(yīng)的子樹里。決策樹的決策過程是從決策樹的根節(jié)點開始的，待測數(shù)據(jù)與決策樹中的特征節(jié)點進行比較，依照比較結(jié)果選擇相應(yīng)的分支。決策樹的學(xué)習(xí)過程如下：首先是特征選擇，從給定的訓(xùn)練數(shù)據(jù)的特征點中選擇其中一個作為節(jié)點的分裂選擇標(biāo)準(zhǔn)。其次是決策樹的生成，要依據(jù)所選標(biāo)準(zhǔn)，從上到下遞歸地生成對應(yīng)的子節(jié)點，一直到數(shù)據(jù)集不可再分則停止生成。最后是對樹剪枝，決策樹很容易產(chǎn)生過擬合，針對這種情況需要通過剪枝來解決這一問題。

1.1 決策樹的基本算法

決策樹的基本算法如下[14]：

1.2 劃分選擇

從決策樹的算法中，希望決策樹分支節(jié)點所包含的樣本應(yīng)盡可能地屬于同一個類別，即節(jié)點純度越來越高。信息熵是用來評價樣本集合純度的最常用指標(biāo)。

1.3 剪枝處理

在決策樹學(xué)習(xí)過程中，由于節(jié)點劃分過程不斷地重復(fù)，會造成決策樹分支過多，這時會導(dǎo)致訓(xùn)練樣本學(xué)的過于好，產(chǎn)生過擬合。采取的措施是通過主動去掉一些分支，來降低過擬合的風(fēng)險。

決策樹剪枝分為預(yù)剪枝與后剪枝兩種。決策樹學(xué)習(xí)中，對每個節(jié)點在劃分前首先進行估計，如果當(dāng)前節(jié)點的劃分不會使決策樹泛化性能得到提升，則要停止劃分，把當(dāng)前節(jié)點標(biāo)記為葉子節(jié)點。后剪枝是先從給定的訓(xùn)練集中生成一棵完整的決策樹，隨后自底向上對非葉節(jié)點進行檢查，如果這個結(jié)點對應(yīng)的子樹替換為葉子結(jié)點能帶來泛化性能的提升，則使用葉子結(jié)點替換它。后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支，后剪枝決策樹欠擬合風(fēng)險小，泛化性能上表現(xiàn)更優(yōu)秀。

2 實驗及結(jié)論

我們的樣本選用了15000條記錄的數(shù)據(jù)集，共有11個特征點，分別是其中10500個（70%）用作訓(xùn)練集，4500個（30%）用作測試集。所選用的機器學(xué)習(xí)工具為微軟的Azure Machine Learning[15]。

預(yù)測正確率（Accuracy）=真陽性+真陰性/真陽性+真陰性+假陽性+假陰性，正確率是接近真值的程度。越接近1越好。預(yù)測精度（Precision）=真陽性/真陽性+假陽性，分散程度越接近1越好。召回率（Recall）=真陽性/真陽性+假陰性，越接近1越好。曲線下面積（AUC）能夠體現(xiàn)模型性能的優(yōu)劣。如表1是對預(yù)測結(jié)果的評估。如圖2是ROC曲線顯示了真陽性率與假陽性率之間的曲線變化率。曲線越是靠近左上方，表明算法的預(yù)測效果越好。在5種機器學(xué)習(xí)方法種預(yù)測效果表現(xiàn)好的依次排名分別是決策樹，神經(jīng)網(wǎng)絡(luò)，邏輯回歸，支持向量機，貝葉斯。在所有5種方法預(yù)測的基礎(chǔ)上，我們根據(jù)要預(yù)測的目標(biāo)，剔除了病人編號和醫(yī)生兩個特征點。對于一些特征近似正態(tài)分布我們采用了均值方差作標(biāo)準(zhǔn)化，而對遠離正常值的則采用MinMax標(biāo)準(zhǔn)化。

3 總結(jié)

人工智能和大數(shù)據(jù)分析領(lǐng)域日益引起廣泛的關(guān)注，而機器學(xué)習(xí)是其中重要的理論依據(jù)和工具之一。在論文中分別采用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯、支持向量機等機器學(xué)習(xí)算法預(yù)測糖尿病，幾種方法比較結(jié)果表明決策樹預(yù)測的準(zhǔn)確度和精度更加準(zhǔn)確，更加有效，下一步我們將采用更加多樣的糖尿病方面的數(shù)據(jù)集，對我們的方法進行印證。我們堅信機器學(xué)習(xí)方法將會更廣泛地應(yīng)用于醫(yī)療領(lǐng)域，對于人們治療各種疾病起到積極的作用。

參考文獻：

[1]張潤，王永濱.機器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報（自然科學(xué)版），2016，23（2）：10-18.

[2]余明華，馮翔，祝智庭.人工智能視域下機器學(xué)習(xí)的教育應(yīng)用與創(chuàng)新探索[J].遠程教育雜志，2017，35（3）：11-21.

[3]Peter Flach.機器學(xué)習(xí)[M].北京：人民郵電出版社，2016：9-10.

[4]孫存一，龔六堂.大數(shù)據(jù)思維下的利率定價研究——以機器學(xué)習(xí)為視角的實證分析[J].金融理論與實踐，2017（7）：1-5.

[5]張郴，黃震方，張捷，等.基于機器學(xué)習(xí)的南京市旅游地個性及其文化景觀表征[J].地理學(xué)報，2017，72（10）：1886-1903.

[6]詹菊紅，蔣躍.機器學(xué)習(xí)算法在翻譯風(fēng)格研究中的應(yīng)用[J].外語教學(xué)，2017，38（5）：80-85.

[7]強玲娟，常安定，陳玉雪.機器學(xué)習(xí)算法反求水文地質(zhì)參數(shù)[J].煤田地質(zhì)與勘探，2017，45（3）：87-90.

[8]世界衛(wèi)生組織全球糖尿病報告[DB/OL]. http：//www.who.int/diabetes/zh/.

[9]G Luo.Automatically explaining machine learning prediction results： a demonstration on type 2 diabetes risk prediction[J]. Health Information Scienceamp; Systems，2016，4（1）：1-9.

[10]HsinYi T， PeiYing C， ChiaYu S E. Predicting diabetic retinopathy and identifying interpretable biomedical features using machine learning algorithms[J].BMC Bioinformatics， 2018， 19（S9）：195-205.

[11]T Zheng，W Xie， L Xu，et al. A machine learning-based framework to identify type 2 diabetes through electronic health records[J].International Journal of Medical Informatics，2017，97：120-127.

[12]N Yuvaraj， KR Sripreethaa.Diabetes prediction in healthcare systems using machine learning algorithms on Hadoop cluster[J].Cluster Computing，2017（1）：1-9.

[13]蘇萍，楊亞超，楊洋，等.健康管理人群2型糖尿病病發(fā)風(fēng)險預(yù)測模型[J].山東大學(xué)學(xué)報（醫(yī)學(xué)版），2017，55（6）：82-86.

[14]周志華.機器學(xué)習(xí)[M].北京：清華大學(xué)出版社，2016：73-74.

[15]千賀大司，山本和貴，大澤文孝.微軟Azure機器學(xué)習(xí)實戰(zhàn)手冊[M].北京：中國人民大學(xué)出版社，2017.

（責(zé)任編輯：曾晶）

貴州大學(xué)學(xué)報(自然科學(xué)版)2019年2期

貴州大學(xué)學(xué)報(自然科學(xué)版)的其它文章: 多種介質(zhì)修復(fù)磷石膏堆場滲濾液污染巖溶地下水; 基于歐氏距離法的農(nóng)業(yè)可持續(xù)發(fā)展評價; 蝴蝶突變理論在含軟弱夾層邊坡穩(wěn)定性評價中的應(yīng)用; 基于R-FPOP變點檢測的城市路段旅行時間預(yù)測; 隨機效應(yīng)模型的復(fù)合分位數(shù)回歸估計; 鋼-PP混雜纖維混凝土坍落度及基本力學(xué)強度試驗研究