亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        集成學習在糖尿病預測中的應(yīng)用

        2019-12-05 08:35:54張玉璽賀松尤思夢
        智能計算機與應(yīng)用 2019年5期
        關(guān)鍵詞:機器學習糖尿病

        張玉璽 賀松 尤思夢

        摘 要:糖尿病、高血壓和心腦血管病并稱為影響人類健康的三大殺手,不僅對患者的生命健康造成嚴重的威脅,也給患者的家庭造成嚴重的經(jīng)濟負擔。對糖尿病做出準確的預測,意義深遠。本文采用了KNN、支持向量機、邏輯回歸、隨機森林、集成學習五種方法對糖尿病數(shù)據(jù)進行預測,分別取得了71.86%,72.29%,74.46%,71.87%,76.62%的準確率。結(jié)果表明,集成學習預測效果最佳,驗證了其優(yōu)異性。

        關(guān)鍵詞: 集成學習;糖尿病;預測;機器學習

        【Abstract】 Diabetes, hypertension and cardiovascular and cerebrovascular diseases are called three killers of human health,which not only posed a serious threat to the patient's life and health , but also caused a serious economic burden to the patient's family.Accurate prediction of diabetes has profound implications.In this paper, five methods including KNN, Support Vector Machine, Logistic Regression, Random Forest and Integrated Learning are used to predict diabetes data, and the accuracy rates of 71.86%, 72.29%, 74.46%, 71.87% and 76.62% are achieved respectively.The results show that the integrated learning has the best prediction effect and its excellent performance is verified.

        【Key words】 ?integrated learning; diabetes; prediction; machine learning

        0 引 言

        目前,隨著科學技術(shù)的發(fā)展,大數(shù)據(jù)信息時代已悄然來臨,人工智能技術(shù)的研究也取得了長足進步,越來越多的學者將研究的關(guān)注點轉(zhuǎn)到醫(yī)療智能診斷上來。作為人工智能技術(shù)的重要分支,機器學習也已廣泛地被應(yīng)用于醫(yī)學模型的構(gòu)建中,并發(fā)揮著不可替代的作用。機器學習[1-2]( Machine Learning,ML) 是一門交叉學科,涉及統(tǒng)計學、概率論等多個領(lǐng)域,該算法是從已有數(shù)據(jù)中挖掘分析獲得規(guī)律,并利用這些規(guī)律對未知數(shù)據(jù)做出預測。

        糖尿病是一種以高血糖為主要特點的代謝性疾病,典型特征為多尿、多飲、多食、體重減輕。國際糖尿病聯(lián)盟(International Diabetes Federation,IDF)于2017發(fā)布的全球糖尿病地圖數(shù)據(jù)表明,目前全球共有4.25億成人(20~79歲)糖尿病患者,估計患病率為8.8%;中國成人糖尿病患者數(shù)量高達1.14億,占全球成人糖尿病患者總數(shù)的1/4以上,這一數(shù)據(jù)仍在繼續(xù)增長,預計到2045年將增至1.2億[3]。而中國大多數(shù)的糖尿病患者在患病之前,自身既沒有察覺、也沒有明確意識,因此,對糖尿病進行早期的診斷則顯得尤為重要。

        本文選用了機器學習算法中的KNN、支持向量機、邏輯回歸、隨機森林四種分類算法構(gòu)建糖尿病單一分類器,同時通過投票法作為結(jié)合策略結(jié)合上述四種分類算法構(gòu)成分類投票聚合模型Voting。基于此,將運用前述五種分類器對糖尿病數(shù)據(jù)進行分析、預測,并運用10折交叉驗證方法對各個模型進行評估比較,選出最好的糖尿病預測模型,以期為糖尿病的早期篩查與診斷提供輔助決策。本文擬展開研究論述如下。

        1 機器學習算法

        1.1 KNN算法

        KNN(k-NearestNeighbor)算法,又叫K近鄰算法,或者說K最近鄰分類算法,是著名的模式識別統(tǒng)計學方法。KNN算法在理論上比較成熟,是最簡單的機器學習算法之一,在機器學習分類算法中占據(jù)著重要位置。K最近鄰指的是K個最近的鄰居,也就是可以用最接近的K個鄰居來表示每個樣本。

        K近鄰算法中,K值的選取對于整個算法起著決定性作用[5]。當K的取值過小時,一旦數(shù)據(jù)中有噪聲存在,將會對預測結(jié)果產(chǎn)生比較大的影響。當K的取值過大時,容易受到樣本均衡問題的影響,訓練的模型會用較大鄰域中的訓練數(shù)據(jù)進行預測,模型的近似誤差將會增大。

        K要盡量選擇奇數(shù)。選偶數(shù),很有可能會發(fā)生分類結(jié)果相等的情況,不利于模型的預測,而選擇奇數(shù)則可以保證在預測結(jié)果的最后產(chǎn)生一個較多的類別。因此,研究必須要選擇合適的K值來構(gòu)建文中的KNN模型,本文通過10折交叉驗證確定KNN模型的最優(yōu)K值為7。

        1.2 支持向量機算法

        支持向量機(Support Vector Machine, SVM)算法1964年由Cortes和Vapnik[6]提出,此后歷經(jīng)一系列改進和擴展,目前已經(jīng)發(fā)展成較為成熟的機器學習模型。SVM不僅能夠?qū)崿F(xiàn)分類、回歸任務(wù),而且能夠進行異常值的檢測,是機器學習領(lǐng)域中廣為流行的模型。

        支持向量機嘗試找到一個最優(yōu)超平面來對樣本進行分割,分割的原則是間隔最大化,該超平面能夠?qū)⒄惡拓擃愓_分隔開。雖然SVM分類器在許多數(shù)據(jù)上的表現(xiàn)都很好,可是仍需指出,現(xiàn)實中的大部分數(shù)據(jù)并不是線性可分的,這個時候滿足這樣條件的超平面就根本不存在,即特征空間存在超曲面將正類和負類分開。對于這種情況,可以將訓練樣本從原始空間映射到一個更高維的希爾伯特空間(Hilbert space)中去,將其轉(zhuǎn)化為線性問題,使得樣本在這個空間中線性可分。

        SVM將非線性問題轉(zhuǎn)化為線性問題的方法關(guān)鍵就是選擇一個核函數(shù),常用的核函數(shù)有線性核(linear)、多項式核(poly-nomial)、高斯RBF核和 Sigmoid 核函數(shù)。在本文SVM模型的構(gòu)建中,研究選擇的核函數(shù)是多項式核。

        1.3 邏輯回歸算法

        邏輯回歸(Logistic Regression,LR)算法,又稱對數(shù)幾率回歸,雖然名字中帶“回歸”字樣,但其實際上卻是一種分類學習方法,主要應(yīng)用于兩分類問題。邏輯回歸由于具有計算速度快、解釋性好以及容易擴展和實現(xiàn)等優(yōu)點,常會應(yīng)用于疾病診斷,經(jīng)濟預測等方面。邏輯回歸算法使用Sigmoid函數(shù)作為研究中的預測函數(shù),對于輸入變量x,通過線性函數(shù)y=wx+b的運算,輸出變量y,y則通過Sigmoid函數(shù)轉(zhuǎn)換成標簽化的結(jié)果。模型函數(shù)的閾值可以進行設(shè)置,當Sigmoid函數(shù)的輸出值大于研究設(shè)定的閾值時,模型會將其判定為“1”這一個類別;否則判定為“0”這一類別,函數(shù)閾值是一個可調(diào)節(jié)的參數(shù)。其對應(yīng)數(shù)學公式如下:

        Sigmoid(x)=11+e-x.(4)

        邏輯回歸也會面臨過擬合的問題,所以就要采取一定的措施來緩解模型過擬合。通用的方法是在邏輯回歸的代價函數(shù)上,加入正則化項,從而能得到一個擬合較為適度的機器學習模型,常見的正則化手段有L1正則化和L2正則化[7]。

        1.4 隨機森林算法

        隨機森林(Ramdom Forest,RF)算法是由Breiman提出的一種基于 CART 決策樹的組合分類器算法,可構(gòu)造出多個樹形分類模型。隨機森林是一種集成學習算法,是由多個決策樹合并在一起形成的組合識別模型。“隨機”一詞在這里有兩層含義。第一層可以理解為在總訓練樣本中隨機有放回地為森林中的每個決策樹選取訓練集; 第二層是對森林中的每個決策樹從所有樣本屬性中隨機不放回地選擇部分樣本屬性。

        隨機森林的每棵樹都可以得出分類決策結(jié)果,通過采用森林內(nèi)決策樹投票,根據(jù)少數(shù)服從多數(shù)的原則,來判定待測樣本的類別,而所有樹中票數(shù)較高的類別即為最終結(jié)果。隨機森林分類精度相對較高,具有不易過擬合、抗噪聲能力強且易實現(xiàn)等特點[8],但運算量也相對較大。

        1.5 集成學習

        1.5.1 集成學習原理

        集成學習通過構(gòu)建并結(jié)合多個學習器完成學習任務(wù)。與一般的學習方法不同,一般的學習方法是用訓練數(shù)據(jù)構(gòu)造一個學習器,而集成學習方法是構(gòu)造多個學習器并通過一定的策略將其結(jié)合起來,上文中提到的隨機森林算法就是最常見的集成學習算法。但在實際模型構(gòu)建中,由于每個模型都有其各自的優(yōu)勢及局限性,研究只能得到多個在某些方面有偏好的學習器(弱學習器)。而集成學習則能將多個弱學習器相結(jié)合,以期得到一個穩(wěn)定且在各個方面性能表現(xiàn)都比較出色的模型。在此情況下,集成學習能夠綜合各個學習器的預測結(jié)果,即使某一學習器因為自身不足導致分類錯誤,可是只要大部分的學習器預測正確,最終仍能得到正確的預測結(jié)果[9]。

        1.5.2 集成學習結(jié)合策略

        對于機器學習中的分類任務(wù),最常用的結(jié)合策略是投票法,每個弱分類器給出自己的分類預測,再通過投票法結(jié)合后得出最終的結(jié)果。機器學習中的投票法也有不同的方式,最常見的是簡單投票法,包括相對多數(shù)投票法和絕對多數(shù)投票法。對此可做闡釋分述如下。

        在本文中,使用了4個單一分類器,即:KNN分類器、SVM分類器、邏輯回歸分類器和隨機森林分類器,通過把4個分類器的預測結(jié)果采用簡單投票法中的相對多數(shù)投票法作為結(jié)合策略結(jié)合起來,得票數(shù)最多的類別作為集成模型最終的預測類別。

        2 實驗結(jié)果與分析

        2.1 數(shù)據(jù)來源

        本研究采用的數(shù)據(jù)來源于開放的皮馬印第安人糖尿病數(shù)據(jù)集,該數(shù)據(jù)集由768個皮馬印第安人糖尿病信息樣本組成(樣本均為女性)。其中,每個樣本均包含Pregnancies(是否懷孕)、Glucose(葡萄糖含量)、Blood Pressure(血壓指數(shù))、Skin Thickness(皮膚厚度指數(shù))、Insulin(胰島素含量)、BMI(體重指數(shù))、Diabetes Pedigree Function(糖尿病譜系功能)、Age(年齡)共8個輸入變量,8個輸入變量全部為連續(xù)型變量,無需設(shè)置啞變量,同時包含Out come(結(jié)果)一個輸出變量,當Out come的值為1時代表患糖尿病,當Out come的值為0時表示未患糖尿病。

        2.2 模型建立

        機器學習算法模型的預測能力與訓練樣本的數(shù)量關(guān)系密切,根據(jù)以往的經(jīng)驗和相關(guān)文獻研究,將數(shù)據(jù)集按照7:3的比例進行劃分,其中70%(包含538條樣本)作為訓練集的數(shù)據(jù)資料,用來建造預測模型;另外30%(包含230條樣本)作為測試集數(shù)據(jù)資料,用來檢測和評價模型的性能效果。

        研究中,采用Python語言開發(fā)的sklearn機器學習庫中的KNN算法、支持向量機算法、邏輯回歸算法、隨機森林算法,以是否懷孕、葡萄糖含量、年齡等8個特征作為自變量,患者是否患糖尿病作為因變量,分別構(gòu)建4個單一分類器和以相對多數(shù)投票法作為結(jié)合策略的集成分類器。實驗中,使用10折交叉驗證對模型參數(shù)進行調(diào)優(yōu),以使模型具有最優(yōu)的參數(shù)組合。

        2.3 模型評估

        本文主要通過準確率、靈敏度、ROC曲線下面積等指標對構(gòu)建的分類器模型進行性能評價,具體結(jié)果見表1和圖1。

        由表1可知,在對糖尿病數(shù)據(jù)的預判上,集成模型Voting的效果是這5個模型中最好的,其準確率達到了76.62%,比最高的單一分類器提升了

        2.16%,其次是邏輯回歸74.46%,再次是支持向量機72.29%和隨機森林71.87%,KNN的效果最差,為71.86%。

        AUC(ROC曲線下面積)能夠體現(xiàn)模型性能的優(yōu)劣,圖1顯示的是各個分類器的ROC曲線。曲線越是靠近左上方,曲線下的面積就越大,表明該算法的預測效果越好。本實驗采用10折交叉驗證預測得到了各模型的AUC值。由表1和圖1可知,5種機器學習方法AUC值的排名依次是:集成模型Voting為0.802,邏輯回歸為0.791,隨機森林為0.782,支持向量機為0.718,KNN為0.717。

        綜上,研究將選擇準確率最高、AUC值最大的集成模型Voting作為最終的糖尿病數(shù)據(jù)預測模型。

        3 結(jié)束語

        本文闡述了機器學習中的KNN、支持向量機、邏輯回歸、隨機森林四種算法以及集成學習的基本原理與特點,并基于糖尿病數(shù)據(jù)分別建立相應(yīng)的模型,利用交叉驗證對模型的參數(shù)進行了優(yōu)化,通過準確率、AUC值等模型評價指標對模型進行選擇。結(jié)果表明以相對多數(shù)投票法作為結(jié)合策略的集成模型Voting具有更好的預測效果。由于數(shù)據(jù)集樣本量有限,導致整體預測準確率偏低。但有理由相信,在有足夠數(shù)據(jù)的情況下,將會構(gòu)建出更加準確的預測模型。希望本次研究能夠為糖尿病的預測提供一定的幫助,并能夠為國內(nèi)的醫(yī)療事業(yè)做出應(yīng)有的貢獻。

        參考文獻

        [1]MORPURGO R,MUSSI S.An intelligent diagnostic support system[J].Expert Systems,2001,18(l):43-58.

        [2]SELA R J,SIMONOFF J S.RE-EM trees:A data mining approach for longitudinal and clustered data[J]. Machine Learning,2012,86(2):169-207.

        [3]International Diabetes Federation. IDF Diabetes Atlas[M]. 8th ed. Brussels:International Diabetes Federation,2017.

        [4]吳興惠,周玉萍,邢?;?,等. 機器學習分類算法在糖尿病診斷中的應(yīng)用研究[J].電腦知識與技術(shù),2018,14(35):177-178,195.

        [5]楊帆,林琛,周綺鳳,等.基于隨機森林的潛在k近鄰算法及其在基因表達數(shù)據(jù)分類中的應(yīng)用[J].系統(tǒng)工程理論與實踐,2012,32(4):815-825.

        [6]CORTES C,VAPNIK V. Support vector networks[J].Machine Learning,1995,20(3) : 273-297.

        [7]史雙睿. 異質(zhì)集成學習器在鳶尾花卉分類中的應(yīng)用[J].電子制作,2019(2):45-47,79.

        [8]闞紅星,張璐瑤,董昌武.一種2型糖尿病中醫(yī)證型的舌圖像識別方法[J].中國生物醫(yī)學工程學報,2016,35(6):658-664.

        [9]曾一平. 基于集成學習的小麥識別研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(17):207-209.

        [10]ZHOU Zhihua. Ensemble methods: foundations and algorithms[M]. Boca Raton: CRC Press,2012.

        猜你喜歡
        機器學習糖尿病
        糖尿病知識問答
        中老年保健(2022年5期)2022-08-24 02:35:42
        糖尿病知識問答
        中老年保健(2022年1期)2022-08-17 06:14:56
        糖尿病知識問答
        中老年保健(2021年5期)2021-08-24 07:07:20
        糖尿病知識問答
        中老年保健(2021年9期)2021-08-24 03:51:04
        糖尿病知識問答
        中老年保健(2021年7期)2021-08-22 07:42:16
        糖尿病知識問答
        基于詞典與機器學習的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        基于支持向量機的金融數(shù)據(jù)分析研究
        中文字幕丰满伦子无码| 亚洲精品中文字幕乱码3| 日本a级一级淫片免费观看| 三年的高清电影免费看| 人妻av一区二区三区精品| 在线成人tv天堂中文字幕| 97人妻精品一区二区三区免费| 伊人久久大香线蕉av波多野结衣| 丰满多毛的大隂户视频| 亚洲V无码一区二区三区四区观看| 亚洲av色香蕉一区二区三区软件 | 久久久久亚洲av无码专区首| 性欧美暴力猛交69hd| 日韩啪啪精品一区二区亚洲av| 少妇深夜吞精一区二区| 欧美xxxx做受欧美88| 欧美第一黄网免费网站| 2021精品综合久久久久| 日韩精品一区二区亚洲观看av| 国产后入清纯学生妹| 大胆欧美熟妇xxbbwwbw高潮了| 国产成人精品人人做人人爽| 不卡一区二区三区国产| 狠狠躁天天躁中文字幕| 亚洲大尺度在线观看| 久久久精品国产亚洲av网不卡| av一区二区三区在线| 国产精品白丝喷水在线观看| 国产资源精品一区二区免费| 久久中文字幕av一区二区不卡| 无码中文字幕人妻在线一区| 女人夜夜春高潮爽a∨片| 40分钟永久免费又黄又粗| 久久人妻一区二区三区免费 | 大陆成人精品自拍视频在线观看 | 精品高潮呻吟99av无码视频| 亚洲av黄片一区二区| 亚洲最大免费福利视频网| 无码精品a∨在线观看| 国产成品精品午夜视频| 日本一级二级三级不卡|