亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合LightGBM與SHAP的糖尿病預(yù)測(cè)及其特征分析方法

        2022-08-29 02:28:22孫瑞娜
        關(guān)鍵詞:準(zhǔn)確率樣本預(yù)測(cè)

        王 鑫,廖 彬,李 敏,2,孫瑞娜,3,4

        1(新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,烏魯木齊 830012)

        2(新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830008)

        3(中國(guó)科學(xué)院 信息工程研究所,北京 100093)

        4(中國(guó)科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100093)

        E-mail:liaobin665@163.com

        1 引 言

        目前,醫(yī)療領(lǐng)域是人工智能技術(shù)發(fā)展相對(duì)較快的一個(gè)領(lǐng)域,科技型公司推出醫(yī)療人工智能產(chǎn)品,傳統(tǒng)的醫(yī)療企業(yè)也大量引入人工智能專業(yè)人才和技術(shù),人工智能在醫(yī)療領(lǐng)域的應(yīng)用范圍得到不斷的拓寬,“智慧醫(yī)院”,“數(shù)字診療”等成為醫(yī)療新方向.機(jī)器學(xué)習(xí)是當(dāng)下最炙手可熱的人工智能技術(shù),各類預(yù)測(cè)算法被廣泛應(yīng)用于醫(yī)療大數(shù)據(jù),有利于對(duì)各種疾病進(jìn)行探測(cè)[1,2]、診斷[3,4]、治療[5]和管理[6,7]工作.

        糖尿病嚴(yán)重危害著人們的身體健康,是一種常見(jiàn)的慢性疾病,根據(jù)國(guó)際糖尿病聯(lián)盟協(xié)會(huì)(IDF)的數(shù)據(jù)統(tǒng)計(jì):2019年全球大約有4.63億成年人(20歲~79歲)患有糖尿??;已經(jīng)導(dǎo)致420萬(wàn)人死亡(1)https://www.idf.org/aboutdiabetes/what-is-diabetes/facts-figures.html,其中中國(guó)作為世界上糖尿病患病人數(shù)最多(大約1.16億人)的國(guó)家,如果能夠充分利用機(jī)器學(xué)習(xí)算法提高糖尿病預(yù)測(cè)模型的性能表現(xiàn)以及模型的可解釋性,這對(duì)于輔助醫(yī)生進(jìn)行糖尿病診斷工作具有重要的現(xiàn)實(shí)意義.雖然目前已有不少這方面的研究工作,例如基于支持向量機(jī)(SVM)[8,9]、樸素貝葉斯[10]、決策樹(shù)[10-12]、深度神經(jīng)網(wǎng)絡(luò)(DNN)[13]、隨機(jī)森林[14,15]、Xgboost[16]等的機(jī)器學(xué)習(xí)模型,分別在皮馬印第安人糖尿病數(shù)據(jù)集、加拿大保健預(yù)防監(jiān)測(cè)中心等數(shù)據(jù)集上建立了預(yù)測(cè)模型,但是這些傳統(tǒng)模型在準(zhǔn)確率(Accuracy)、精確率(Precision)等性能指標(biāo)上基本都在90%以下,還未達(dá)到投入臨床應(yīng)用的性能要求.在此背景下,為了進(jìn)一步提高對(duì)糖尿病預(yù)測(cè)的準(zhǔn)確率、精確率、召回率(Recall)、F1值等性能指標(biāo),本文基于集成學(xué)習(xí)LightGBM算法,使用美國(guó)國(guó)家糖尿病、消化及腎臟疾病研究所提供的皮馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Data Set,以下簡(jiǎn)稱Pima糖尿病數(shù)據(jù)集)作為研究對(duì)象,在對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理、模型訓(xùn)練、超參數(shù)優(yōu)化、泛化能力分析、模型性能分析、模型解釋等工作的基礎(chǔ)上,建立了性能更為出色的預(yù)測(cè)模型.本文工作主要集中在以下3個(gè)方面:

        1)基于LightGBM算法建立了糖尿病預(yù)測(cè)模型,并通過(guò)對(duì)比實(shí)驗(yàn),比較了其他模型在準(zhǔn)確率、精確率、召回率(Recall)、F1值等指標(biāo)上的表現(xiàn),驗(yàn)證了本文模型的性能優(yōu)越性.

        2)通過(guò)網(wǎng)格搜索技術(shù)對(duì)模型超參數(shù)進(jìn)行調(diào)優(yōu),進(jìn)一步提高模型性能表現(xiàn),同時(shí)通過(guò)對(duì)比各模型的學(xué)習(xí)曲線,證明了本文模型在樣本量較少時(shí),同樣擁有不錯(cuò)的泛化能力.

        3)在利用LightGBM算法保證預(yù)測(cè)性能的基礎(chǔ)上,為了增強(qiáng)模型的可解釋性,基于SHAP模型對(duì)影響糖尿病的關(guān)鍵因素進(jìn)行了分析,為糖尿病的醫(yī)療診斷提供了決策參考.

        2 相關(guān)研究

        近年來(lái),隨著信息科技化的不斷發(fā)展,國(guó)內(nèi)外學(xué)者致力于利用機(jī)器學(xué)習(xí)算法輔助醫(yī)療診斷,對(duì)糖尿病預(yù)測(cè)研究方面進(jìn)行深入探索,提出的部分預(yù)測(cè)模型及其在實(shí)驗(yàn)當(dāng)中的表現(xiàn)效果匯總?cè)绫?所示.其中,Annja等[8]提出一種基于SVM的糖尿病預(yù)測(cè)模型,在Pima數(shù)據(jù)集上進(jìn)行驗(yàn)證工作,模型的準(zhǔn)確率達(dá)到78%.Aiswarya等[10]分別使用決策樹(shù)和樸素貝葉斯兩個(gè)模型對(duì)糖尿病的診斷進(jìn)行分類,同樣應(yīng)用在Pima糖尿病數(shù)據(jù)集上,決策樹(shù)和樸素貝葉斯的分類準(zhǔn)確率分別為74.8%和79.5%.與文獻(xiàn)[10]類似,Ashiquzzaman等[13]利用深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練預(yù)測(cè)模型,在Pima數(shù)據(jù)集上將模型準(zhǔn)確率指標(biāo)提升到88.41%.

        表1 已有分類算法相關(guān)研究綜合比較Table 1 Comprehensive comparison of classification algorithms

        李桃等[14]基于隨機(jī)森林(RandomForest),在上海交大第六人民醫(yī)院的2型糖尿病臨床數(shù)據(jù)上建立預(yù)測(cè)模型,預(yù)測(cè)精度為80%,優(yōu)于傳統(tǒng)的邏輯回歸算法.曲文龍等[16]采用Xgboost算法作用到6000多個(gè)體檢人員的真實(shí)糖尿病體檢數(shù)據(jù)中,對(duì)比SVM和隨機(jī)森林的平均絕對(duì)百分比誤差下降到8.75%.張富春等人[17]在原有集成算法Xgboost的基礎(chǔ)上,利用遺傳算法調(diào)參得到改進(jìn)模型GA_Xgboost模型,對(duì)天池競(jìng)賽平臺(tái)提供的糖尿病臨床數(shù)據(jù)進(jìn)行血糖值預(yù)測(cè),算法的均方誤差優(yōu)于其他機(jī)器學(xué)習(xí)算法的同時(shí)縮短了調(diào)參時(shí)長(zhǎng).2016年P(guān)erveen[18]等對(duì)比分析了bagging與boosting兩類集成學(xué)習(xí)算法,在加拿大保健預(yù)防監(jiān)測(cè)中心的數(shù)據(jù)集上的效果,結(jié)果發(fā)現(xiàn)adaboost優(yōu)于bagging算法.已有基于集成算法的工作相比傳統(tǒng)的機(jī)器學(xué)習(xí)模型,在準(zhǔn)確率、精確率等性能表現(xiàn)上更為出色,但是同樣也存在兩個(gè)方面的問(wèn)題:1)由于模型復(fù)雜度增加,當(dāng)數(shù)據(jù)樣本量不足時(shí),容易出現(xiàn)模型泛化能力較差的現(xiàn)象;2)諸如文獻(xiàn)[14-16,19]中采用的諸如Xgboost、隨機(jī)森林等集成學(xué)習(xí),以及文獻(xiàn)[13]中的深度神經(jīng)網(wǎng)絡(luò)均為黑箱機(jī)器學(xué)習(xí)模型,這使得建立的預(yù)測(cè)模型缺乏可解釋性.

        為了解決已有研究中存在的以上兩點(diǎn)問(wèn)題,本文在用LightGBM算法保證預(yù)測(cè)性能的基礎(chǔ)上,引入SHAP增強(qiáng)模型的可解釋性.本文與已有的研究工作不同之處在于:1)預(yù)測(cè)模型不同,其中文獻(xiàn)[8-10]都是以Pima數(shù)據(jù)集為研究對(duì)象,采用SVM、決策樹(shù)、樸素貝葉斯以及深度神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型,本文基于集成學(xué)習(xí)的LightGBM算法在準(zhǔn)確率等性能指標(biāo)上性能更優(yōu);2)由于文獻(xiàn)[14-16]中均為黑箱的機(jī)器學(xué)習(xí)模型,對(duì)建立的預(yù)測(cè)模型缺乏可解釋性,為了解決這一問(wèn)題,本文通過(guò)引入SHAP模型,能夠?qū)继悄虿〉挠绊懸蛩剡M(jìn)行分析,為糖尿病診斷建議提供了決策參考.

        3 模型構(gòu)建方法

        本章3.1節(jié)對(duì)LightGBM算法原理進(jìn)行概述,3.2節(jié)對(duì)SHAP模型進(jìn)行了介紹,闡述了基于LightGBM的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型的實(shí)現(xiàn)過(guò)程,本文所用到的符號(hào)及其解釋如表2所示.

        表2 符號(hào)說(shuō)明表Table 2 Symbol description

        整個(gè)基于LightGBM的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型的構(gòu)建流程如圖1所示,主要包括數(shù)據(jù)處理、模型訓(xùn)練、超參數(shù)優(yōu)化、模型性能比較分析、模型解釋分析等核心模塊.

        圖1 糖尿病風(fēng)險(xiǎn)預(yù)測(cè)及特征分析模型流程圖Fig.1 Flow chart of diabetes risk prediction and characteristic analysis model

        3.1 模型構(gòu)建流程

        本實(shí)驗(yàn)選取LightGBM算法對(duì)Pima數(shù)據(jù)集進(jìn)行是否患有糖尿病進(jìn)行分類預(yù)測(cè)建模,輕量級(jí)梯度提升樹(shù)(Light Gradient Boosting Machine,LightGBM)是一種基于決策樹(shù)的梯度提升框架,起源于微軟亞洲研究院在NIPS發(fā)表的系列文獻(xiàn)[20,21].其優(yōu)點(diǎn)包括計(jì)算準(zhǔn)確率高、運(yùn)行速度快、支持并行處理、占用內(nèi)存少和適用于大規(guī)模數(shù)據(jù)處理等,相較于現(xiàn)有的集成算法Boosting在模型的精度表現(xiàn)和運(yùn)算速度上都有較大的提升,目前被廣泛地應(yīng)用到排序、分類等多種機(jī)器學(xué)習(xí)任務(wù)中,且表現(xiàn)優(yōu)異.

        GOSS(Gradient-based One-Side Sampling)算法主要是基于訓(xùn)練梯度的樣本采樣,其主要思想是保留了所有大梯度樣本,同時(shí)對(duì)小梯度樣本進(jìn)行采樣,目的是用于減少訓(xùn)練樣本的數(shù)量.采用原始的直方圖算法計(jì)算節(jié)點(diǎn)的信息增益:令O為決策樹(shù)在一個(gè)固定節(jié)點(diǎn)上的訓(xùn)練數(shù)據(jù)集,此節(jié)點(diǎn)在值為d處分割特征j的信息增益定義為:

        (1)

        (2)

        其中A是大梯度樣本集,B是小梯度樣本集當(dāng)中隨機(jī)采樣的結(jié)果,Al=xi∈A:xij≤d表示左子節(jié)點(diǎn)被保留的重要樣本集合,Ar=xi∈A:xij>d表示右子節(jié)點(diǎn)被保留的重要樣本集合;Br=xi∈B:xij≤d表示左子節(jié)點(diǎn)被保留的不重要樣本集合,Br=xi∈B:xij>d表示左子節(jié)點(diǎn)被保留的不重要樣本集合,糖尿病預(yù)測(cè)模型訓(xùn)練算法流程如算法1所示.

        算法1.Prediction model training algorithm

        輸入:

        Parameter1:I:訓(xùn)練數(shù)據(jù),d:迭代步數(shù)

        Parameter2:a:大梯度數(shù)據(jù)的采樣率

        Parameter3:b:小梯度數(shù)據(jù)的采樣率

        Parameter4:loss:損失函數(shù),L:弱學(xué)習(xí)器

        輸出:

        Parameter:訓(xùn)練好的模型

        1.models←{}

        3.topN←a×len(I)

        4.randN←b×len(I)

        5.fori=1 toddo

        6.preds←models.predict(I)

        7.g←loss(I,preds)

        8.w←{1,1,…}

        9.sorted←GetSortedIndices(abs(g))

        10.topSet←sorted[1:topN]

        11.randSet←RandomPick(sorted[topN:len(I)],rand(N)

        12.usedSet←topSet+randSet

        13.w[randSet]×=fact//Assign weight fact to the small gradient data.

        14.newModel←L(I[usedSet],-g[usedSet],w[usedSet])

        15.models.append(newModel)

        16.returnmodels

        3.2 SHAP模型

        基于LightGBM算法進(jìn)行訓(xùn)練可以得到預(yù)測(cè)精度較高的預(yù)測(cè)模型,但是LightGBM相較于傳統(tǒng)的統(tǒng)計(jì)模型,在模型的可解釋性方面表現(xiàn)較差,幾乎是一個(gè)黑箱模型.因此,本文采用SHAP值對(duì)模型中對(duì)糖尿病的影響因素進(jìn)行解釋分析,用來(lái)增強(qiáng)模型的可解釋性.SHAP模型第一次出現(xiàn)在2017年,Lundberg和Lee[22]提出了SHAP值這一廣泛適用的方法,用以解釋各種模型(分類以及回歸),特別是難以理解的黑箱模型.SHAP值的作用主要是用于量化每個(gè)特征對(duì)模型預(yù)測(cè)所做的貢獻(xiàn),源自博弈論中Shapley value.其基本的設(shè)計(jì)思想是:首先計(jì)算一個(gè)特征加入到模型當(dāng)中時(shí)的邊際貢獻(xiàn),然后計(jì)算該特征在所有特征序列中不同的邊際貢獻(xiàn),最后計(jì)算該特征的SHAP值,即該特征所有邊際貢獻(xiàn)的均值.

        假設(shè)第i個(gè)樣本為xi,第i個(gè)樣本的第j個(gè)特征為xij,特征的邊際貢獻(xiàn)為mcij,邊的權(quán)重為wi,其中f(xij)為xij的SHAP值,例如第i個(gè)樣本的第1個(gè)特征的SHAP值計(jì)算如下:

        f(xi1)=mci1w1+…+mci1wn

        (3)

        模型對(duì)該樣本的預(yù)測(cè)值為yi,整個(gè)模型的基線(通常是所有樣本的目標(biāo)變量的均值)為ybase,那么SHAP value服從以下等式:

        yi=ybase+f(xi1)+f(xi2)+…+f(xis)

        (4)

        f(xi,1)就是第i個(gè)樣本中第1個(gè)特征對(duì)最終預(yù)測(cè)值yi的貢獻(xiàn)值,每個(gè)特征的SHAP值表示以該特征為條件時(shí)模型預(yù)測(cè)的變化.對(duì)于每個(gè)功能,SHAP值都說(shuō)明了其所做貢獻(xiàn),以說(shuō)明實(shí)例的平均模型預(yù)測(cè)與實(shí)際預(yù)測(cè)之間的差異.當(dāng)f(xi,1)>0,說(shuō)明該特征提升了預(yù)測(cè)值,反之,說(shuō)明該特征使得貢獻(xiàn)降低.LightGBM利用傳統(tǒng)的Feature Importance只能反映出特征的重要程度,但并不清楚該特征對(duì)預(yù)測(cè)結(jié)果的具體影響力.SHAP值計(jì)算的最大優(yōu)勢(shì)就在于能夠反映出樣本中每一個(gè)特征對(duì)預(yù)測(cè)結(jié)果的影響力,而且還可以指出其影響程度的正負(fù)性.

        4 模型構(gòu)建及對(duì)比實(shí)驗(yàn)

        4.1 模型評(píng)價(jià)指標(biāo)

        本文主要采用5項(xiàng)常見(jiàn)的分類性能指標(biāo)來(lái)評(píng)估模型的優(yōu)劣,分別是準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值和AUC值.其中準(zhǔn)確率(Accuracy)作為最基本的一個(gè)評(píng)價(jià)指標(biāo),是針對(duì)所有樣本而言,預(yù)測(cè)分類正確所占總體的百分比,公式表達(dá)見(jiàn)公式(5).精確率(Precision)是僅針對(duì)預(yù)測(cè)結(jié)果而言的指標(biāo),分類為正類的樣本中預(yù)測(cè)分類正確所占的百分比,見(jiàn)公式(6).召回率(Recall)是針對(duì)原始樣本而言,真實(shí)的正樣本中預(yù)測(cè)分類正確所占百分比,也被稱為查全率,其計(jì)算表達(dá)見(jiàn)公式(7).F1值是一個(gè)綜合了Precision與Recall產(chǎn)出結(jié)果的指標(biāo),取值范圍從0~1,其中1代表模型的輸出最佳,反之,0代表模型的輸出結(jié)果最差.通常將關(guān)注的類作為正類,其余類為負(fù)類,分類器在測(cè)試集數(shù)據(jù)上預(yù)測(cè)是否準(zhǔn)確,可通過(guò)如表3所示的混淆矩陣進(jìn)行表示.

        表3 分類結(jié)果混淆矩陣Table 3 Confusion matrix of classification results

        Accuracy、Precision、Recall和F1值作為評(píng)價(jià)指標(biāo)具體公式如下:

        (5)

        (6)

        (7)

        (8)

        除了上述的4個(gè)評(píng)價(jià)指標(biāo)之外,還用到了一些綜合指標(biāo)來(lái)評(píng)價(jià)模型性能,本文用到ROC曲線和AUC值.受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)利用混淆矩陣中的參數(shù),逐步增大分類閾值,通過(guò)計(jì)算真正例率(TPR)和假正例率(FPR),繪制而成,其中:

        TPR(TruePositiveRate)=TP/(TP+FN),即將正例分為正例的概率.

        FPR(FalesPositiveRate)=FP/(FP+TN),即將負(fù)例分為正例的概率.

        AUC值(Area Under Curve)是ROC曲線下方的面積總和,AUC值越大,表示模型的精度也越高.

        4.2 特征工程

        本實(shí)驗(yàn)的Pima數(shù)據(jù)集來(lái)源于美國(guó)國(guó)家糖尿病、消化及腎臟疾病研究所所提供的美國(guó)亞利桑那州中南部的皮馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Data Set).該地區(qū)擁有較為詳細(xì)的糖尿病數(shù)據(jù)資料的原因,是因?yàn)樵摲N族是糖尿病的高發(fā)人群,有超過(guò)30%的皮馬人都患有糖尿病.Pima糖尿病數(shù)據(jù)集一共有8個(gè)特征和1個(gè)標(biāo)簽,共768例樣本,數(shù)據(jù)基本特征屬性如表4所示.

        表4 Pima 數(shù)據(jù)基本特征Table 4 Basic characteristics of Pima data

        在Pima數(shù)據(jù)集中268例被診斷為患有糖尿病,占總體的34.9%,500例不患糖尿病患病,占總體的65.1%.使用python當(dāng)中pandas庫(kù)describe函數(shù)對(duì)糖尿病原始數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,結(jié)果如表5所示.可以發(fā)現(xiàn),各特征字段存在缺失值、數(shù)量不一、單位不同,均值和方差相差甚遠(yuǎn),數(shù)據(jù)預(yù)處理作為機(jī)器學(xué)習(xí)應(yīng)用過(guò)程中不可或缺的環(huán)節(jié),關(guān)系著實(shí)驗(yàn)結(jié)果的好壞,因此需要對(duì)糖尿病數(shù)據(jù)進(jìn)行缺失值填充、異常值分析、數(shù)據(jù)變換、數(shù)據(jù)標(biāo)準(zhǔn)化等特征工程操作.

        表5 糖尿病數(shù)據(jù)描述性統(tǒng)計(jì)Table 5 Descriptive statistics of diabetes data

        1)缺失值填充

        糖尿病數(shù)據(jù)進(jìn)行缺失值可視化處理,結(jié)果見(jiàn)圖2,白色代表數(shù)據(jù)缺失,全為黑色則表示特征完整,白色相對(duì)黑色占比越多證明缺失情況越嚴(yán)重.可以看出特征Glucose、BloodPressure、BMI、SkinThickness和Insulin都存在缺失,其中SkinThickness和Insulin缺失程度較大,高達(dá)29.6%和48.7%,其他特征沒(méi)有缺失值.對(duì)于缺失特征的填充工作,按照病人是否患有糖尿病進(jìn)行中位數(shù)填充,將數(shù)據(jù)分為患病和不患病兩類,根據(jù)患病類別的中位數(shù)和不患病類別的中位數(shù)進(jìn)行分開(kāi)填充.

        圖2 特征缺失情況Fig.2 Feature missing

        2)異常值分析

        采用數(shù)字異常值(Numeric Outlier)方法篩選數(shù)據(jù)中的異常值,通過(guò)IQR(Inter Quartile Range)計(jì)算得到四分位數(shù)間距,將四分位數(shù)之外的數(shù)視為異常值.為了給異常值同時(shí)也是真實(shí)值保留一定的緩沖空間,將異常值較多的特征進(jìn)行數(shù)據(jù)變換處理.

        3)數(shù)據(jù)標(biāo)準(zhǔn)化

        由于各個(gè)屬性特征的單位不同,為了消除由于單位不同的影響,解決不同屬性之間的差異性和不可比性,需要在實(shí)驗(yàn)前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,由于Pima數(shù)據(jù)集中存在的離群值較多,所以使用穩(wěn)健標(biāo)準(zhǔn)化(RobustScaler)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,能夠最大限度地保留數(shù)據(jù)集中的異常值(離群點(diǎn)),根據(jù)四分間距(IQR)縮放數(shù)據(jù),來(lái)弱化異常值的影響.RobusScaler的計(jì)算方法如下:

        (9)

        其中,vi表示數(shù)據(jù)集中的某個(gè)值,median表示數(shù)據(jù)的中位數(shù),IQR是數(shù)據(jù)的四分間距值.標(biāo)準(zhǔn)化后的數(shù)據(jù)為如表6所示.

        表6 標(biāo)準(zhǔn)化后的Pima數(shù)據(jù)Table 6 Standardized Pima data

        4.3 與已有工作的實(shí)驗(yàn)對(duì)比

        本節(jié)將本文的LGBM與已有的基于邏輯回歸(LR)[23]、KNN、SVM[8]、隨機(jī)森林(RF)[14]、決策樹(shù)[10]以及Xgboost[16]6種模型進(jìn)行對(duì)比.為了提高模型之間對(duì)比的公平性及可靠性,實(shí)驗(yàn)中采用了十折交叉驗(yàn)證方法進(jìn)行性能評(píng)估,如圖3所示為以Accuracy值作為評(píng)價(jià)指標(biāo)并繪制箱型圖,初步查看預(yù)測(cè)精度的分布情況,LGBM模型比已有工作中的6種模型要高.

        圖3 箱型圖比較Fig.3 Comparison of box diagrams

        本實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值和AUC值5項(xiàng)常用的評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的優(yōu)劣.表7和圖4是上述7種算法加上PLGBM(參數(shù)優(yōu)化后的LGBM,請(qǐng)參見(jiàn)4.4節(jié))的各項(xiàng)評(píng)價(jià)指標(biāo)綜合對(duì)比結(jié)果.

        表7 模型性能對(duì)比Table 7 Performance comparison of model

        圖4 各算法性能對(duì)比Fig.4 Performance comparison of various algorithms

        根據(jù)表7和圖4的實(shí)驗(yàn)結(jié)果可知,其中LGBM的預(yù)測(cè)準(zhǔn)確率為90.9 %,精確率為88.6%,召回率85.4%,F(xiàn)1值為87%,AUC值為0.96,PLGBM在準(zhǔn)確率、精確度、F1值和AUC值上都有提高.相比其他機(jī)器學(xué)習(xí)算法,集成類算法RF、Xgboost、LGBM在預(yù)測(cè)準(zhǔn)確率上表現(xiàn)更好,都在90%以上,體現(xiàn)了集成算法的優(yōu)越性.LGBM在各項(xiàng)性能上與Xgboost算法最為接近,但LGBM表現(xiàn)更優(yōu),性能提高約0.3%~2.1%,參數(shù)優(yōu)化后性能提高約0.3%~4.5%,原因在于LGBM保留了小樣本的信息增益,并且還具有支持高效并行的優(yōu)勢(shì);Xgboost的預(yù)排序算法不同于GOSS采樣策略,需要遍歷每一個(gè)特征值,并且每遍歷一次都會(huì)根據(jù)需要進(jìn)行一次分裂增益的計(jì)算,預(yù)排序后還需要記錄特征值及其對(duì)應(yīng)樣本的統(tǒng)計(jì)值索引,而 LGBM 使用了直方圖算法將特征值轉(zhuǎn)變?yōu)閎in值,且不再需要記錄特征到樣本的索引,并且在訓(xùn)練過(guò)程中采用互斥特征捆綁算法減少了特征數(shù)量,將空間復(fù)雜度從O(2×#data)降低為O(#bin),極大地減少了內(nèi)存的消耗.由此可見(jiàn),在7個(gè)算法中,LGBM的結(jié)果更為準(zhǔn)確,且占用內(nèi)存更低,運(yùn)行速率更快,其穩(wěn)定性也相比其他算法更加優(yōu)秀.

        4.4 模型參數(shù)優(yōu)化及泛化能力分析

        LightGBM有6個(gè)核心參數(shù),不同的參數(shù)具有不同的功能,這些參數(shù)是否設(shè)定合理,直接影響模型的好壞,傳統(tǒng)的調(diào)參方法依賴經(jīng)驗(yàn)判斷和遍歷實(shí)驗(yàn),本文結(jié)合傳統(tǒng)方法和網(wǎng)格搜索方法,幫助確定最佳參數(shù)如表8所示.

        表8 LightGBM最優(yōu)參數(shù)及默認(rèn)值Table 8 LightGBM best parameters and default values

        將標(biāo)準(zhǔn)化后的Pima數(shù)據(jù)中的614條用作訓(xùn)練數(shù)據(jù)集,剩余的154條作為測(cè)試集,對(duì)比LGBM的默認(rèn)參數(shù)組合和調(diào)參實(shí)驗(yàn)過(guò)后的最佳參數(shù)組合,對(duì)患者未來(lái)5年內(nèi)是否會(huì)患糖尿病進(jìn)行預(yù)測(cè).實(shí)驗(yàn)結(jié)果顯示,調(diào)參過(guò)后的PLGBM模型精確度提升至91.6%,明顯優(yōu)于默認(rèn)參數(shù)下的精確度90.9%,模型的ROC曲線比較如圖5所示.

        圖5 LightGBM算法調(diào)參前后ROC曲線比較Fig.5 Comparison of ROC curves before and after parameter tuning

        判斷模型是否好,除了在訓(xùn)練集上表現(xiàn)良好,還要在交叉驗(yàn)證中具有良好的泛化表現(xiàn),對(duì)新鮮的樣本具有適應(yīng)能力.本節(jié)主要通過(guò)學(xué)習(xí)曲線來(lái)分析來(lái)對(duì)模型進(jìn)行收斂分析,圖6為L(zhǎng)ightGBM與其他模型學(xué)習(xí)曲線的對(duì)比,其中包括KNN、SVM和Xgboost的學(xué)習(xí)曲線.

        從圖6中可以發(fā)現(xiàn)4種算法從擬合趨勢(shì)上看,隨著樣本量的不斷增大,模型的交叉驗(yàn)證分?jǐn)?shù)呈逐漸增加的趨勢(shì),測(cè)試得分只有Xgboost出現(xiàn)性能略微下降的現(xiàn)象.而Xgboost與LightGBM模型在任何樣本量情況下,擬合情況與其他兩個(gè)算法都存在差距,擬合效果都要優(yōu)于KNN和SVM.從擬合趨勢(shì)上看,隨著樣本量的不斷增大,LightGBM逐步趨于穩(wěn)定,并且模型能夠達(dá)到更優(yōu)的擬合效果.

        圖6 LightGBM 與各分類模型的學(xué)習(xí)曲線對(duì)比Fig.6 Performance comparison of LightGBM with Kr 、SVR and Xgboost

        4.5 基于SHAP的模型解釋分析

        圖7顯示了SHAP摘要圖,該圖根據(jù)要素對(duì)影響是否患有糖尿病的因素重要性進(jìn)行排序.從圖7可以看到:Insulin(血清胰島素)、Glucose(葡萄糖濃度)、Age(年齡)、BMI(身體質(zhì)量指數(shù))、DiabetesPedigreeFunction(糖尿病家族影響指數(shù),即遺傳因素)等特征的差異對(duì)模型的影響較顯著,并且這些因素對(duì)患有糖尿病都具有負(fù)面影響,隨著該值的增加,患有糖尿病的風(fēng)險(xiǎn)越大.

        圖7 SHAP特征分析Fig.7 Feature analysis

        圖8根據(jù)更改模型當(dāng)中的特定特征,在x軸繪制了特征的值,在y軸上繪制特征的SHAP值,進(jìn)行SHAP特征依賴分析,分別選取了Insulin(血清胰島素)、Glucose(葡萄糖濃度)、Age(年齡)、DiabetesPedigreeFunction(糖尿病家族影響指數(shù),即遺傳因素)作為指定特征繪制圖像.在圖8中,Insulin(血清胰島素)、Glucose(葡萄糖濃度)、Age(年齡)和DiabetesPedigreeFunction(糖尿病家族影響指數(shù),即遺傳因素)都隨著值的增加SHAP值也隨之增加,對(duì)促成糖尿病具有正向影響.

        圖8 SHAP特征依賴分析Fig.8 Feature dependence analysis

        根據(jù)圖9,SHAP模型、LightGBM模型和Xgboost模型的特征重要性排序可以看出,排名的特征順序并不完全相同,可以得出影響是否患有糖尿病的關(guān)鍵因素包括:Insulin(血清胰島素)、Glucose(葡萄糖濃度)、Age(年齡)、DiabetesPedigreeFunction(糖尿病家族影響指數(shù),即遺傳因素)、BMI(身體質(zhì)量指數(shù))以及SkinThickness(皮層厚度).其中3種算法都將Insulin(血清胰島素)、Glucose(葡萄糖濃度)、Age(年齡)排在了前3位,可見(jiàn)這3個(gè)因素是影響是否患有糖尿病最關(guān)鍵的因素,胰島素和葡萄糖濃度正是糖尿病的重要參考指標(biāo),研究結(jié)果表明,血清胰島素、葡萄糖濃度是糖尿病血糖監(jiān)測(cè)的重要臨床指標(biāo),也是診斷患者是否患糖尿病的重要依據(jù),如果空腹血糖大于7.0mmol/L或餐后兩小時(shí)血糖大于11.1mmol/L,就存在患病的可能[24].年齡的因素應(yīng)該也要列入醫(yī)療診斷的考慮當(dāng)中,糖尿病的發(fā)病率還會(huì)隨著年齡的增長(zhǎng)而增長(zhǎng).其次DiabetesPedigreeFunction(糖尿病家族影響指數(shù),即遺傳因素)、BMI(身體質(zhì)量指數(shù))以及SkinThickness(皮層厚度),其重要程度在LightGBM和Xgboost算法中排名均在前,此外其他因素需要在診斷時(shí)進(jìn)行綜合分析.

        圖9 特征重要性(分別是SHAP、LightGBM、Xgboost)Fig.9 Feature importance(Respectively SHAP,LightGBM,Xgboost)

        5 結(jié)論及下一步工作

        中國(guó)作為糖尿病患病人數(shù)最多的國(guó)家,利用機(jī)器學(xué)習(xí)算法提高糖尿病預(yù)測(cè)模型性能及可解釋性,對(duì)于輔助醫(yī)生的診斷工作具有重要的現(xiàn)實(shí)意義.在此背景下,為了進(jìn)一步解決已有基于集成算法的相關(guān)工作中存在的泛化能力不足以及解釋力不強(qiáng)的問(wèn)題,本文基于LightGBM算法構(gòu)建糖尿病預(yù)測(cè)模型,同時(shí)引入SHAP模型進(jìn)一步增強(qiáng)模型的可解釋性.首先,在對(duì)Pima糖尿病數(shù)據(jù)集進(jìn)行特征工程的基礎(chǔ)上,將處理后的數(shù)據(jù)作為L(zhǎng)ightGBM訓(xùn)練模型的輸入,將訓(xùn)練后的模型用于預(yù)測(cè)是否患有糖尿??;然后,通過(guò)網(wǎng)格搜索方法尋找LightGBM算法的最優(yōu)參數(shù),并且通過(guò)與邏輯回歸(LR)、KNN算法、SVM、隨機(jī)森林(RF)、決策樹(shù)以及Xgboost等六種機(jī)器學(xué)習(xí)模型的對(duì)比實(shí)驗(yàn),證明了LightGBM算法的有效性.最后利用SHAP模型進(jìn)行特征解釋分析,同時(shí)通過(guò)Xgboost和LightGBM的特征重要性排序,識(shí)別出了影響患糖尿病的關(guān)鍵因素是Insulin(血清胰島素)、Glucose(葡萄糖濃度)、Age(年齡)、DiabetesPedigreeFunction(糖尿病家族影響指數(shù),即遺傳因素)、BMI(身體質(zhì)量指數(shù))以及SkinThickness(皮層厚度);模型可解釋性的增強(qiáng)、預(yù)測(cè)性能的提高,對(duì)降低機(jī)器學(xué)習(xí)輔助診斷糖尿病的誤診率,提高診斷效率,具有重要的應(yīng)用價(jià)值.

        下一步工作主要是將模型推廣到臨床實(shí)踐場(chǎng)景,并根據(jù)真實(shí)應(yīng)用場(chǎng)景的需求,對(duì)特征工程、模型訓(xùn)練、超參數(shù)優(yōu)化、誤差及偏差分析等內(nèi)容進(jìn)一步優(yōu)化.

        猜你喜歡
        準(zhǔn)確率樣本預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        推動(dòng)醫(yī)改的“直銷樣本”
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        亚洲av无码精品色午夜蛋壳| 国产在线视频91九色| 又粗又黑又大的吊av| 中文字幕一区二区人妻| 久久中国国产Av秘 入口| 亚洲国产都市一区二区| 国产美女高潮流白浆免费视频| 区二区三区玖玖玖| 欧美日韩精品福利在线观看| 亚洲美女主播一区二区| 亚洲一区二区三区四区精品在线| 免费无遮挡禁18污污网站| 四虎精品成人免费观看| 丰满人妻一区二区三区免费| 肥老熟女性强欲五十路| аⅴ资源天堂资源库在线 | 精品福利一区| 国产黄色一级大片一区二区| 成 人片 黄 色 大 片| 久久久精品2019免费观看| 亚洲VR永久无码一区| 激情五月天色婷婷久久| 美女网站免费福利视频| 亚洲av无码国产精品麻豆天美 | 日本第一区二区三区视频| 中文字幕一区在线直播| 久久人人爽人人爽人人片av东京热| 无码 制服 丝袜 国产 另类| 黄色大片国产精品久久| 99久久无色码中文字幕人妻蜜柚| 日韩好片一区二区在线看| 日韩人妻无码精品二专区| 国产性虐视频在线观看| 天天躁日日躁狠狠久久| 国产91吞精一区二区三区| 日本av一区二区三区四区| 国产精品国产精品国产专区不卡| 国产免费一区二区三区在线观看| 日韩成人精品一区二区三区| 国语对白福利在线观看 | 少妇被爽到高潮喷水久久欧美精品 |