亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于三種回歸器和VotingRegressor優(yōu)化Adaboost的血糖集成預(yù)測*

        2021-05-08 07:49:52都承華龔誼承張冬陽
        中國衛(wèi)生統(tǒng)計 2021年2期
        關(guān)鍵詞:學習曲線均方樣本量

        都承華 龔誼承,2△ 張冬陽

        【提 要】 目的 透過眾多的醫(yī)學特征更準確地預(yù)測疾病指標,比如血糖值。方法 利用VotingRegressor優(yōu)化Adaboost,將三種精度較高的學習器進行兩種集成學習。其中,模型1是基于Adaboost視角集成三種精度較高的學習器(GBDT、KRR和SVR);模型2在模型1的基礎(chǔ)上引入VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。結(jié)果 以血糖值的預(yù)測為算例,模型1的(均方誤差,預(yù)測時間)在訓(xùn)練集和測試集分別為(0.006748,43059.072s)和(0.006826,32.123s);模型2的(均方誤差,預(yù)測時間)在訓(xùn)練集和測試集分別為(0.005256,306.688 s)和(0.005234,1.023 s)。結(jié)論 基于VotingRegressor優(yōu)化Adaboost的模型2具有較高的預(yù)測精度和效率。

        合理運用一些統(tǒng)計方法對疾病指標進行預(yù)測,有利于疾病的預(yù)防和控制,對我國人民群眾整體的身體素質(zhì)水平的提高具有重要貢獻。在國內(nèi),糖尿病從十年前開始,一直高居國人十大死因第四位,到近期,因糖尿病誘發(fā)相關(guān)病變,占總死亡人數(shù)約8%,說明糖尿病已長期嚴重威脅國人健康與生命[1-3]。血糖濃度是反映病情狀況的一個重要指標,本文擬采用Adaboost集成方法對血糖濃度進行預(yù)測,試圖找到更加簡單、高效的血糖預(yù)測方法。

        資料與方法

        1.資料來源

        血糖數(shù)據(jù)來源于2017年天池精準醫(yī)療大賽(人工智能輔助糖尿病遺傳風險預(yù)測),由阿里云和青梧桐健康科技有限公司提供。

        2.研究方法

        (1)預(yù)測分析

        模型1基于Adaboost視角集成GBDT、KRR和SVR三種精度較高的基礎(chǔ)回歸器(其中KRR、SVR結(jié)合GridSearchCV方法進行調(diào)參,為了簡潔,將第i個基礎(chǔ)回歸器(basic regressor)簡稱為bri(br1=svr,br2=gbdt,br3=krr);模型2在模型1的基礎(chǔ)上引入可以將不同學習器更好融合的VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。兩個模型均采用Adaboost R2回歸算法。

        模型1 集成流程:(1)輸入訓(xùn)練樣本和迭代次數(shù)K,初始化樣本權(quán)重,分別對基礎(chǔ)回歸器使用初始化權(quán)重進行訓(xùn)練,得到弱學習器G(bri)k(xi)。(2)計算訓(xùn)練集上最大誤差E(bri)K,計算每個樣本的相對誤差e(bri)ki,弱學習器系數(shù)α(bri)k。(3)更新樣本的權(quán)重分布D(bri)k,輸出強學習器f(x)。

        輸出最終模型:

        (2)缺失值處理:先將整個數(shù)據(jù)集中缺失數(shù)據(jù)達80%的指標進行剔除,量化定性數(shù)據(jù)和對數(shù)據(jù)標準化處理,再將其余的缺失數(shù)據(jù)由平均值代替。

        結(jié) 果

        1.集成模型1

        為了確定最優(yōu)的迭代次數(shù),我們進行了大量的實驗。表1為基于GBDT、KRR和SVR三種算法的Adaboost集成迭代次數(shù)實驗結(jié)果。

        表1 Adaboost集成迭代次數(shù)實驗結(jié)果

        根據(jù)表1可知,隨著迭代次數(shù)的增加,模型的訓(xùn)練集和測試集的MSE慢慢下降,當?shù)螖?shù)為30 時,無論是訓(xùn)練集還是測試集MSE均達到最小,而后隨著迭代次數(shù)增加,模型的MSE慢慢上升,因此最終選定模型1的迭代次數(shù)為30 次。最后我們做出迭代次數(shù)為30的模型1在訓(xùn)練集上和測試集上的預(yù)測圖,如圖1所示。

        圖1 模型1訓(xùn)練集和測試集預(yù)測圖

        圖1中,實線表示血糖的預(yù)測值Y*,虛線表示血糖的真實值Y。其中,模型1訓(xùn)練集的均方誤差為0.006748,擬合時間為43059.072s,測試集的均方誤差為0.006826,模型預(yù)測時間為32.123s。

        2.集成模型2

        為了更加清楚地了解模型2的預(yù)測效果,我們依次做出模型2的血糖預(yù)測模型、預(yù)測值和學習曲線圖。

        首先,輸出模型2在訓(xùn)練集上的學習出的預(yù)測模型。

        f(x)=0.28785404model(krr)+0.3110837model(svr)+0.40106226model(gbdt)

        (1)

        接著,做出模型2在訓(xùn)練集和測試集上的血糖預(yù)測圖,如圖2所示。

        圖2 模型2訓(xùn)練集和測試集預(yù)測圖

        圖2中,實線表示血糖的預(yù)測值Y*,虛線表示血糖的真實值Y。其中,模型2訓(xùn)練集的均方誤差為0.005256,擬合時間為306.688s,測試集的均方誤差為0.005234,模型預(yù)測時間為1.023s。

        最后,做出SVR、KRR、GBDT和模型2(Ada-VotingRegressor)學習曲線。由于四個模型的均方誤差波動幅度不大,為了更加清楚地對比四個模型的學習曲線,我們將其放在一張圖上,如圖3所示。

        圖3 三種基礎(chǔ)回歸器和模型2(Ada-VotingRegressor)的學習曲線圖

        從圖3我們可以看出:(1)KRR模型曲線一直處于SVR模型學習曲線和GBDT模型學習曲線的下方;(2)當訓(xùn)練樣本量小于2500時,GBDT的學習曲線處于SVR學習曲線的下方,當訓(xùn)練樣本量超過2500時,GBDT的學習曲線處于SVR學習曲線的上方;(3)模型2(Ada-VotingRegressor)的學習曲線一直處于其他三條學習曲線之下。

        就SVR和GBDT兩個模型而言,在樣本量為2500前后,學習曲線的上下位置互換,其原因可能有算法和樣本容量兩個因素。經(jīng)過將訓(xùn)練集和測試集的樣本劃分調(diào)整為6.5∶3.5發(fā)現(xiàn),SVR和GBDT的均方誤差仍然隨著樣本量的變化而波動,因此SVR和GBDT的學習曲線的波動可能是由于算法問題導(dǎo)致。所以仍然在訓(xùn)練集和測試集劃分比例為7:3時討論問題,此時訓(xùn)練集處理的數(shù)據(jù)不僅維度較高,樣本量也較大。SVR算法雖然可以有效解決高維度數(shù)據(jù)但它更適合于小樣本,所以在樣本量大于1500時,SVR模型的學習曲線下降幅度趨于平緩;而GBDT算法雖然適合的樣本量較大,但不適合處理高維度數(shù)據(jù),所以在樣本大于2000時,GBDT的學習曲線呈現(xiàn)上升趨勢,因此達到2500時,SVR和GBDT學習曲線的上下位置互換。

        從圖3可以進一步看出,模型2在訓(xùn)練樣本量大約達到3600時與KRR模型學習曲線相交,因為模型2在樣本量超過3500時呈現(xiàn)略微上升趨勢。具體的原因是:在樣本量超過3500 時,SVR模型和GBDT模型都有上升的趨勢,只有KRR模型仍然呈現(xiàn)下降趨勢;但最終模型融合時,由公式(1)可知,SVR模型和GBDT模型的權(quán)重系數(shù)相加超過0.7,大于KRR的權(quán)重系數(shù),所以上升的總體趨勢大于下降的總體趨勢,使得最終的模型2也呈現(xiàn)上升趨勢。

        討 論

        為了考察選擇GBDT、KRR、SVR(其中KRR和SVR均采用GridSearchCV方法進行自動調(diào)參)三種算法作為基礎(chǔ)回歸器后模型1和模型2集成的預(yù)測效果是否有所提高,本文將分別算出GBDT、KRR、SVR三種算法對血糖值的預(yù)測精度,具體結(jié)果表2所示。

        表2 5種模型的均方誤差

        由表2可知,選用GBDT、KRR、SVR三種算法作為基礎(chǔ)回歸器進行迭代學習時,最終得到的模型1的精度反而有所降低,沒有單個的GBDT模型、KRR模型、SVR模型精度高,這說明本文之前采用的GBDT模型、KRR模型、SVR模型已是高精度的回歸模型,并不適合直接做 Adaboost集成的基礎(chǔ)回歸器。為了利用Adaboost提升已有的強學習器,本文引入可以將不同學習器更好融合的VotingRegressor模型,得到一個新的集成模型記為Ada-VotingRegressor(模型2)。由表2可知:模型2明顯預(yù)測精度高于SVR、KRR、GBDT、模型1,預(yù)測時間和擬合時間也較短,模型效率高;由于受模型1和模型2所選基礎(chǔ)回歸器的影響,即SVR算法不適合大樣本數(shù)據(jù),GBDT算法不適合高維度數(shù)據(jù),使得集成后的模型1和模型2的均方誤差隨著樣本量的波動而變化,最終使得訓(xùn)練集和測試集之間的誤差分別為萬分之七和萬分之二。

        利用天池精準醫(yī)療大賽的數(shù)據(jù)所作的實證分析的結(jié)果表明:模型2不僅預(yù)測精度高于SVR、KRR、GBDT和模型1,預(yù)測時間和擬合時間也較短,模型效率高。在基礎(chǔ)回歸器的選擇上,建議首選基礎(chǔ)回歸器的精度最好不要太高;其次,在同時選用幾個基礎(chǔ)回歸器時最好考慮這幾個回歸器各自的優(yōu)缺點,使集成模型各方面更完善;最后,取基礎(chǔ)回歸器時要考慮所選回歸器與研究使用的樣本量的大小與維度是否合適。本研究結(jié)合了Adaboost的權(quán)重更新算法和VotingRegressor加法集成原理對模型進行線性融合,得出的模型2,能夠更準確地預(yù)測血糖值,同時該方法同樣適用于其他疾病指標的預(yù)測。

        在疾病指標值預(yù)測問題中,本文采用的是基于Adaboost視角的集成模型,但預(yù)測疾病指標值方法還有許多,比如楊光利用決策樹模型建立2型糖尿病預(yù)測模型[4],冷菲利用極限梯度增強算法構(gòu)建模型,研究兩種不同癌癥亞型中mRNA表達量[5];除此之外神經(jīng)網(wǎng)絡(luò)[6-7]、隨機森林[8]、支持向量機[9]等也是常用于預(yù)測疾病指標的算法,也可以嘗試利用這些算法作為集成算法的學習器,以優(yōu)化Adaboost模型,提升模型的預(yù)測精度。雖然本文采用的基礎(chǔ)回歸器訓(xùn)練結(jié)果并不是最理想的,但是引入VotingRegressor算法的模型2預(yù)測疾病指標的精度有所提高,為糖尿病等疾病的預(yù)測和控制提供依據(jù)。

        猜你喜歡
        學習曲線均方樣本量
        一類隨機積分微分方程的均方漸近概周期解
        Oxford單髁置換術(shù)治療膝關(guān)節(jié)內(nèi)側(cè)單間室病變學習曲線早期病例的短期療效
        醫(yī)學研究中樣本量的選擇
        Beidou, le système de navigation par satellite compatible et interopérable
        學習曲線決定你的學習力
        文苑·感悟(2019年12期)2019-12-23 07:24:46
        學習曲線決定你的學習力
        文苑(2019年23期)2019-12-05 06:50:22
        學習曲線決定你的學習力
        航空裝備測試性試驗樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        基于抗差最小均方估計的輸電線路參數(shù)辨識
        岛国av无码免费无禁网站| 伊人色综合九久久天天蜜桃| 亚洲国产线茬精品成av| 中文字幕大屁股熟女乱| 精品国产品欧美日产在线| 国产高清自产拍av在线| 东风日产车是不是国产的 | 亚洲人不卡另类日韩精品 | 精品国产午夜福利在线观看 | 最新中文字幕乱码在线| 国产亚洲成性色av人片在线观| 无码人妻久久一区二区三区蜜桃| 久久综合亚洲色hezyo国产| 国产乱人伦偷精品视频| 国产欧美成人| 天堂av在线免费播放| 日韩黄色大片免费网站| 白白色发布免费手机在线视频观看| 国产乱码人妻一区二区三区| 国产肉体xxxx裸体784大胆| 亚洲妇女无套内射精| 国产精品久久久久影院嫩草| 久久婷婷综合色丁香五月| 日韩中文字幕无码av| 亚洲中文字幕人成乱码在线| 免费a级毛片又大又粗又黑| 日躁夜躁狠狠躁2001| 国产日韩精品一区二区在线观看播放| 国产精品久久三级精品| 亚洲精品国偷拍自产在线| 小荡货奶真大水真多紧视频| 7777精品久久久大香线蕉| 美女熟妇67194免费入口| 久久综合九色综合久久久| 国精产品一区一区三区| 久久久精品人妻无码专区不卡| 天堂网www在线资源| 偷拍自拍一区二区三区| 久久精品女人av一区二区| 男人靠女人免费视频网站| 2021国产最新无码视频|