亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合加權(quán)KNN和自適應(yīng)牛頓法的穩(wěn)健Boosting方法

        2021-02-07 11:55:52羅森林趙惟肖潘麗敏
        關(guān)鍵詞:分類實(shí)驗(yàn)

        羅森林, 趙惟肖, 潘麗敏

        (北京理工大學(xué) 信息與電子學(xué)院,北京 100081)

        Boosting是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域中一類重要的集成學(xué)習(xí)算法,它可以將分類準(zhǔn)確率僅比隨機(jī)猜測(cè)略好的弱學(xué)習(xí)器增強(qiáng)為分類準(zhǔn)確率高的強(qiáng)學(xué)習(xí)器[1-2]. 在各種Boosting算法中,AdaBoost[3]是第一個(gè)成功將其思想應(yīng)用在實(shí)踐中的算法,并在代價(jià)敏感分類[4]、郵件過濾[5]、人臉識(shí)別、視頻跟蹤[6]等諸多問題上表現(xiàn)出優(yōu)異的性能,在學(xué)術(shù)界和工業(yè)界被廣泛使用.

        AdaBoost算法的思想是,在每一輪迭代中,不斷加大錯(cuò)誤分類樣本的權(quán)重,降低正確分類樣本的權(quán)重,使分類器聚焦于被錯(cuò)分類的樣本. AdaBoost通常有著很好的泛化能力,不易過擬合[3]. 然而,當(dāng)訓(xùn)練數(shù)據(jù)含有較多標(biāo)簽噪聲時(shí),被錯(cuò)分類的樣本往往是噪聲樣本,AdaBoost的指數(shù)損失函數(shù)使得錯(cuò)分類的噪聲樣本的權(quán)重以指數(shù)速率增加,迫使子分類器過度關(guān)注噪聲樣本,導(dǎo)致學(xué)習(xí)效果的急劇下降[7]. 在復(fù)雜的真實(shí)數(shù)據(jù)中,常常包含不可忽略的噪聲,例如,在生物醫(yī)學(xué)數(shù)據(jù)中,很難得到不含任何噪聲的樣本標(biāo)簽. 因此,使AdaBoost算法克服噪聲敏感性并在噪聲環(huán)境中表現(xiàn)地更加穩(wěn)健,是其理論和應(yīng)用研究的重要方向[8].

        現(xiàn)有AdaBoost抗噪算法的研究主要包括控制樣本權(quán)重的調(diào)整、刪除可疑樣本和優(yōu)化損失函數(shù)3種改進(jìn)方向. 其中,先刪除可疑樣本再進(jìn)行訓(xùn)練的方式能夠簡(jiǎn)單有效地排除部分噪聲樣本的干擾,但這種硬性的處理會(huì)造成少數(shù)正常樣本的丟失,同時(shí)無法排除訓(xùn)練集中其他未被明確識(shí)別的噪聲樣本;通過選用比AdaBoost的指數(shù)損失更平滑的損失函數(shù),可以使得錯(cuò)分類樣本的權(quán)重以低于指數(shù)速率增長,從而減弱對(duì)錯(cuò)分類樣本的關(guān)注,減少噪聲帶來的損害. 但現(xiàn)有大多數(shù)方法的損失函數(shù)都是固定的,無法對(duì)錯(cuò)分類的正常樣本和噪聲進(jìn)行有效區(qū)分.

        隨著AdaBoost算法在1996年的提出,針對(duì)其噪聲敏感性問題的改進(jìn)算法不斷涌現(xiàn). 現(xiàn)有的AdaBoost抗噪算法的研究主要包括控制樣本權(quán)重的調(diào)整、刪除可疑樣本和優(yōu)化損失函數(shù)3種改進(jìn)方向.

        ① 控制算法迭代中的權(quán)重調(diào)整方向,從而減少訓(xùn)練集中噪聲樣本或異常值的影響. MadaBoost[9]算法記錄訓(xùn)練集各樣本的初始權(quán)重,在迭代中進(jìn)行權(quán)重有界化處理,防止出現(xiàn)權(quán)重任意擴(kuò)增的情形. RADA[10]算法在迭代過程中引入記憶因子,記錄樣本權(quán)重的增減過程,從而更好地調(diào)整那些反復(fù)錯(cuò)分樣本的權(quán)重更新方向.

        ② 關(guān)注錯(cuò)分類的噪聲樣本本身,先刪除可疑樣本再進(jìn)行訓(xùn)練. Vezhnevets[11]直接對(duì)可疑樣本進(jìn)行刪除. EdaBoost[12]算法使用加權(quán)KNN識(shí)別可疑樣本,并對(duì)這些樣本的權(quán)重賦予0值. Angelova[13]通過在原始訓(xùn)練集上采樣,訓(xùn)練多個(gè)分類器對(duì)樣本進(jìn)行判定,若不同分類器判定結(jié)果差異性較大,則視為噪聲并刪除,從而避免可疑樣本的干擾.

        ③ 選用比AdaBoost的指數(shù)損失更平滑的損失函數(shù),使錯(cuò)分類樣本的權(quán)重不再以指數(shù)速率增長. LogitBoost選擇Logit函數(shù)代替AdaBoost中的指數(shù)函數(shù),使錯(cuò)分類的噪聲樣本的權(quán)重以對(duì)數(shù)速率擴(kuò)增,擴(kuò)增速度較指數(shù)損失更緩慢. SavageBoost[14]算法優(yōu)化的Savage損失函數(shù)不會(huì)無限制地增大對(duì)錯(cuò)分類樣本的懲罰,因此降低了算法對(duì)噪聲數(shù)據(jù)的敏感性. RBoost[15]算法在Savage函數(shù)的基礎(chǔ)上改進(jìn)得到了更平滑的Savage2損失函數(shù). SPBL[16]算法將自步學(xué)習(xí)的思想運(yùn)用在AdaBoost上. CBAdaBoost[17]算法采用了3種置信度準(zhǔn)則進(jìn)行樣本嫌疑大小的估計(jì). 部分研究直接優(yōu)化0-1損失,這是一個(gè)NP難問題,只能做近似處理[18].

        針對(duì)現(xiàn)有刪除可疑樣本和優(yōu)化損失函數(shù)改進(jìn)方法中存在的問題,本文提出一種結(jié)合加權(quán)KNN和自適應(yīng)牛頓法的穩(wěn)健Boosting方法RLBoost(revised-logit-loss boosting method). 首先,對(duì)可疑樣本不進(jìn)行硬性的刪除,而是采用加權(quán)KNN進(jìn)行預(yù)處理,得到所有樣本的噪聲先驗(yàn)概率,對(duì)樣本的噪聲可能性進(jìn)行評(píng)判. 其次,通過將噪聲概率參數(shù)引入Logit損失,構(gòu)建能根據(jù)噪聲概率提供不同權(quán)重?cái)U(kuò)增策略的損失函數(shù),使噪聲概率低的樣本的權(quán)重仍能以較快速度增長,以便分類器更好地學(xué)習(xí)這些難以正確分類的樣本,同時(shí)給予噪聲概率高的樣本較大的懲罰,迫使分類器盡可能少地關(guān)注噪聲樣本,從而實(shí)現(xiàn)對(duì)錯(cuò)分類的正常樣本和噪聲的有效區(qū)分. 最后,采用自適應(yīng)牛頓法進(jìn)行損失函數(shù)的優(yōu)化求解,自適應(yīng)牛頓法[9]是Boosting常用的損失函數(shù)求解方法,和AdaBoost的前向分步可加模型相比,能夠利用二階導(dǎo)數(shù)信息,求得損失函數(shù)條件期望的更準(zhǔn)確下降方向. 實(shí)驗(yàn)結(jié)果表明,和其他Boosting穩(wěn)健算法相比,提出方法在不同噪聲水平下均表現(xiàn)出較高的穩(wěn)健性,在真實(shí)醫(yī)療數(shù)據(jù)集上的不同評(píng)價(jià)指標(biāo)結(jié)果均有一定提升.

        1 改進(jìn)算法理論基礎(chǔ)

        1.1 Logit損失分析

        LogitBoost使用比AdaBoost的指數(shù)損失更平滑的Logit損失函數(shù). 圖1為指數(shù)損失函數(shù)和Logit損失函數(shù)的示意圖,其中橫軸為分類間隔yf(x),縱軸為損失函數(shù). 若某樣本x的分類間隔為負(fù)值,說明該樣本被錯(cuò)分類,負(fù)數(shù)的絕對(duì)值越大,說明該樣本被錯(cuò)分類的結(jié)果越可信. 如圖 1所示,指數(shù)損失函數(shù)隨分類間隔的增加呈φE=e-yf(x)的指數(shù)型增長,意味著在每次迭代中,錯(cuò)分類樣本的權(quán)重會(huì)以指數(shù)速率增加. Logit損失函數(shù)隨分類間隔增加呈φL=ln(1+e-2yf(x))的對(duì)數(shù)型增長,在含有較多標(biāo)簽噪聲時(shí),錯(cuò)分類的噪聲樣本的權(quán)重以對(duì)數(shù)速率擴(kuò)增,擴(kuò)增速度較指數(shù)損失更緩慢. 但Logit損失函數(shù)同樣會(huì)出現(xiàn)隨分類間隔增加,損失無限增長的情況,造成噪聲樣本權(quán)重在每輪迭代中持續(xù)累加,子分類器聚焦于不應(yīng)過多關(guān)注的噪聲樣本,最終將分類器引導(dǎo)向錯(cuò)誤的學(xué)習(xí)方向.

        圖1 指數(shù)損失函數(shù)和Logit損失函數(shù)Fig.1 Exponential loss function and Logit loss function

        1.2 Logit損失的自適應(yīng)牛頓法求解

        LogitBoost算法使用自適應(yīng)牛頓法進(jìn)行損失函數(shù)的求解,與AdaBoost算法使用的前向分步可加模型相比,自適應(yīng)牛頓法具有更穩(wěn)健的學(xué)習(xí)效果,可以求解每一輪迭代的理論最優(yōu)子分類器[19]. Boosting以線性可加方式優(yōu)化損失函數(shù)的期望,每一輪迭代在現(xiàn)有分類器F(x)的基礎(chǔ)上,加入新的子分類器f(x),使損失函數(shù)的期望盡可能多地減少[20]. 利用泰勒公式將損失函數(shù)L(F(x)+f(x))在現(xiàn)有分類模型F(x)處展開到二次為

        (1)

        F(x)←F(x)-s(x)/H(x)

        (2)

        在每一步迭代中需要計(jì)算?L/?F|f(x)=0和?2L/?F2|f(x)=0,當(dāng)損失函數(shù)為φL=ln(1+e2yf(x))時(shí),可得到LogitBoost每一輪迭代的最優(yōu)子分類器為

        (3)

        (4)

        若樣本的概率估計(jì)p(y=1|x)和p(y=-1|x)接近0.5,說明該樣本在決策邊界的附近,錯(cuò)分概率高. 反之,當(dāng)兩者的值越接近0或1時(shí),說明該樣本錯(cuò)分概率越小,結(jié)果可信度越高. 據(jù)此對(duì)樣本權(quán)重w進(jìn)行更新

        w←p(x)(1-p(x)).

        (5)

        LogitBoost[19]算法實(shí)現(xiàn)的偽代碼如下,具體實(shí)現(xiàn)步驟如下.

        Algorithm:LogitBoost

        Input:訓(xùn)練樣本集S{(x1,y1),…,(xN,yN)},

        fort=1,2,…,Tdo

        2 更新權(quán)重wi=p(xi)(1-p(xi))

        3 以權(quán)重wi計(jì)算xi到zi的加權(quán)最小二乘回歸,得到子分類器ft(x)

        end for

        輸入二分類訓(xùn)練樣本集,初始化時(shí)對(duì)所有訓(xùn)練樣本的權(quán)重做歸一化處理,設(shè)定樣本的概率估計(jì)p(x)為1/2,設(shè)置算法迭代次數(shù)為T.

        在算法迭代過程中,根據(jù)式(3)計(jì)算響應(yīng)(步驟1),根據(jù)式(5)更新樣本權(quán)重(步驟2). 通過擬合加權(quán)樣本到響應(yīng)的最小二乘回歸,求解子分類器ft(x)(步驟3). 集成子分類器得到迭代過程中的分類模型F(x),由式(4)計(jì)算樣本的概率估計(jì)p(x)(步驟4).

        輸出為迭代訓(xùn)練得到的各子分類器集成的強(qiáng)分類器.

        2 RLBoost算法

        2.1 原理框架

        結(jié)合加權(quán)KNN和自適應(yīng)牛頓法的穩(wěn)健Boosting方法原理框架如圖 2所示,方法通過基于加權(quán)KNN的噪聲預(yù)判斷,得到所有樣本的噪聲先驗(yàn)概率. 將概率參數(shù)與Logit損失函數(shù)融合,構(gòu)建能根據(jù)噪聲概率提供不同權(quán)重?cái)U(kuò)增策略的損失函數(shù),并使用自適應(yīng)牛頓法進(jìn)行損失函數(shù)的優(yōu)化求解. 在每次迭代中,綜合考慮分類結(jié)果和噪聲概率作為指導(dǎo)下次迭代中子分類器構(gòu)建的依據(jù).

        圖2 結(jié)合加權(quán)KNN和自適應(yīng)牛頓法的穩(wěn)健Boosting方法原理圖Fig.2 Principle diagram of the robust Boosting method combining weighted KNN and adaptive newton method

        2.2 加權(quán)KNN的噪聲先驗(yàn)估計(jì)

        KNN是一種用于分類及回歸的非參數(shù)統(tǒng)計(jì)方法,同時(shí)也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一. 在進(jìn)行待分類樣本的分類決策時(shí),KNN算法只依據(jù)與待分類樣本最鄰近的K個(gè)樣本點(diǎn)的類別來決定其所屬類別. 加權(quán)KNN在KNN的基礎(chǔ)上進(jìn)行了一定改進(jìn),給予距離待分類樣本更近的樣本點(diǎn)更大的權(quán)重[21]. 當(dāng)K值較大時(shí),加權(quán)KNN算法中對(duì)樣本分類起確定性作用的仍是較近的樣本點(diǎn),對(duì)K值的選取表現(xiàn)出較高的穩(wěn)健性.

        KNN類算法的核心思想是,特征空間中鄰近的樣本點(diǎn)大多屬于同一類別. 在二分類問題中,若一個(gè)正類樣本最鄰近的K個(gè)樣本大多為負(fù)類,那么這個(gè)正類樣本有很大可能是噪聲. 更進(jìn)一步地,對(duì)于任意樣本,若K個(gè)近鄰中與其有不同標(biāo)簽的近鄰個(gè)數(shù)越多,則可認(rèn)為該樣本是噪聲樣本的概率越大. 提出算法采用加權(quán)KNN計(jì)算噪聲先驗(yàn)概率,對(duì)每一個(gè)樣本進(jìn)行數(shù)據(jù)集的掃描,為其找到K個(gè)特征空間中相似度最高的近鄰點(diǎn),再以K個(gè)近鄰標(biāo)簽的加權(quán)投票結(jié)果求解噪聲概率w

        (6)

        式中,w的取值范圍為[0,1],w值越大,表明加權(quán)KNN方法判斷該樣本為噪聲的概率越大. K表示樣本(x,y)在數(shù)據(jù)集中相似度最高的K個(gè)近鄰的集合,Dj為第j個(gè)近鄰的權(quán)重,I(yj=-y)在滿足第j個(gè)近鄰的標(biāo)簽和樣本標(biāo)簽不同時(shí)取值為1,否則取值為0.

        2.3 RL損失函數(shù)

        結(jié)合基于加權(quán)KNN得到的噪聲先驗(yàn)概率,構(gòu)建RL損失函數(shù)(revised logit loss function),可解決1.2中隨分類間隔增加,指數(shù)損失和Logit損失無限增長的問題. 新?lián)p失函數(shù)建立在Logit損失的基礎(chǔ)上,此時(shí)分類器對(duì)訓(xùn)練樣本x的預(yù)測(cè)損失取Logit損失φL=ln(1+e-2yf(x)). 在含樣本噪聲的問題中,已知y為訓(xùn)練樣本包含噪聲時(shí)的標(biāo)簽,但實(shí)際上想要作為標(biāo)簽使用的是樣本未包含噪聲的真實(shí)標(biāo)簽. 設(shè)真實(shí)標(biāo)簽為z,z是不可觀測(cè)的,可得到在二分類問題下對(duì)應(yīng)Logit損失φL的期望值

        Ez|x[log(1+e-2yf(x))]=P(z=y|x)×

        ln(1+e-2yf(x))+P(z=-y|x)ln(1+e2yf(x))

        (7)

        建立的改進(jìn)后Logit損失函數(shù)φRL為

        φRL=w1ln(1+e-2yf(x))+w2ln(1+e2yf(x))

        (8)

        式中,w1=P(z=y|x)=1-w,w2=P(z=-y|x)=w,w取值由式(6)得到,w2越大,則該樣本為噪聲的概率越大. 不同w2取值時(shí)RL損失函數(shù)取值和分類間隔yf(x)的對(duì)應(yīng)關(guān)系如圖 3所示. 當(dāng)w2取值為0時(shí),損失函數(shù)為Logit損失. 隨著w2逐漸增加,樣本為噪聲的嫌疑加大,RL損失隨分類間隔的增加呈現(xiàn)出的增長趨勢(shì)逐漸放緩. 當(dāng)w2取值增加到1時(shí),即當(dāng)判斷樣本為噪聲的概率很大時(shí),隨分類間隔的增加,RL損失始終趨近于0. 意味著對(duì)于噪聲概率高的樣本,構(gòu)建的新?lián)p失函數(shù)可以解決隨分類間隔增加,指數(shù)損失和Logit損失無限增長的問題,從而避免噪聲樣本權(quán)重在每輪迭代中持續(xù)累加,子分類器聚焦于噪聲樣本的情況. 而對(duì)于噪聲概率低的樣本,隨分類間隔增加,損失仍能以較快速率增長,保證了算法的有效性.

        圖3 RL損失函數(shù)Fig.3 The RL loss function

        為嚴(yán)格遵循Boosting理論框架設(shè)計(jì)噪聲穩(wěn)健Boosting算法,需要證明構(gòu)建的RL損失函數(shù)具有Fisher一致性. Fisher一致性原則要求損失函數(shù)L(x,y,f(x))的總體最小化能夠收斂到貝葉斯決策. 可以證明AdaBoost使用的指數(shù)損失函數(shù)以及LogitBoost使用的Logit損失函數(shù)都具有Fisher一致性[22].

        命題:RL損失函數(shù)具有Fisher一致性,即在極限情況下可收斂到貝葉斯決策.

        證明:對(duì)于優(yōu)化問題

        f*(x)=argminEy|x[φRL(yf(x))|x]

        (9)

        式中,f*(x)是使公式(8)具有最小期望風(fēng)險(xiǎn)的決策,記η1(x)=P(y=1|x),η2(x)=P(y=-1|x),代表含噪聲后標(biāo)簽為1和-1的概率. 將式(9)展開為

        f*(x)=argminLRL=

        argmin[η1(x)(w1ln(1+e-2f(x))+

        w2ln(1+e2f(x)))+η2(x)w1ln(1+e2f(x))+

        w2ln(1+e-2f(x)))]

        (10)

        期望風(fēng)險(xiǎn)LRL對(duì)f(x)求導(dǎo)并令導(dǎo)數(shù)為0,求解過程及求得的最優(yōu)f*(x)為

        (11)

        (12)

        式中:η1(x)和η2(x)分別為含噪聲時(shí)標(biāo)簽為1和-1的情況;w1和w2為判斷為正常樣本和噪聲的概率. 容易得到,η1(x)w1+η2(x)w2是判斷真實(shí)情況后的P(z=1|x),同理,η1(x)w1+η2(x)w2是判斷后的P(z=1|x),得到f*(x)為

        (13)

        2.4 RL損失的自適應(yīng)牛頓法求解

        (14)

        (15)

        y∈{-1,1}

        (16)

        由式(13)可求得

        (17)

        令p(x)=P(z=1|x),當(dāng)w1值越大,相應(yīng)w2值越小時(shí),說明該樣本為正常樣本的概率越大,可以給予越高權(quán)重. 在回歸擬合時(shí),選擇以w1p(x)(1-p(x))作為樣本的權(quán)重,進(jìn)行加權(quán)回歸,使子分類器更加關(guān)注在決策邊界附近且噪聲概率較小的錯(cuò)分樣本. 在RLBoost算法迭代過程中對(duì)w1和w2進(jìn)行更新

        w1←w1p(x)(1-p(x)),w2←w2p(x)(1-p(x))

        (18)

        總結(jié)以上過程,可得結(jié)合加權(quán)KNN和自適應(yīng)牛頓法的噪聲穩(wěn)健算法RLBoost,算法實(shí)現(xiàn)的偽代碼如下.

        Algorithm:RLBoost

        Input:訓(xùn)練樣本集S{(x1,y1)}),…,(xN,yN)},其中y∈{-1,+1}

        InitializeF(x)=0,p(x)=1/2,w1i=1-wi,w2i=wi,i=1,2,…,N

        fort=1,2…,Tdo

        2 更新權(quán)重w1i←w1ip(xi)(1-p(xi)),w2i←w2ip(xi)(1-p(xi))

        3 以權(quán)重w1i計(jì)算xi到zi的加權(quán)最小二乘回歸,得到子分類器ft(x)

        end for

        具體實(shí)現(xiàn)步驟如下:

        輸入二分類訓(xùn)練樣本集,初始化時(shí)對(duì)所有訓(xùn)練樣本的權(quán)重做歸一化處理,設(shè)定樣本的概率估計(jì)p(x)為1/2,由式(6)得到每個(gè)樣本的噪聲先驗(yàn)概率w,設(shè)置算法迭代次數(shù)為T.

        在算法迭代過程中,根據(jù)式(16)計(jì)算響應(yīng)(步驟1),根據(jù)式(18)更新樣本權(quán)重(步驟2). 通過擬合加權(quán)樣本到響應(yīng)的最小二乘回歸,求解子分類器ft(x)(步驟3). 集成子分類器得到迭代過程中的分類模型F(x),由式(17)計(jì)算樣本的概率估計(jì)p(x)(步驟4).

        輸出為迭代訓(xùn)練得到的各子分類器集成的強(qiáng)分類器.

        3 實(shí)驗(yàn)分析

        3.1 不同噪聲水平下的穩(wěn)健性驗(yàn)證實(shí)驗(yàn)

        3.1.1實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)選用來源于UCI的7個(gè)二分類數(shù)據(jù)集,具體見表1. 數(shù)據(jù)集涵蓋心臟病篩查、乳腺X光檢查、信用卡申請(qǐng)、政治投票和蘑菇毒性檢測(cè)等應(yīng)用場(chǎng)景,包含小樣本數(shù)據(jù)集(270條)和較大樣本數(shù)據(jù)集(8 124條).

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        3.1.2評(píng)價(jià)方法

        為驗(yàn)證改進(jìn)Boosting方法在訓(xùn)練集含有不同水平標(biāo)簽噪聲時(shí)的穩(wěn)健性,對(duì)7個(gè)數(shù)據(jù)集的訓(xùn)練集進(jìn)行10%、20%和30%比例的標(biāo)簽翻轉(zhuǎn),引入相應(yīng)10%、20%和30%水平的標(biāo)簽噪聲. 實(shí)驗(yàn)選用誤差率作為評(píng)價(jià)指標(biāo),誤差率越小,則算法在含噪環(huán)境中對(duì)噪聲的敏感性越低,表現(xiàn)越穩(wěn)健,其中誤差率為

        (19)

        式中,TP、TN、EP和FN分別為將正類預(yù)測(cè)為正類、負(fù)類預(yù)測(cè)為負(fù)類、負(fù)類預(yù)測(cè)為正類和正類預(yù)測(cè)為負(fù)類的樣本個(gè)數(shù).

        3.1.3實(shí)驗(yàn)結(jié)果和分析

        實(shí)驗(yàn)在10%、20%和30%噪聲水平下,對(duì)提出方法和AdaBoost[3]、GentleBoost[19]、LogitBoost[19]、RBoost 4種對(duì)比算法的誤差率進(jìn)行比較. AdaBoost的子分類器選用CART分類樹,樹深度為2,迭代次數(shù)為50次. 對(duì)于其他所有方法,子分類器算法要求從回歸方法中選擇,選用CART回歸樹,樹深度為2,迭代次數(shù)為50次. 所有算法均以10次10折交叉驗(yàn)證取平均值的方式計(jì)算評(píng)價(jià)指標(biāo)結(jié)果. RLBoost算法選用加權(quán)KNN對(duì)單個(gè)樣本為正常樣本或噪聲進(jìn)行初步判斷,最近鄰個(gè)數(shù)k和權(quán)重衰減系數(shù)D的可選范圍較廣,在實(shí)驗(yàn)中設(shè)定k為5,D為近鄰樣本與待分類樣本間距離的倒數(shù).

        各Boosting算法在10%、20%和30%噪聲水平下的誤差率結(jié)果如表2所示,在7個(gè)數(shù)據(jù)集的不同噪聲水平下,RLBoost算法的誤差率相比其他4種算法均有一定程度的降低.

        表2 不同噪聲水平下的各Boosting算法誤差率結(jié)果

        表2的誤差率結(jié)果統(tǒng)計(jì)排名如圖 4所示,在上述的5種Boosting算法的各21組實(shí)驗(yàn)中, RLBoost的實(shí)驗(yàn)結(jié)果表現(xiàn)最優(yōu),在21組實(shí)驗(yàn)中皆排名第一. 此外,RBoost、GentleBoost、LogitBoost和AdaBoost算法實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)排名前3的實(shí)驗(yàn)個(gè)數(shù)分別為17、13、10和2,RBoost在4種對(duì)比實(shí)驗(yàn)中表現(xiàn)較為優(yōu)秀,AdaBoost則未能表現(xiàn)出較強(qiáng)的競(jìng)爭(zhēng)力. 實(shí)驗(yàn)結(jié)果表明,本文提出的穩(wěn)健改進(jìn)算法對(duì)噪聲的敏感性低于現(xiàn)有算法,在訓(xùn)練集含有噪聲時(shí)具有較好的穩(wěn)健性.

        圖4 不同噪聲水平下的各Boosting算法誤差率結(jié)果Fig.4 Statistical ranking of testing errors for Boosting algorithms with different noise levels

        3.2 真實(shí)醫(yī)療數(shù)據(jù)集的穩(wěn)健性驗(yàn)證實(shí)驗(yàn)

        3.2.1實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)選用全國7省市(北京、上海、重慶、黑龍江、四川、陜西、湖南)的13家醫(yī)院于2011~2012年進(jìn)行老年人健康綜合評(píng)估問卷調(diào)查得到的橫截面數(shù)據(jù),其中問卷由中國衛(wèi)生部行業(yè)基金老年健康綜合評(píng)估課題組和中國老年人保健及疾病防治聯(lián)盟聯(lián)合設(shè)計(jì). 實(shí)驗(yàn)針對(duì)老年人跌倒發(fā)生率高,后果嚴(yán)重的問題進(jìn)行老年人跌倒檢測(cè). 數(shù)據(jù)包含年齡、性別、是否有骨關(guān)節(jié)病、是否自發(fā)性骨折、是否尿失禁等30維特征變量,以及因記憶偏差、填寫或錄入錯(cuò)誤等原因引入噪聲的“近一年是否有兩次以上跌倒”二分類標(biāo)簽,通過數(shù)據(jù)預(yù)處理,最終得到可用樣本1 703組.

        3.2.2評(píng)價(jià)方法

        對(duì)于改進(jìn)Boosting方法在真實(shí)醫(yī)療數(shù)據(jù)集上的穩(wěn)健性驗(yàn)證實(shí)驗(yàn),選擇誤差率、精確率、召回率和F1值4種評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比. 誤差率越低,其余3種評(píng)價(jià)指標(biāo)的結(jié)果越高,則算法表現(xiàn)越穩(wěn)健,其中誤差率見式(19),精確率、召回率和F1值為

        (20)

        (21)

        (22)

        式中TP、TN、FP和FN分別為將正類預(yù)測(cè)為正類、負(fù)類預(yù)測(cè)為負(fù)類、負(fù)類預(yù)測(cè)為正類和正類預(yù)測(cè)為負(fù)類的樣本個(gè)數(shù).

        3.2.3實(shí)驗(yàn)結(jié)果和分析

        各Boosting算法在真實(shí)醫(yī)療數(shù)據(jù)集上的不同評(píng)價(jià)指標(biāo)結(jié)果如表2所示,實(shí)驗(yàn)參數(shù)選擇見3.1.3. 實(shí)驗(yàn)結(jié)果表明,含有噪聲的真實(shí)數(shù)據(jù)集會(huì)對(duì)算法的穩(wěn)健性有較高要求,傳統(tǒng)AdaBoost由于噪聲敏感性問題的影響,不同評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果皆未能表現(xiàn)出較強(qiáng)競(jìng)爭(zhēng)力. 本文提出的RLBoost的不同評(píng)價(jià)指標(biāo)結(jié)果相比AdaBoost及AdaBoost的3種抗噪改進(jìn)算法均有一定程度的提升,在真實(shí)的含噪數(shù)據(jù)集上表現(xiàn)出較好的穩(wěn)健性.

        表3 不同評(píng)價(jià)指標(biāo)下真實(shí)醫(yī)療數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        Tab.3 Experimental results of a real medical dataset under different evaluation criterions

        評(píng)價(jià)指標(biāo)AdaBoostGentleBoostLogitBoostRBoostRL-Boost誤差率0.390 690.366 260.349 910.314 240.306 15精確率0.732 060.741 280.753 800.782 460.801 05召回率0.596 090.652 940.657 420.661 900.663 77F1值0.657 110.694 310.702 320.717 150.725 98

        4 結(jié) 論

        本文提出了結(jié)合加權(quán)KNN和自適應(yīng)牛頓法的穩(wěn)健Boosting方法,方法采用加權(quán)KNN進(jìn)行預(yù)處理,引入所有樣本的噪聲先驗(yàn)概率. 將概率參數(shù)與Logit損失融合,構(gòu)建了一種能根據(jù)噪聲概率提供不同權(quán)重?cái)U(kuò)增策略的損失函數(shù),較好地解決了指數(shù)損失和Logit損失由于函數(shù)無限增長造成的噪聲樣本權(quán)重不斷擴(kuò)增的問題. 通過自適應(yīng)牛頓法進(jìn)行損失函數(shù)的優(yōu)化求解,使用二階導(dǎo)數(shù)信息,求解出損失函數(shù)條件期望的更準(zhǔn)確下降方向. 實(shí)驗(yàn)結(jié)果表明,和其他Boosting穩(wěn)健改進(jìn)算法相比,提出方法在不同噪聲水平下均具有較高的穩(wěn)健性,在真實(shí)醫(yī)療數(shù)據(jù)集上的不同評(píng)價(jià)指標(biāo)結(jié)果均有一定提升. 證明了提出方法可在含噪數(shù)據(jù)中更準(zhǔn)確地識(shí)別真實(shí)判別模式,具有一定的理論價(jià)值和應(yīng)用價(jià)值.

        猜你喜歡
        分類實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        做個(gè)怪怪長實(shí)驗(yàn)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        加勒比熟女精品一区二区av| 国产剧情麻豆女教师在线观看 | 久久97精品久久久久久久不卡 | 免费av片在线观看网站| 99在线国产视频| 久久久亚洲av午夜精品| 久人人爽人人爽人人片av| 最近中文字幕完整版| 国模少妇无码一区二区三区| 亚洲一区二区三区在线最新| 婷婷丁香五月激情综合| 乌克兰少妇xxxx做受6| 激情综合五月天开心久久| 国产在线一区二区av| 亚洲av永久无码精品网站在线观看| 亚洲欧美日韩高清专区一区| 精品中文字幕日本久久久| 人妻免费一区二区三区免费| 开心五月激情综合婷婷色| 亚洲熟妇AV一区二区三区宅男| 精品黄色一区二区三区| 放荡的美妇在线播放| 欧洲日本一线二线三线区本庄铃 | 久久亚洲精精品中文字幕早川悠里| 一区二区三区精品少妇| 8av国产精品爽爽ⅴa在线观看| 亚洲国产日韩在线人成蜜芽| 色男色女午夜福利影院| 奇米影视7777久久精品| 精品乱码一区二区三区四区| 日韩av免费在线不卡一区| 亚洲综合一区中文字幕| 无码人妻精品一区二区三区不卡| 免费国产黄片视频在线观看| 97国产免费全部免费观看| 久久人人爽人人爽人人片av东京热 | 极品粉嫩小仙女高潮喷水操av| 中文字幕一区二区网址| 粉嫩av一区二区在线观看| 国产免费看网站v片不遮挡| 欧美成人久久久|