亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的增量貝葉斯模型的研究

        2016-09-08 10:40:36蘇志同
        計算機應(yīng)用與軟件 2016年8期
        關(guān)鍵詞:貝葉斯增量類別

        蘇志同 李 楊

        (北方工業(yè)大學(xué)計算機學(xué)院 北京 100144)

        ?

        改進的增量貝葉斯模型的研究

        蘇志同李楊

        (北方工業(yè)大學(xué)計算機學(xué)院北京 100144)

        傳統(tǒng)分類算法的研究主要關(guān)注批量學(xué)習(xí)任務(wù)。實際中,帶標(biāo)注樣本很難一次性獲得。且存儲空間開銷較大的特點,也使批量學(xué)習(xí)顯現(xiàn)出一定的局限性。因此,需要增量學(xué)習(xí)來解決該問題。樸素貝葉斯分類器簡單、高效、魯棒性強,且貝葉斯估計理論為其應(yīng)用于增量任務(wù)提供了基礎(chǔ)。但現(xiàn)有的增量貝葉斯模型沒有對適應(yīng)新類別作出描述。同時,實驗表明類別之間樣本數(shù)量的不平衡,會嚴重影響該模型的分類性能。故基于這兩個問題,提出對增量貝葉斯模型的改進,增加參數(shù)修正公式,使其可適應(yīng)新出現(xiàn)的類別,并引入最小風(fēng)險決策思想減輕數(shù)據(jù)不平衡造成的影響。取UCI數(shù)據(jù)集進行仿真測試,結(jié)果表明改進后的模型可以漸進提高分類性能,并具有適應(yīng)新類別的能力。

        機器學(xué)習(xí)樸素貝葉斯增量學(xué)習(xí)最小化風(fēng)險

        0 引 言

        分類問題的研究是監(jiān)督學(xué)習(xí)研究的核心任務(wù)之一。可以將分類描述為根據(jù)已知數(shù)據(jù)集,建立分類器(決策函數(shù)或概率模型),再利用分類器判斷未知樣本類別的過程。建立分類器過程,稱為學(xué)習(xí)。而利用分類器判斷的過程,稱為預(yù)測。依據(jù)樣本獲得過程與模型學(xué)習(xí)過程的具體特點,學(xué)習(xí)任務(wù)可分為批量學(xué)習(xí)任務(wù)與增量學(xué)習(xí)任務(wù)[1]。Giraud-Carrier指出,增量學(xué)習(xí)任務(wù)具有樣本隨時間獲得,并且學(xué)習(xí)過程需持續(xù)進行的特點。而傳統(tǒng)機器學(xué)習(xí)算法的研究假設(shè)訓(xùn)練集可以一次性獲得,一旦訓(xùn)練集被充分處理后,學(xué)習(xí)就結(jié)束了。所獲得的模型僅僅用于對新實例的預(yù)測。雖然對批量學(xué)習(xí)算法稍做修改,所得暫時批量學(xué)習(xí)算法[2]可應(yīng)用于增量任務(wù),但是要存儲已學(xué)習(xí)過的樣本,用重新訓(xùn)練的方式更新模型,這增加了額外的時空開銷。與此方法相比,Polikar[3]面向監(jiān)督學(xué)習(xí)任務(wù),定義增量學(xué)習(xí)算法應(yīng)當(dāng)滿足從新數(shù)據(jù)中學(xué)習(xí)新的知識,不需要訪問當(dāng)前分類器學(xué)習(xí)過的數(shù)據(jù),僅保存當(dāng)前所獲得的知識,可以適應(yīng)具有新的類別標(biāo)記的樣本?;谶@種思想,Polikar等人提出了一種針對有監(jiān)督任務(wù)的增量學(xué)習(xí)算法Learn++,增量地訓(xùn)練多層感知機(MLP),并將之運用于分類任務(wù)中。對UCI的部分數(shù)據(jù)集及一些現(xiàn)實數(shù)據(jù)進行仿真測試,證明算法使得多層感知機的分類性能隨著訓(xùn)練數(shù)據(jù)的增加得以提高,且成功適應(yīng)了新引入的類別。此后,在傳統(tǒng)算法基礎(chǔ)上,前人提出了很多增量算法。從所獲得的模型角度來看,一些算法以較少的時空代價,對多個訓(xùn)練子集進行增量學(xué)習(xí),從而獲得與在全部訓(xùn)練集進行批量訓(xùn)練近似的模型,進而達到近似的分類效果。如支持向量機(SVM) 的增量版本[4-6]及增量決策樹ID4[7]。另一類算法則是,可以獲得與批量學(xué)習(xí)相同的模型,如增量決策樹ID5R[8]。從Polikar等所定義的增量學(xué)習(xí)所滿足的條件來看,除針對新樣本數(shù)據(jù)進行增量學(xué)習(xí)外,還可以學(xué)習(xí)新的樣本類別,如Jia H等人提出的SVM的類別增量學(xué)習(xí)算法[10]。

        因此,可以認為增量任務(wù)分為對數(shù)據(jù)或樣本的增量學(xué)習(xí)和對新引入類別的增量學(xué)習(xí)。樸素貝葉斯模型以其很好的魯棒性與分類精度[11]成為處理分類任務(wù)重要模型。而貝葉斯參數(shù)估計理論為其能夠在連續(xù)學(xué)習(xí)的過程中,利用樣本信息修正當(dāng)前模型提供了的理論依據(jù)。宮秀軍等人對基于貝葉斯理論的增量學(xué)習(xí)進行了詳細論證,并給出了完整的增量貝葉斯分類模型[9]。隨后,在諸多場景下都得以應(yīng)用,如病毒上報分析的應(yīng)用[12]與中文問句分類[13]等。雖然增量貝葉斯分類模型的提出很好地解決了在類別平衡的數(shù)據(jù)集上,對樣本的增量學(xué)習(xí)。但是該模型存在兩點不足。其一,該模型并沒有對新出現(xiàn)的類別增量予以描述。其二,并非從所有領(lǐng)域中收集而來的訓(xùn)練集都是類別平衡的。在不平衡數(shù)據(jù)集中,往往一些類別被大量的樣本過度的表達。相反代表另一些類別的樣本數(shù)量卻很少。從而導(dǎo)致分類器不能識別少數(shù)樣本所代表的類別。故本文在其基礎(chǔ)之上,基于貝葉斯估計方法對增量貝葉斯模型進行擴展,實現(xiàn)對新類別適應(yīng)。并提出一種代價函數(shù)使之結(jié)合最小化風(fēng)險決策,從而克服從不平衡數(shù)據(jù)集學(xué)習(xí)分類器的問題。

        1 增量貝葉斯模型

        表1 類別分布律

        此分布中存在m-1個參數(shù),記為ξ=(ξ1,ξ2,…,ξm-1)。將訓(xùn)練集中的樣本視為n次獨立實驗的觀測結(jié)果,則其似然函數(shù)可表示為式(1):

        (1)

        其中:ui為樣本集中類別yj出現(xiàn)的次數(shù),且∑ui=n。

        貝葉斯參數(shù)估計方法需要將所估計的參數(shù)看作隨機變量,假設(shè)已經(jīng)掌握了關(guān)于ξ的先驗k0,所以假設(shè)在事先得知ξ的先驗分布為p(ξ|k0)。通過獲得的樣本x1,x2,…,xn計算后驗分布p(ξ|k0,x1,x2,…,xn),最終用后驗分布下ξ的期望值作為估計結(jié)果。當(dāng)只有一個已知樣本x1時,計算后驗分布如下:

        (2)

        當(dāng)獲得兩個樣本x1,x2時,計算后驗分布如下:

        (3)

        此時,ξ的先驗分布變?yōu)閜(ξ|K0,x1),即先驗知識由k0變?yōu)榱?K0,x1)。以此類推可得Ki+1=Ki+xi。當(dāng)樣本是連續(xù)獲得時,可將當(dāng)前計算的后驗結(jié)果作為新樣本獲得后再次進行估計的先驗來使用,即增量地修正估計結(jié)果。

        特別地,后驗分布與先驗分布共軛時效果最佳。根據(jù)此問題的似然結(jié)構(gòu)應(yīng)取dirichlet分布作為參數(shù)ξ的先驗分布。式(4)給出了其概率密度與數(shù)學(xué)期望,其中(α1,α2,…,αm)稱作超參數(shù)且α=∑αi。

        =dirichlet(α1,α2,…,αm)

        (4)

        p(ξ|K0,x1,x2,…,xn)

        =dirichlet(α1+u1,α2+u2,…,αm+um)

        0≤ξ1+ξ2+…+ξm-1<1

        (5)

        (6)

        (7)

        增量貝葉斯模型的提出,從參數(shù)估計的角度,給出了增量修正模型參數(shù)方法。更重要的是,貝葉斯估計理論使得分類器僅僅通過累加操作就能應(yīng)用于增量學(xué)習(xí)任務(wù)中,實現(xiàn)了隨樣本的獲得而動態(tài)修正模型參數(shù),并最終獲得與樸素貝葉斯在完整數(shù)據(jù)集進行批量學(xué)習(xí)相同的模型,從而克服了批量學(xué)習(xí)要求樣本一次性獲得的問題。

        2 類別的增量學(xué)習(xí)

        前人提出的增量貝葉斯模型屬于數(shù)據(jù)增量的范疇,用于不能一次性獲得全部訓(xùn)練數(shù)據(jù)的場景。通過不斷學(xué)習(xí)新產(chǎn)生的樣本修正當(dāng)前模型,從而改善預(yù)測性能。所以在式(7)中看到,對新引入類別,該如何處理,并沒有給出描述。對于新出現(xiàn)類別進行增量學(xué)習(xí),使得分類模型隨著這種樣本的不斷出現(xiàn)而逐漸學(xué)習(xí)這個類別的知識,最終實現(xiàn)對此類別的識別,在一些實際問題中是重要的。因為在學(xué)習(xí)過程中數(shù)據(jù)是隨時間產(chǎn)生的,很難保證每次產(chǎn)生的增量集都包含所有類別的樣本。在復(fù)雜系統(tǒng)中,重新訓(xùn)練模型的代價有時是難以接受的。如文獻[16]所描述的生物圖像數(shù)據(jù)庫的建立,全部物種圖像不能一次性獲得的,起初的分類器并不能正確識別新的物種圖像。因此,系統(tǒng)應(yīng)當(dāng)增量的學(xué)習(xí)新類別圖像的知識,而非對系統(tǒng)進行重新訓(xùn)練。故本文基于貝葉斯估計方法,對于學(xué)習(xí)帶有新類別標(biāo)示的樣本時,參數(shù)估計與模型修正公式進行論證。并給出了修正方法的數(shù)學(xué)表達。

        (8)

        與此同時,應(yīng)當(dāng)對模型中的其他p(Y=yi),i≠m+1參數(shù)進行修正,如式(9):

        (9)

        (10)

        (11)

        至此,給出完整類別增量修正參數(shù)的數(shù)學(xué)表達如式(12),對帶有新類別的樣本,學(xué)習(xí)的過程就是向原有模型添加新參數(shù),并對其進行估計,再將其他相關(guān)參數(shù)進行修正的過程。

        (12)

        3 樣本選擇與類別間的不平衡性

        文獻[9]中認為增量學(xué)習(xí)過程中,對于增量集中的標(biāo)記數(shù)據(jù)應(yīng)當(dāng)逐漸全部學(xué)習(xí),隨后用半監(jiān)督學(xué)習(xí)方式追加一定數(shù)量的無標(biāo)記數(shù)據(jù)進行訓(xùn)練,以提高分類效果。并使用精度作為衡量分類效果的標(biāo)準。這種方式存在三個問題,其一,實驗表明并非所有標(biāo)記樣本都是值得學(xué)習(xí)的,應(yīng)采取相應(yīng)的策略對待學(xué)習(xí)樣本進行甄選。其二,其假設(shè)所使用的訓(xùn)練集中各類別被近似相同數(shù)量的樣本所代表,而在一些情況中,數(shù)據(jù)集中的類別分布是非常不平衡的[17]。最后,在數(shù)據(jù)不平衡的情況下僅僅用精度來衡量分類性能是片面的。因此,本文引入最小化風(fēng)險決策的思想克服此問題,并分別從精度與召回率兩個角度進行分析評價。

        (13)

        (14)

        取UCI數(shù)據(jù)集中Car Evaluation對增量貝葉斯模型進行驗證,數(shù)據(jù)集由4種類別的1728個實例構(gòu)成,每個實例有6個特征屬性與1個類別屬性。從完整數(shù)據(jù)集中,取其中3種類別的1663個實例用來測試。隨機取出663個實例作為測試集,記為T。剩余數(shù)據(jù)共有1000個實例涵蓋3種類別,將其記為D。再將D分為5份,記為S1…S5。每個子集隨機分配200個實例 ,使用增量學(xué)習(xí)方式進行訓(xùn)練。同時,使用樸素貝葉斯在D上做批量訓(xùn)練。在測試集T上對比二者精度,實驗結(jié)果如表2所示。

        表2 精度測試結(jié)果

        從結(jié)果中看出,模型精度并沒有隨著學(xué)習(xí)樣本數(shù)量的增多而提高的。相反地,模型精度呈現(xiàn)下降趨勢,直至獲得與樸素貝葉斯在全集D上批量學(xué)習(xí)相同的模型為止。單純通過學(xué)習(xí)更多的帶標(biāo)注樣本的訓(xùn)練方式,在一些情況下,會對提高模型精度起反作用。如果待學(xué)習(xí)的樣本不能改善分類器性能,那么對這些樣本的學(xué)習(xí)就會既費時又無用。

        同時,由于訓(xùn)練集中樣本數(shù)量具有典型的不平衡性特點,造成少數(shù)樣本代表的類別呈現(xiàn)不可接受的低識別率。表3列出了Car Evaluation實驗集的類別數(shù)量比例與上述增量方法在完成全部增量學(xué)后對每個類別的召回情況。從中很直觀地反映出樣本數(shù)量傾斜所導(dǎo)致的good類別完全不識別,極大地削弱了分類器的決策價值。

        表3 測試結(jié)果

        對于有標(biāo)注樣本的學(xué)習(xí),文獻[15]中認為被當(dāng)前分類器錯分的樣本往往帶有更多有價值的信息,應(yīng)對優(yōu)先選擇錯分樣本進行學(xué)習(xí)。而對于訓(xùn)練集的不平衡性問題,從決策風(fēng)險的角度來看,傳統(tǒng)貝葉斯分類器基于最大化后驗概率進行決策,其本質(zhì)等價于在0-1損失下最小化風(fēng)險。這種決策假設(shè)所有的錯誤決策的風(fēng)險都是相同的??紤]到數(shù)據(jù)集樣本數(shù)量的不平衡性,0-1損失顯然是不合理的。故本文提出錯分代價函數(shù)如式(15)。其中count(yi)表示當(dāng)前訓(xùn)練集中類別為yi的樣本個數(shù),0<α<1作為一種對決策錯誤的懲罰參數(shù)。當(dāng)α<0.5時,可體現(xiàn)出將訓(xùn)練集中數(shù)量少的類別被預(yù)測為數(shù)量多的類別,其代價更高。從而使得決策對數(shù)量少的類別更加關(guān)注。

        (15)

        進而依據(jù)貝葉斯決策理論,此時的風(fēng)險計算變?yōu)榱巳缡?16)所示。而決策也有最大化后驗概率變?yōu)榱俗钚』L(fēng)險。故決策函數(shù)也相應(yīng)調(diào)整為式(17)所示:

        R(yi|x)=∑p(yj|x)·cost(yj,yi)

        (16)

        (17)

        至此,本文提出一種改進的增量學(xué)習(xí)算法。在進行增量學(xué)習(xí)之前,首先,根據(jù)當(dāng)前各類別樣本的數(shù)量分布,計算代價矩陣,使用當(dāng)前模型對增量集進行分類,獲得所有被錯分的樣本形成集合。為了在訓(xùn)練階段盡量平衡各類別的樣本數(shù)量,采取優(yōu)先學(xué)習(xí)少數(shù)樣本代表的類信息,故將錯分集合中樣本按其類別在訓(xùn)練集中存在的數(shù)量進行升序排序。取出升序后的第一個樣本進行學(xué)習(xí),更新貝葉斯模型。隨后,更新代價矩陣。再將已學(xué)樣本從增量集中刪除。重復(fù)此過程,直至增量集為空或沒有新的錯誤樣本產(chǎn)生。算法描述如下:

        增量學(xué)習(xí)算法模型建立過程:輸入:初始訓(xùn)練集D,錯分代價參數(shù)α輸出:初始貝葉斯模型與代價矩陣利用D建立貝葉斯模型M,并獲得每個類別樣本的數(shù)量存于向量ynum[]中;

        通過式(15)和ynum計算代價矩陣C;增量學(xué)習(xí)過程:輸入:增量集S,錯分代價參數(shù)α輸出:更新后的分類模型定義錯分集合wset;do初始化錯分集合wset為空;fori=1:|S|用當(dāng)前模型M對(xp,yp)進行預(yù)測;將錯分樣本xp保存于錯誤集wset中;Endfor;將wset中的樣本按它們類別在訓(xùn)練集中存在的數(shù)量進行升序排序;if|wset|>0 從wset中取出第一個錯分樣本(xp,yp); ifyp?Y通過式(12)更新M,并更新ynum;再利用ynum更新代價矩陣C; 從S中刪除xp; Else通過式(7)更新M,并更新ynum;再利用ynum更新代價矩陣C; 從S中刪除xp;Elsebreak;Endif;While(|S|>0);

        4 代價函數(shù)中參數(shù)取值分析

        由于本文提出的決策風(fēng)險函數(shù)中含有一個懲罰參數(shù),故現(xiàn)取UCI中的兩個不平衡程度不同的數(shù)據(jù)集驗證本文算法,從而給出數(shù)據(jù)集不平衡程度與參數(shù)取值關(guān)系的分析。所選用的數(shù)據(jù)集信息如表4列出。從中可見,car數(shù)據(jù)集屬于嚴重不平,而Spect heart的不平衡程度較輕。

        表4 數(shù)據(jù)集信息

        為使得決策更傾向于少數(shù)兩樣本的類別,參數(shù)的取值應(yīng)為α∈[0,0.5],在此區(qū)間上進行取值。按照上文的做法,將兩個數(shù)據(jù)集,都分為6份,5份用于訓(xùn)練,1份用于測試。分析不同參數(shù)取值對各類別召回率的影響,揭示二者之間的關(guān)系。圖1與圖2給出了兩個數(shù)據(jù)集各類別召回率隨參數(shù)取值的變化趨勢。

        圖1參數(shù)與類別召回率的關(guān)系

        圖2參數(shù)與類別召回率的關(guān)系

        現(xiàn)從兩個角度對上述趨勢進行分析。由于數(shù)據(jù)集的不平衡,決策應(yīng)更加關(guān)注少數(shù)類別。所以,原則上參數(shù)取值應(yīng)越小越好。如圖1與圖2所示,參數(shù)取值越接近0,對少數(shù)類別的召回率越接近1。但同時,一旦參數(shù)取值超過一定界限,便會對原本的多數(shù)類別的識別造成影響。圖中同樣反應(yīng)出,當(dāng)少數(shù)類別的召回接近1時,多數(shù)類別的識別呈下降趨勢。原因是當(dāng)決策對少數(shù)類別的傾向到一定極端程度時,少數(shù)類別的樣本達到了完全識別,而錯分集中不再包含少數(shù)的類別。在依照算法,依然錯分樣本進行學(xué)習(xí),不斷增加多數(shù)類別樣本的學(xué)習(xí)數(shù)量。更加加劇了決策向少數(shù)類別的傾斜。所以,最理想的參數(shù)取值應(yīng)為兩圖中,各類別召回曲線的交點處。其次,圖示所反映的另一種關(guān)系則是訓(xùn)練集的不平衡程度與參數(shù)的取值。理想的參數(shù)取值應(yīng)可以反映訓(xùn)練的不平衡的程度。正如car集的程度相對于Spect heart集更嚴重,故其參數(shù)取值也應(yīng)比Spect heart集的參數(shù)取值更小。

        5 實驗結(jié)果及分析

        為驗證模型與算法的有效性,取UCI機器學(xué)習(xí)數(shù)據(jù)集中的部分數(shù)據(jù)分別進行數(shù)據(jù)增量與類別增量的驗證。并將樸素貝葉斯(NB)與本文算法進行對比。表5列出了數(shù)據(jù)集信息。

        表5 數(shù)據(jù)集信息

        進一步對上述數(shù)據(jù)進行簡單處理,先將上述每個實驗數(shù)據(jù)集都隨機分為兩個部分,即訓(xùn)練集與測試集。再將每個訓(xùn)練集平均分為5份為增量學(xué)習(xí)做好準備,各個子集的實例隨機分配。表6描述了每個實驗集的劃分情況。

        表6 實驗準備

        首先,驗證在6個數(shù)據(jù)集上驗證數(shù)據(jù)增量學(xué)習(xí)。為了得到更為客觀的實驗結(jié)果,按照上述數(shù)據(jù)集劃分比例,在每個實驗數(shù)據(jù)集上,做5次增量學(xué)習(xí)直至將完整訓(xùn)練全部學(xué)習(xí)。同時,每個實驗集,做5折交叉驗證,交替對換訓(xùn)練集與測試集中的數(shù)據(jù),取5次驗證的結(jié)果的均值作為結(jié)果的估計,再與樸素貝葉斯在每個完整訓(xùn)練集上的5折交叉驗證結(jié)果的均值做比對。表7則給出了精度結(jié)果的對比。

        表7 精度對比

        表8則列出了本文方法與樸素貝葉斯,在4個不平衡數(shù)據(jù)集上,各類別召回情況的對比。

        表8 召回對比

        從上述實驗結(jié)果不難發(fā)現(xiàn),在增量學(xué)習(xí)過程中,選擇適當(dāng)?shù)臉颖具M行學(xué)習(xí)可以逐漸提高分類器精度。同時,由于風(fēng)險決策的引入使得決策更加的均衡,從而克服了不平衡訓(xùn)練的帶來的影響。

        再次取涵蓋4個類別的完整car數(shù)據(jù)集,進行類別增量學(xué)習(xí)的驗證。仍然將此數(shù)據(jù)集劃分為兩個部分,即訓(xùn)練集與測試集。其中,訓(xùn)練集實例個數(shù)為1000,而測試集實例個數(shù)為728,涵蓋全部4給類別。同樣將訓(xùn)練集劃分為5個增量子集,將其記為S1,…,S5,而測試集記為T。S1至S2僅僅包含unacc與acc兩個類別的實例。S3至S4包含unacc、acc與good三個類別的實例。S5則包含全部4個類別的訓(xùn)練實例。表9給出了5次增量訓(xùn)練,在每一次學(xué)習(xí)后,測試精度的變化。

        表9 類別適應(yīng)

        表9中的結(jié)果反映出在增量集S1至S2階段,分類器維持在較低精度。由于此時的訓(xùn)練集并不包含good與vgood這兩種類別。所以,分類器不能識別測試集中的兩種類別,再加之對一部分已知類別的誤判,使得錯誤率較高。 隨后,在增量集S3與S5被引入后,分類器的性能均有一次較明顯的改善,則是由于引入了代表新類別的訓(xùn)練實例,使得分類器可以逐漸識別類別good與vgood。最終實現(xiàn)了測試集中全部4個類別的適應(yīng)。

        6 結(jié) 語

        本文基于貝葉斯估計理對增量貝葉斯模型進行擴展,使其可適應(yīng)新出現(xiàn)的類別,并引入最小化風(fēng)險決策克服了不平衡數(shù)據(jù)集上少數(shù)類別召回率低的問題。利用UCI數(shù)據(jù)集進行測試,證明了改進后的增量模型可以漸進提高分類性能,并具有適應(yīng)新類別的能力。但本文給出的代價函數(shù)仍存在一定的局限性。特別是參數(shù)的確定問題,將是我們后續(xù)研究的重點。

        [1] Giraud Carrier C.A note on the utility of incremental learning [J].AI Communications,2000,13(4): 215-223.

        [2] Maloof M A,Michalski R S.Selecting examples for partial memory learning [J].Machine Learning,2000,41(1): 27-52.

        [3] Polikar R,Upda L,Upda S S,et al.Learn++: An incremental learning algorithm for supervised neural networks[J].Systems,Man,and Cybernetics,Part C: Applications and Reviews,IEEE Transactions on,2001,31(4): 497-508.

        [4] Xiao R,Wang J,Zhang F.An approach to incremental SVM learning algorithm[C]//Tools with Artificial Intelligence,2000.ICTAI 2000.Proceedings.12th IEEE International Conference on.IEEE,2000: 268-273.

        [5] Wenhua Z,Jian M.A novel incremental SVM learning algorithm[C]//Computer Supported Cooperative Work in Design,2004.The 8th International Conference on.IEEE,2004,1: 658-662.

        [6] Wang W J.A redundant incremental learning algorithm for SVM[C]//Machine Learning and Cybernetics,2008 International Conference on.IEEE,2008,2: 734-738.

        [7] Schlimmer J C,Fisher D.A case study of incremental concept induction[C]//AAAI.1986: 496-501.

        [8] Utgoff P E.Incremental induction of decision trees[J].Machine learning,1989,4(2): 161-186.

        [9] Gong X J,Liu S H,Shi Z Z.An incremental Bayes classification model[J].Chinese Journal of Computers,2002,25(6): 645-650.

        [10] Jia H,Murphey Y L,Gutchess D,et al.Identifying knowledge domain and incremental new class learning in SVM[C]//Neural Networks,2005.IJCNN’05.2005 IEEE International Joint Conference on.IEEE,2005,5: 2742-2747.

        [11] Domingos P,Pazzani M.On the optimality of the simple Bayesian classifier under zero-one loss[J].Machine learning,1997,29(2-3): 103-130.

        [12] Chen L,Zhen N,Guo Y H,et al.Applying Naive Bayesian Incremental Learning In Virus Reporting and analyzing[J].Computer Applications and Software,2010,27(1): 92-95.

        [13] Di S,Li H,He P.Incremental Bayesian classification for Chinese question sentences based on fuzzy feedback[C]//Future Computer and Communication (ICFCC),2010 2nd International Conference on.IEEE,2010,1: V1-401-V1-404.

        [14] Jeffreys S H.Theory of Probability[M].3d Ed.Clarendon Press,1967.

        [16] Ditzler G,Rosen G,Polikar R.Incremental learning of new classes from unbalanced data[C]//Neural Networks (IJCNN),The 2013 International Joint Conference on.IEEE,2013: 1-8.

        [17] García-Pedrajas N,Pérez-Rodríguez J,de Haro-García A.OligoIS: scalable instance selection for class-imbalanced data sets[J].Cybernetics,IEEE Transactions on,2013,43(1): 332-346.

        ON IMPROVED INCREMENTAL BAYESIAN CLASSIFICATION MODEL

        Su ZhitongLi Yang

        (CollegeofComputer,NorthChinaUniversityofTechnology,Beijing100144,China)

        The research of traditional classification algorithm focuses on the batch learning tasks.Actually,it is not easy to obtain labelled samples once for all.In addition,there is certain limitation in batch learning tasks because the cost of storage space is rather high.Therefore,incremental learning can be referred to as a solution.Naive Bayesian classification is simple,efficient and highly robust,besides,the theory of Bayesian estimation lays the foundation for its application in incremental tasks.However no existing incremental Bayesian model has described the adaptation to new classes.Moreover,the experiment shows that the imbalance in numbers of different samples between classes will have a great impact on the classification performance of the model.Therefore,based on the above two problems,we present to improve the incremental Bayesian model and to increase of formulas of parameters modification so as to enable the model to adapt to new classes.Also the idea of risk decision minimisation is introduced to reduce the impact of data imbalance.Simulation is carried out on UCI dataset,result indicates that the improved incremental model can improve the classification performance gradually and has the adaptability to new classes.

        Machine learningNaive BayesIncremental learningRisk minimisation

        2015-03-16。國家自然科學(xué)基金項目(61105045);中央支持地方專項(PXM2014_014212_000097);北方工業(yè)大學(xué)科研人才提升計劃項目(CCXZ201303)。蘇志同,教授,主研領(lǐng)域:數(shù)據(jù)挖掘、數(shù)字媒體技術(shù)。李楊,碩士生。

        TP181

        A

        10.3969/j.issn.1000-386x.2016.08.057

        猜你喜歡
        貝葉斯增量類別
        提質(zhì)和增量之間的“辯證”
        “價增量減”型應(yīng)用題點撥
        貝葉斯公式及其應(yīng)用
        基于均衡增量近鄰查詢的位置隱私保護方法
        基于貝葉斯估計的軌道占用識別方法
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        德州儀器(TI)發(fā)布了一對32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        国产午夜福利片| 日本高清不卡二区三区| 日本黑人亚洲一区二区| 人人人妻人人澡人人爽欧美一区 | 狼人狠狠干首页综合网| 色综合久久中文综合网亚洲| 精品人妻午夜一区二区三区四区| 国产视频导航| 中文字幕av人妻一区二区| 日本久久精品中文字幕| 男女上下猛烈啪啪免费看| 国产精品综合日韩精品第一页| 亚洲天堂免费一二三四区| av免费在线免费观看| 无码少妇精品一区二区免费动态| 欧美日韩国产免费一区二区三区欧美日韩 | 精品无码国产一二三区麻豆| 天堂久久一区二区三区| 久久天堂av综合合色| 一本大道久久东京热无码av| 青草青草伊人精品视频| 国产爽快片一区二区三区| 欧美激情在线播放| 少妇激情av一区二区| 日产精品一区二区免费| 国产高清在线一区二区不卡| 亚洲看片lutube在线观看| 国产在线不卡AV观看| 美女人妻中文字幕av| 2019nv天堂香蕉在线观看| 老湿机香蕉久久久久久| 超清无码AV丝袜片在线观看| 成人av综合资源在线| 狠狠噜天天噜日日噜无码| 亚洲成av人片天堂网九九| 99视频偷拍视频一区二区三区| 久久影院午夜理论片无码| 香蕉久久久久久久av网站| 少妇高潮无码自拍| 91精品国产在热久久| 日本人与黑人做爰视频网站|