亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于兩階段集成學習的分類器集成

2010-03-12 12:30:04李文斌劉椿年

北京工業(yè)大學學報 2010年3期

李文斌,劉椿年,鐘寧,3

(1.石家莊經(jīng)濟學院信息工程學院,石家莊 050031;2.北京工業(yè)大學電子信息與控制工程學院,北京 100124;3.日本前橋工業(yè)大學生命科學與信息學院,群馬 371-0816,日本;4.河北師范大學軟件學院,石家莊 050016)

集成學習主要通過決策優(yōu)化或覆蓋優(yōu)化 2種手段將若干弱分類器的能力進行綜合,以優(yōu)化分類系統(tǒng)的總體性能[1].近年來,多分類器集成已成為研究者們關(guān)注的一個熱點[2-8].集成學習的研究被認為是當前機器學習的四大研究方向之首[9].訓練多個個體學習器是集成學習的第 1步,集成則是將這些個體學習器進行組合.文獻[10]中,按照個體學習器生成方式的不同,將集成方法大致分為 2類:以 AdaBoost為代表的提升(Boosting)方法(統(tǒng)稱該類為 Boosting);另一類以裝袋(Bagging)為代表(統(tǒng)稱這一類為Bagging).

本文提出了 1種介于 Bagging和 Boosting之間的集成學習方法,稱為兩階段集成學習(two-phase ensemble learning,簡稱為 TPEL).TPEL包括 2個過程:直接學習和間接學習.直接學習指從給定的訓練例中學習出多個個體分類器的過程;間接學習則指從這些個體學習器擁有的“知識”中學習集成分類器的過程.結(jié)合電子郵件過濾這樣1個 2類文本分類問題[11],本文設(shè)計并實現(xiàn)了一系列實驗,實驗中采用樸素貝葉斯方法(Na·l·ve Bayes,簡稱為 NB)為基線分類器(baseline classifier),其判別函數(shù)參見文獻[12].對郵件過濾而言,誤拒和誤收錯誤的代價是不同的[2],本文僅將郵件過濾看作是普通的2類文本分類問題加以研究,未考慮郵件過濾的特殊性.

1 兩階段集成學習(TPEL)

Bagging[13]和 Boosting[14]是 2種有代表性的集成學習方法,TPEL的設(shè)計來自于對 Bagging和 Boosting的分析.

1.1 Bagging及 Boosting分析

對 2類分類問題而言,Bagging學習的預測函數(shù) H可以表示為

其中,x是新例;c0和 c1是類別標識符;L是弱學習算法;T是訓練輪數(shù);Li是第 i輪學習出來的分類器.當Li認為 x是 c1類別時,Li(x)輸出 c1,否則輸出 c0.

Boosting算法最早可以追溯到 1990年,由 Schapire[14]提出.Freund[15]于 1995年提出了 AdaBoost算法.就 2類分類問題而言,K可以表示為

其中,x是新樣本,wi是第 i(i=1,…,T)個預測函數(shù) Li的權(quán)重(通常在訓練例上分類效果越好的預測函數(shù),它的權(quán)重越大,相反則越小).

本文中 H和K為集成函數(shù),統(tǒng)一記為 E.從上面的描述可知,Bagging和 Boosting的集成函數(shù)都被事先設(shè)定了類型或形式.Bagging的集成函數(shù) H是 1個分段函數(shù),Boosting的集成函數(shù)K是 1個線性組合函數(shù).若令 y=〈L1(x),L2(x),…LT(x)〉,當 x變化時,y在T維空間形成了一系列點,一部分點的真實類別為c1,記為 Y1;另一部分點的真實類別為 c0,記為 Y0.Bagging和 Boosting則假定了 1個超平面,將這 2類點分開,圖 1以 Bagging為例進行說明.圖 1中,立方體的每個頂點代表 1個 y向量,圓形所示的頂點是Bagging標注為 c1的點.Bagging假定 A、B、C這 3個頂點決定的面是將 Y1和 Y0分開的分類超平面,該平面上及其法線方向的上方區(qū)域被 Bagging認為是 Y1中的點所在的區(qū)域,該平面法線反方向所指的下方區(qū)域被認為是 Y0中的點所在的區(qū)域.

顯然,事先設(shè)定將 Y1和 Y0分開的分類超平面的辦法將導致算法的性能不確定.事實上,正是這種對集成函數(shù)的預先設(shè)定,導致了 Bagging和 Boosting的一些缺點和現(xiàn)象:

1)Bagging能提高不穩(wěn)定學習算法的預測精度,而對穩(wěn)定學習算法效果不明顯,有時甚至使預測精度降低[13].

2)Boosting和 Bagging的輪數(shù)并非越多越好[16].

3)Boosting方法在有效時效果比 Bagging還好,但在無效時卻可能使學習系統(tǒng)的性能惡化[16].

為此,在 TPEL中采用學習算法學習將 Y1和 Y0分開的分類超平面,即 TPEL采用學習的辦法對集成函數(shù)進行構(gòu)造.

1.2 TPEL算法

TPEL包括 2個階段:直接學習和間接學習.TPEL直接學習的學習任務是利用 1個或多個同構(gòu)或異構(gòu)的學習算法從訓練集中學習多個個體分類器,設(shè)為 fi(i=1,…,m).對 2類分類任務而言,個體分類器可表示為

式中,R為分類器輸出的類別概率;x是 1個文本向量;d是 x的維數(shù).間接學習則指從個體分類器擁有的知識中進行學習的過程.

圖 1 Bagging假定集成函數(shù)形式的示意圖Fig.1 Illustrative figure of Bagging's predefined ensemble function

顯然,TPEL的關(guān)鍵問題是如何表示個體分類器的知識,下面給出本文采用的 1種知識的表示方法.設(shè) D是訓練集,其中有｜D｜個樣本,它們的期望輸出為

式中 yi(i=1,…,｜D｜)表示第 i個樣本的期望輸出,yi∈ {c0,c1}.

設(shè) Yk(k=1,…,m)是個體分類器 fk在 D上的實際輸出,Yk=[yk1,…,yk｜D｜]T,ykj是 fk對第 j(j=1,…,｜D｜)個訓練例的實際輸出.由于某些 fk輸出的是類別,此時 ykj∈{c0,c1};某些 fk輸出的是函數(shù)值或概率值,此時 ykj∈R.個體學習器擁有的知識被表示成矩陣K的第 i行 ki代表第i個訓練例 xi(i=1,…,｜D｜),ki的第 j個單元 kij的值代表了 fj對 xi的分類知識(j=1,…,m),ki(m+1)則指示了 xi的期望類別.從而,對 2類分類問題而言,間接學習的任務是學習分類超平面(即集成函數(shù) E),將K中 c1類別和 c0類別的樣本在空間中分開.

前文中,Bagging和 Boosting的集成函數(shù)都被事先假定了類型或形式,而 TPEL中的集成函數(shù)則是通過間接學習中采用的學習算法而得.因此,TPEL具有更強的泛化能力及魯棒性,這一點在實驗中得到了很好的驗證.

算法 1和算法 2分別給出了為 2類文本分類設(shè)計的 TPEL的訓練和分類算法.

算法 1TPEL-trainer(D,L[1..T],L0,T) ∥L[1],…,L[T]是學習算法

輸入:訓練集 D;輪數(shù) T;T個學習算法 L[1],…,L[T];集成函數(shù)學習算法 L0

輸出:T個分類器:f1,…,fT;集成函數(shù) E

從算法 1可知,TPEL要進行 2次分類器的訓練,第 1次是訓練 T個個體分類器(算法 1的#1行),第 2次是從 T個個體分類器的知識矩陣中訓練得到集成函數(shù)(算法 1的#2～4行).這 2次訓練似乎使 TPEL需要很長的訓練時間,但實際情況并非如此.首先,f1,…,fT的訓練過程是互不相干的,因此,各模型的訓練可“并發(fā)”執(zhí)行,所需的時間僅比訓練單分類器的時間稍長.在這點上,與 Bagging方法相同.Bagging類方法隨機選取訓練子集訓練個體學習器,由于各訓練子集間相互獨立,使 Bagging的各個預測函數(shù)可并行或并發(fā)生成.其次,K的縱向維數(shù) T通常非常小,因此算法 1中#4行的學習過程所花費的時間非常少,上述 2點在實驗中都得到了驗證.值得指出的是:算法 1的#3.2行對K中相應單元賦值為類別值,在實際使用中,可以是弱分類器對當前樣本輸出的類別概率或函數(shù)值.

算法 2TPEL-classifier(x,P,f1,…,fT,E)

輸入:新郵件 x;P的默認值為 T;T個個體分類器為 f1,…,fT;集成函數(shù)為 E;

輸出:c0或 c1

IF(至少 P個分類器認為 x是 ci)THEN RETURN ci∥i=0或 1,P由用戶設(shè)定

從算法 2可知,TPEL與 Bagging、Boosting類算法對新樣本的分類有明顯區(qū)別.當新樣本到達時,Bagging首先利用 T個個體學習器產(chǎn)生向量 X=〈m1,…,mT〉,其中 mj(j=1,…,T)是第 j個分類器對新樣本的標注結(jié)果,然后根據(jù)X輸出多數(shù)分類器贊成的標注結(jié)果.Boosting類的算法則根據(jù)各弱分類器的標注決定新樣本的最終類別.TPEL則是將各分類器的實際輸出向量 X=〈m1,…,mT〉作為集成函數(shù)的輸入,由集成函數(shù)決定新樣本的類別.TPEL的集成函數(shù)是根據(jù)分類器在訓練例上的分類歷史學習得到的,一方面,當訓練例發(fā)生變化時,重新訓練可使集成函數(shù)發(fā)生相應改變;另一方面,改變間接學習過程中的學習算法也可使集成函數(shù)發(fā)生變化.這就意味著,TPEL的集成函數(shù)將會根據(jù)實際情況“動態(tài)”地決定 X的最終類別,這樣的做法將使結(jié)果更加可靠.

設(shè)有 3個弱分類器 M1、M2、M3,3個訓練樣本 x1、x2、x3,它們的真實類別分別為 0、0、1.另設(shè)有新樣本x4,其期望類別是 0.這 3個弱分類器對 x1、x2、x3的輸出向量分別是〈1,1,0〉、〈1,1,0〉、〈0,0,0〉,在 x4上的實際輸出向量為〈1,1,0〉.Bagging認為,x4的類別是 1.然而,當弱分類器的輸出向量為〈1,1,0〉時,在訓練例上的真實類別總是 0(如:x1、x2),而不是 1.因此,如果 Bagging能了解這一點,就不會對 x4的類別判定犯錯誤.然而,TPEL利用弱分類器在訓練例上的分類“知識”能發(fā)現(xiàn)這一點,從而輸出 0為 x4的真實類別.也就是說,Bagging類的方法并不根據(jù)弱分類器對訓練例的分類情況輸出新樣本的類別.盡管Boosting算法考慮了弱分類器對訓練例的分類情況,但最終的投票函數(shù)形式過于單一化.

2 實驗

本文實驗驗證了以下問題:

1)弱學習器的個數(shù)對 TPEL預測效果的影響;

2)弱學習算法的類型(同構(gòu)或異構(gòu))對 TPEL預測效果的影響.從第 2節(jié)可知,Bagging、Boosting類方法通常只可以集成多個同構(gòu)的弱分類器(實際上,Bagging可集成異構(gòu)的);而 TPEL可集成多個同構(gòu)或異構(gòu)的分類器.

3)弱學習算法的穩(wěn)定性對 TPEL預測效果的影響.學習算法的穩(wěn)定性是指當訓練集發(fā)生較小變化時,學習結(jié)果不會發(fā)生較大變化.文獻[12]指出,穩(wěn)定性是影響 Bagging預測效果的關(guān)鍵因素.對不穩(wěn)定學習算法(如:決策樹和神經(jīng)網(wǎng)絡),Bagging能提高它們的預測精度,而對穩(wěn)定的學習算法(如:k-NN、NB),Bagging的效果不明顯,有時甚至使預測精度降低.

4)TPEL的時間復雜度.

實驗的硬件環(huán)境為:IBM T42筆記本(CPU:2.0 GHz;內(nèi)存:512 M);軟件環(huán)境為:JBuilder X+Weka[17]開發(fā)包.除特別說明,分類器參數(shù)都使用 Weka的默認參數(shù).

2.1 實驗數(shù)據(jù)集及評價指標

本文采用了 4個公用的電子郵件測試集,分別是 PU1[18](下文用 D1表示),Lingspam[19](用 D2表示),Spam Assassin[20](用 D3表示),Spambase[21](用 D4表示).這 4個數(shù)據(jù)集中,2類(垃圾郵件和正常郵件)文本的數(shù)據(jù)分布情況見表 1.

表 1 實驗數(shù)據(jù)分布情況Table 1 Experimental data distribution

對文本分類任務而言,常用的評價指標為查準率(precision,簡寫為 p)、查全率(recall,簡寫為 r)及F1值,計算公式見文獻[22].本文實驗中采用的測試方法均為開放測試(數(shù)據(jù)集中 66%作訓練,34%作測試);特征提取算法為信息增益(information gain,簡稱為 IG)[22],特征子集的大小為 150;文本表示的方法為二進制詞頻.Spambase數(shù)據(jù)集中的每個郵件文本在發(fā)布時已經(jīng)被表示成了向量形式,所以對這一數(shù)據(jù)集未做特征子集提取,表示的方式上也未做額外的處理.

2.2 實驗結(jié)果

實驗 1基準結(jié)果(baseline results).表 2給出了 NB、Bagging、AdaBoostM1這 3種方法在 4個數(shù)據(jù)集上的結(jié)果,其他實驗將與此作參考進行分析比較.表中,p(i)、r(i)、F1(i)(i=0,1)分別表示 p(ci),r(ci)和 F1(ci);P表示總的正確率(為正確分類的測試樣本數(shù)除以總測試樣本數(shù)).從表 2可以看出,若僅根據(jù)P判斷,Bagging在 D1、D2上的性能差于 NB;在 D 3、D4上要好于 NB,尤其是在 D4上.AdaBoostM1在 D1、D2、D3上要好于 NB,在 D4上與 NB的效果一致.

表 2 NB、Bagging和 AdaBoostM 1在 4個數(shù)據(jù)集上的實驗結(jié)果Tab le 2 The experimental resu lts of NB,Bagging and AddBoostM 1 on four datasets %

實驗 2弱分類器個數(shù)對 TPEL性能的影響實驗.本實驗分為以下子實驗:

1)第 1階段分別采用 5、20、50、100個 NB學習器,第 2階段采用 NB學習器;

2)第 1階段分別采用 5、20、50、100個徑向基網(wǎng)絡(RBFNetwork,簡稱為 RBF)學習器,第 2階段采用RBF學習器.

3)第 1階段分別采用 5、20、50、100個 J48學習器,第 2階段采用 J48學習器.

4)第 1階段分別采用 5、20、50、100個 PART學習器,第 2階段采用 PART學習器.

上述 4個子實驗的結(jié)果如圖 2所示.

由圖 2(a)可知,當弱學習器個數(shù) T發(fā)生變化時,在前 3個數(shù)據(jù)集上,P基本不變;在第 4個數(shù)據(jù)集上,當 T取 100時,P值微弱變小.從圖 2(b)來看,在 D1和 D2兩個數(shù)據(jù)集上,僅當 T取 50時,發(fā)生了變化,T取 5、50、100時,P基本不變.在 D3、D4上,當 T從 5變化到 50時,P呈增加趨勢,當 T變化到 100時,D3上的 P基本不變,而 D4上的 P值有所下降.圖 2(c)顯示的變化最為無序,但整體上來講,當 T改變時,P的變化幅度都不大,在 D1上的變化區(qū)間為[94.61%,95.96%],D2上的變化區(qū)間為[97.87%,98.17%],D3上的變化區(qū)間為[97.56%,98.39%],D4上的變化區(qū)間為[94.25%,95.27%].圖 2(d)表明,當 T從5增加到 100時,在 4個數(shù)據(jù)集上,P值都呈不斷增加的趨勢.

總體來看,該實驗的結(jié)果表明,在4個數(shù)據(jù)集上,當T變化時,TPEL在P上的變化幅度都不大.從圖 2來看,T取 50時,P在 4個數(shù)據(jù)集上都有較好的表現(xiàn),因此,在實踐中,建議 T的值不超過 50.

圖 2 弱分類器個數(shù)對TPEL性能的影響Fig.2 The performance of TPEL when the countof the weak classifiers is changed

實驗 3異構(gòu)分類器集成實驗.“異構(gòu)”指在第 1階段學習每個個體分類器的學習算法彼此不同.表3給出了本實驗的結(jié)果.首先比較該實驗中的 TPEL與 AdaBoostM1的性能.從該表可看出,D1、D3、D4這3個數(shù)據(jù)集在多數(shù)指標上都優(yōu)于 AdaBoostM 1.僅在數(shù)據(jù)集 D2上,TPEL略差于 AdaBoostM 1.在 D2上,AdaBoostM1的 P值為 98.68%,L2在這一數(shù)據(jù)集上取得了 98%的總正確率,與 AdaBoostM 1接近;L1、L3的 P值也與 AdaBoostM1比較接近.可見,此時的 TPEL比 AdaBoostM 1要優(yōu)秀許多.與 Bagging(見表 2)相比,本實驗中的 TPEL在 4個數(shù)據(jù)集上的結(jié)果全面優(yōu)于 Bagging.因此,不難得出結(jié)論,TPEL在集成異構(gòu)分類器時,效果非常理想.

表 3 異構(gòu)分類器集成的實驗結(jié)果Table 3 The experimental results of combining multiple heterogeneous classifiers %

實驗 4完全同構(gòu)分類器集成.完全同構(gòu)指第 1階段和第 2階段的學習算法相同.實驗結(jié)果如表 4所示.從表 4可以看出,除 L2在 D1、D2兩個數(shù)據(jù)集上比 NB稍差外,其他值大部分都優(yōu)于 NB.僅從 P值分析,L1在 D1、D2上強于 Bagging,在 D3、D4上有所不及;L1僅在 D4上強于 AdaBoostM1.L2僅在 D1上強于 Bagging,其他數(shù)據(jù)集上與 Bagging接近;在 D3,尤其是在 D4上超過了 AdaBoostM1,在其他 2個數(shù)據(jù)集上接近.L3在 4個數(shù)據(jù)集上的都超過了 Bagging;在 D3、D4上超過了 AdaBoostM1,在 D1、D2上與AdaBoostM1的 P值有 1%左右的差距.L4在 D1、尤其是在 D4上,超過了 AdaBoostM1,在 D2、D3上也與AdaBoostM1的性能接近;在 D1、D2上超過了 Bagging.

表 4 完全同構(gòu)分類器集成結(jié)果Tab le 4 The experimental resu lts of com bining the sam e classifiers %

當集成完全同構(gòu)的分類器時,TPEL也取得了成功.尤其是當采用適當?shù)娜鯇W習分類器的學習算法時(如 L3),TPEL的性能超過 Bagging和 AdaBoostM 1的表現(xiàn).

實驗 5部分同構(gòu)實驗.結(jié)果見表 5部分同構(gòu)指第 1階段的學習算法相同,但第 2階段采用與第 1階段不同的學習算法.從表 5可以看出,在各種實驗中,TPEL的大部分指標值比 NB的要好,尤其是 L3.結(jié)合實驗 4可知,TPEL適用于部分同構(gòu)或完全同構(gòu)方式的集成.

表 5 部分同構(gòu)實驗的結(jié)果Table 5 The experim enta l resu lts of combining part o f the homogeneous classifiers %

實驗 6穩(wěn)定性實驗.包括 4個子實驗.

1)測試對穩(wěn)定性算法 NB的集成情況.在 TPEL中,第 1階段采用 10個 NB,第 2階段采用 NB.

2)測試對穩(wěn)定性算法 k-NN(k=5)的集成情況.在 TPEL中,第 1階段采用 10個k-NN,第 2階段采用NB.

3)測試對不穩(wěn)定性算法 RBF的集成情況.在 TPEL中,第 1階段采用10個 RBFNetwork,第 2階段采用RBFNetwork.

4)測試對不穩(wěn)定算法 J48的集成情況.在 TPEL中,第 1階段采用 10個 J48,第 2階段采用 J48.

4個子實驗的實驗結(jié)果如圖 3所示.

圖 3 TPEL穩(wěn)定性實驗Fig.3 Stability experiment

圖 3(a)、(b)表明,TPEL的結(jié)果與 NB的相當或有提高.這說明,TPEL適用于集成穩(wěn)定算法,不像Bagging,對穩(wěn)定學習算法的集成往往會使性能極大地降低.圖 3(c)顯示 TPEL在 D1、D3數(shù)據(jù)集上比 RBF Network的性能稍差,在 D2上相當,在 D4上比單個 RBFNetwork強許多.圖 3(d)顯示 TPEL在 4個數(shù)據(jù)集上都提高了 J48的性能.說明 TPEL適用于提升不穩(wěn)定性算法的性能.

可見,對穩(wěn)定或不穩(wěn)定算法,用 TPEL集成都能從一定程度上改善分類精度.

實驗 7 時間復雜度實驗.表 6比較了 TPEL與其他算法的時間復雜度.TPEL的訓練時間由 2部分組成,第 1部分來自于直接學習,第 2部分來自于間接學習.本實驗中,TPEL第 1階段集成了 NB、PART、J48、RBF Network;第 2階段則采用 NB.由于第 1階段的訓練可以采用多線程并發(fā)執(zhí)行方式,因此,第 1階段的訓練時間約等于所集成的 4種算法中的最長訓練時間.從表 6可以看出,TPEL的時間比 AdaBoostM1的要短許多.TPEL間接學習的時間非常短(見加號后面的數(shù)字),幾乎可以忽略不計.

上述實驗從各個側(cè)面分析了 TPEL的性能及特點.實驗結(jié)果表明,TPEL是一種有吸引力的集成學習方法.TPEL的優(yōu)勢為:

1)不需要過多地考慮輪數(shù) T的取值大小問題,因為 TPEL受 T的影響不大;

2)實現(xiàn)簡單,訓練時間短;

3)效果明顯;

4)集成函數(shù)的形式并非一成不變,它隨數(shù)據(jù)集及直接和間接學習過程中的學習算法的變化而變化.

表 6 時間復雜度比較結(jié)果Tab le 6 Compared resu lts of time com plexity s

3 結(jié)束語

在集成學習中,集成函數(shù)的形式通常是被事先設(shè)定的,如在 Bagging類或 Boosting類方法中,這往往導致不確定的性能.本文提出了 1種 2階段集成學習的方法,其最大特點是利用學習算法學習集成的預測函數(shù).實驗結(jié)果表明,TPEL受集成的個體分類器個數(shù)的影響甚微;利用 TPEL集成異構(gòu)的多個分類器時效果顯著;利用 TPEL集成同構(gòu)多個分類器時,絕大部分情況下取得了優(yōu)于樸素貝葉斯等算法的結(jié)果;對穩(wěn)定及不穩(wěn)定學習器的集成效果都比較明顯;TPEL具有較低的時間復雜度.

盡管本文只是在 2類文本分類的情況下驗證了算法的性能,但 2類分類是多類分類的基礎(chǔ),不難將TPEL推廣到多類的情況.

[1]蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術(shù)研究進展[J].軟件學報,2006,17(9):1848-1859.SU Jin-shu,ZHANG Bo-feng,XU Xin.Advances in machine learning based text categorization[J].Journal of Software,2006,17(9):1848-1859.(in Chinese)

[2]李文斌,劉椿年,陳嶷瑛.基于混合高斯模型的電子郵件多過濾器融合方法[J].電子學報,2006,34(2):247-251.LIWen-bin,LIU Chun-nian,CHEN Yi-ying.Combining multiple email filters of naive bayes based on GMM[J].Acta Electronica Sinica,2006,34(2):247-251.(in Chinese)

[3]刁力力,胡可云,陸玉昌,等.用 Boosting方法組合增強Stumps進行文本分類[J].軟件學報,2002,13(8):1361-1367.DIAO Li-li,HU Ke-yun,LU Yu-chang,et al.Improved stumps combined by boosting for text categorization[J].Journal of Software,2002,13(8):1361-1367.(in Chinese)

[4]魯湛,丁曉青.基于分類器判決可靠度估計的最優(yōu)線性集成方法[J].計算機學報,2002,25(8):890-895.LU Zhan,DING Xiao-qing.An optimal linear combination method by evaluating the reliability of individual classifiers[J].Chinese Journal of Computers,2002,25(8):890-895.(in Chinese)

[5]李凱,黃厚寬.小規(guī)模數(shù)據(jù)集的神經(jīng)網(wǎng)絡集成算法研究[J].計算機研究與發(fā)展,2006,43(7):1161-1166.LIKai,HUANG Hou-kuan.Study of a neural network ensemble algorithm for small data sets[J].Journal of Computer Research and Development,2006,43(7):1161-1166.(in Chinese)

[6]姜遠,周志華.基于詞頻分類器集成的文本分類方法[J].計算機研究與發(fā)展,2006,43(10):1681-1687.JIANG Yuan,ZHOU Zhi-hua.A text classification method based on term frequency classifier ensemble[J].Journal of Computer Research and Development,2006,43(10):1681-1687.(in Chinese)

[7]周志華,陳世福.神經(jīng)網(wǎng)絡集成[J].計算機學報,2002,25(1):1-8.ZHOU Zhi-hua,CHEN Shi-fu.Neural network ensemble[J].Chinese Journal of Computers,2002,25(1):1-8.(in Chinese)

[8]唐偉,周志華.基于Bagging的選擇性聚類集成[J].軟件學報,2005,16(4):496-502.TANG Wei,ZHOU Zhi-hua.Bagging-based selective clusterensemble[J].Journal of Software,2005,16(4):496-502.(in Chinese)

[9]DIETTERICH T G.Machine learning research:four current directions[J].AIMagazine,1997,18(4):97-136.

[10]ZHOU Zhi-hua,TANGWei.Selective ensemb le of decision trees[C]∥Lecture Notes in Artificial Intelligence.Berlin:Springer,2003,26391:476-483.

[11]ZHONG N,MATSUNAGA T,LI U C N.A text mining agents based architecture for personal e-mail filtering and management[C]∥Lecture Notes in Computer Science.Berlin:Springer,2002:329-336.

[12]樊興華,孫茂松.一種高性能的兩類中文文本分類方法[J].計算機學報,2006,29(1):124-131.FAN Xing-hua,SUN Mao-song.A high performance two-class Chinese text categorization method[J].Chinese Journal of Computers,2006,29(1):124-131.(in Chinese)

[13]BREIMAN L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.

[14]SCHAPIRER E.The strength of weak learn ability[J].Machine Learning,1990,5:197-227.

[15]FREUND Y.Boosting a weak algorithm bymajority[J].Information and Computation,1995,121(2):256-285.

[16]OPITZ D,MACLIN R.Popular ensemble methods:an empirical study[J].Journal of Artificial Intelligence Research,1999,11:169-198.

[17]The University of Waikato.Weka開發(fā)包[DB/OL].(1998-01-02)[2009-11-02].http:∥www.cs.waikato.ac.nz/ml/weka/

[18]ANDROUTSOPOULOS I.PU 1數(shù)據(jù)集 [DB/OL].(2000-03-28)[2010-03-09].http:∥www.aueb.gr/users/ion/publications.html

[19]SAKKISG.Lingspam數(shù)據(jù)集[DB/OL].(2003-05-16)[2010-03-09].http:∥www.aueb.gr/users/ion/publications.html

[20]Apache Software Foundation.Spam Assassin數(shù)據(jù)集[DS/OL].(2002-02-08)[2010-03-09].http:∥spamassassin.apache.org/pub liccorpus/

[21]HEWLETT-PACKARD L.Spambase數(shù)據(jù)集[DB/OL].(1998-06-10)[2010-03-09].http:∥www.ics.uci.edu/～m learn/databases/spambase/

[22]YANG Y,PEDERSEN J O.A comparative study on feature selection in text categorization[C]∥Proc of the 14th International Conference on Machine Learning.[S.l.]:Morgan Kaufmann,1997:412-420.