吳園園,申立勇
(中國科學(xué)院大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 北京 100049) (2017年5月2日收稿; 2017年6月2日收修改稿)
支持向量機(jī)作為一個經(jīng)典的分類方法,在20世紀(jì)90年代中期由Cortes和Vapnik[1]在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上提出。支持向量機(jī)具有很強(qiáng)的泛化能力,能較好地解決局部極小、過學(xué)習(xí)和維數(shù)災(zāi)難等傳統(tǒng)機(jī)器學(xué)習(xí)方法中存在的問題[2]。盡管在很多方面,支持向量機(jī)都具有其他學(xué)習(xí)方法不可比擬的優(yōu)勢,但是它也存在局限性,例如抗躁性差[3]、對不平衡數(shù)據(jù)分類敏感[4]等。傳統(tǒng)支持向量機(jī)等同地對待所有訓(xùn)練樣本點(diǎn),并賦予它們相同的權(quán)值,但是真實(shí)數(shù)據(jù)中經(jīng)常含有噪點(diǎn),不同的訓(xùn)練樣本點(diǎn)對分類面的作用也是不同的,如若不將重要訓(xùn)練樣本與噪點(diǎn)區(qū)分開來,則最終得到的分類面也往往不是真正的最優(yōu)分類面,出現(xiàn)“過學(xué)習(xí)”現(xiàn)象。針對這種情況,研究者提出模糊支持向量機(jī)(FSVM)[5-7],根據(jù)不同訓(xùn)練樣本對分類面的作用,賦予其不同的模糊隸屬度(即權(quán)值),分配給重要樣本更大的隸屬度值,分配給噪點(diǎn)很小的隸屬度值,以減少它們對分類結(jié)果的影響,增加算法的抗噪能力。
雖然模糊支持向量機(jī)降低了噪點(diǎn)對分類結(jié)果的影響,很好地提高了分類器的性能,但其對于不平衡數(shù)據(jù)分類問題依然敏感。當(dāng)數(shù)據(jù)不平衡時,支持向量機(jī)的分類效果不佳,容易將絕大多數(shù)的少數(shù)類分類為多數(shù)類,導(dǎo)致少數(shù)類的分類精度很低。然而,在許多實(shí)際應(yīng)用中,相比于多數(shù)類,少數(shù)類提供的信息往往更加重要,比如在醫(yī)療檢測,如果將一個病人檢測為健康人,從而耽誤了病人的就醫(yī)時間,則會導(dǎo)致非常嚴(yán)重的后果。因此,少數(shù)類的分類精度低是很不理想的結(jié)果。為解決這一問題,國內(nèi)外學(xué)者進(jìn)行了大量研究。其中,欠采樣[8]就是一種解決不平衡數(shù)據(jù)分類問題的有效方法。然而,常用的隨機(jī)欠采樣方法由于其自身的隨機(jī)性和盲目性,容易造成重要樣本信息的丟失,影響分類效果,且分類穩(wěn)定性較差。
針對支持向量機(jī)在不平衡數(shù)據(jù)集上分類效果不理想和算法容易受訓(xùn)練數(shù)據(jù)集中的噪聲影響等問題,本文提出一種基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)。首先通過LOF局部離群點(diǎn)因子[9]和箱線圖[10]的方法刪除訓(xùn)練數(shù)據(jù)集中的噪聲樣本,然后設(shè)置合適的采樣數(shù)目,根據(jù)改進(jìn)的類重疊度對去除噪聲樣本后的數(shù)據(jù)集欠采樣,抽取對分類起關(guān)鍵作用的支持向量,最大限度地維持原有的數(shù)據(jù)分布信息,并且降低數(shù)據(jù)集的不平衡比例,最后將代表每個樣本點(diǎn)重要程度的類重疊度作為隸屬度值,構(gòu)造模糊多類支持向量機(jī)。實(shí)驗(yàn)結(jié)果表明,該算法能夠在保證良好的分類精度的同時,縮減運(yùn)行時間,且其克服了隨機(jī)欠采樣方法容易丟失重要樣本信息和分類結(jié)果不穩(wěn)定的缺點(diǎn)。
目前,針對不平衡數(shù)據(jù)分類的方法可以分為數(shù)據(jù)、算法兩個層面。算法層面主要是對已有算法進(jìn)行改進(jìn),提升算法對少數(shù)類的準(zhǔn)確識別率,如集成學(xué)習(xí)方法、代價敏感算法等。數(shù)據(jù)層面主要是通過重采樣技術(shù),重新構(gòu)造訓(xùn)練數(shù)據(jù)集,從而降低數(shù)據(jù)集的不平衡度。
重采樣技術(shù)主要分為過采樣技術(shù)和欠采樣技術(shù)。過采樣技術(shù)通過一定的方法增加少數(shù)類的樣本數(shù)目,其中比較常用的是隨機(jī)過采樣方法和SMOTE方法[11]。由于新添許多樣本,過采樣技術(shù)容易造成數(shù)據(jù)冗余和分類器過擬合的現(xiàn)象。欠采樣技術(shù)采用某種規(guī)則舍棄部分多數(shù)類樣本,使得多數(shù)類樣本數(shù)目趨近于少數(shù)類樣本數(shù)目。最常用的方法是隨機(jī)欠采樣[12]及其改進(jìn)的欠采樣方法,如Kubat和Matwin[13]的單邊選擇方法,謝紀(jì)剛和裘正定[14]提出的加權(quán)Fisher線性判別方法。欠樣技術(shù)由于刪除了部分多數(shù)類樣本,可能導(dǎo)致分類時數(shù)據(jù)信息的缺失,從而對分類結(jié)果造成一定的影響。
數(shù)據(jù)重采樣技術(shù)的關(guān)鍵在于采用什么樣的采樣方法,能夠最大限度地保留原數(shù)據(jù)集的分布信息,得到具有代表性、對分類起關(guān)鍵作用的樣本集。本文提出一種基于類重疊度的欠采樣技術(shù),抽取對分類起決定性作用的支持向量,較好地維持了原有的數(shù)據(jù)分布,在保證良好的分類精度的基礎(chǔ)上,減小算法的運(yùn)行時間。
在支持向量機(jī)的分類中,并不是所有的樣本都起著相同的作用,支持向量機(jī)算法的最終分類精度是由樣本集中的支持向量決定的。支持向量在整個訓(xùn)練樣本集中所占的比例非常小,在支持向量機(jī)的訓(xùn)練過程中,花費(fèi)大量的時間去訓(xùn)練非支持向量的樣本,將大大增加算法的運(yùn)行成本。鑒于支持向量機(jī)最終是由支持向量決定的,在數(shù)據(jù)預(yù)處理的過程中,從訓(xùn)練樣本集中抽取出支持向量,刪除非支持向量的樣本,對最終的算法模型并不會造成影響,如此可以從樣本集中刪除大量的無用樣本,只余重要樣本,提高算法運(yùn)行效率的同時,降低訓(xùn)練數(shù)據(jù)集的不平衡比例。
由于支持向量機(jī)模型的以上特點(diǎn),且支持向量分布在分類決策面附近,即各類的類重疊區(qū)域,類重疊度越高的訓(xùn)練樣本,成為支持向量的可能性越大,本節(jié)通過對訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理,采用LOF和箱線圖的方法首先去除數(shù)據(jù)集中的噪聲樣本,然后基于類重疊度的思想,選擇性地對訓(xùn)練樣本集進(jìn)行欠采樣,保留對分類起決定性作用的支持向量,刪除對分類沒有作用的非支持向量的樣本。具體為:計算每個訓(xùn)練樣本的類重疊度,并將訓(xùn)練樣本集根據(jù)類重疊度從大到小的順序排列,設(shè)置抽取的樣本數(shù),抽取類重疊度大的部分樣本集作為新的訓(xùn)練樣本集。較之于原數(shù)據(jù)集,新的訓(xùn)練數(shù)據(jù)集在數(shù)據(jù)規(guī)模上大大減小,且數(shù)據(jù)集的不平衡比例也有所降低。
支持向量機(jī)在訓(xùn)練過程中平等地對待所有訓(xùn)練樣本,算法很容易受到噪聲樣本的干擾,使得分類結(jié)果產(chǎn)生偏差。在不平衡數(shù)據(jù)分類中,雖然在數(shù)據(jù)預(yù)處理的過程中,對數(shù)據(jù)集欠采樣能夠抑制不平衡數(shù)據(jù)對分類的影響,但支持向量機(jī)仍然會受到噪聲樣本的干擾。所以,在對不平衡數(shù)據(jù)集欠采樣處理前,首先應(yīng)該去除數(shù)據(jù)集中的噪聲樣本。本節(jié)采用LOF局部離群點(diǎn)因子[9]和箱線圖[10]去除噪聲樣本。
LOF局部離群點(diǎn)因子表示數(shù)據(jù)對象的離群程度,數(shù)據(jù)對象的LOF局部離群點(diǎn)因子越大,則該數(shù)據(jù)對象的離群程度越高,越有可能是噪聲樣本?;诖怂枷耄梢杂嬎愠雒總€訓(xùn)練樣本點(diǎn)的局部離群點(diǎn)因子LOF,然后采用箱線圖的方法,剔除訓(xùn)練數(shù)據(jù)集中LOF過大的一些樣本。
箱線圖方法中,超過內(nèi)欄的值被認(rèn)為是潛在的異常值,代表相對稀有的樣本點(diǎn)。為了去除數(shù)據(jù)集中的噪聲樣本,結(jié)合局部離群點(diǎn)因子LOF的特性,通過對訓(xùn)練數(shù)據(jù)集的局部離群點(diǎn)因子作箱線圖,剔除離群點(diǎn)因子超過箱線圖的上內(nèi)欄的部分樣本集,這些樣本的離群點(diǎn)因子過大,是噪聲樣本的可能性很大。
綜上,本節(jié)提出一種基于LOF和箱線圖的去噪算法,算法如表1所示。
表1 基于LOF和箱線圖的去噪算法
欠采樣方法容易刪除重要的數(shù)據(jù)樣本,造成分類結(jié)果的偏差,而對于支持向量機(jī)而言,其最終的分類精度是由訓(xùn)練數(shù)據(jù)集中的支持向量決定的,所以如何抽取訓(xùn)練數(shù)據(jù)集中的支持向量是基于支持向量機(jī)的欠采樣方法的關(guān)鍵。支持向量分布在分類決策面附近,即各類的類重疊區(qū)域,類重疊度越高的訓(xùn)練樣本,成為支持向量的可能性越大,它的重要程度也越高。基于此,本文根據(jù)各訓(xùn)練樣本點(diǎn)的類重疊度,選擇性地對訓(xùn)練數(shù)據(jù)集進(jìn)行欠采樣,保留對分類起決定性作用的支持向量,刪除對分類沒有作用的訓(xùn)練樣本。
文獻(xiàn)[15]定義類(Cp,Cq)在數(shù)據(jù)點(diǎn)xi處的重疊度:
(1)
圖1 類重疊度圖Fig.1 Class overlap
基于上述觀察,本文改進(jìn)類重疊度公式為
(2)
對于多分類的情況,定義每個訓(xùn)練樣本點(diǎn)的類重疊度為該點(diǎn)所屬類分別與其他各類在該點(diǎn)的類重疊度的均值。假設(shè)訓(xùn)練樣本有k個類,分別是C1,C2,…,Ck,樣本點(diǎn)xi屬于其中一個類Cp,定義xi的k類重疊度為xi的所屬類Cp分別與其他各類在xi處的二類重疊度的均值,即
(3)
然而,式(3)仍存在一定局限性,如圖2所示,A點(diǎn)屬于類Cp,用紅色的三角形表示,B點(diǎn)屬于類Cq,用綠色的三角形表示,它們都處于兩類的重疊區(qū)域中,且它們與兩類的類中心距離分別相等。如果按照式(3)計算,類Cp和類Cq在A點(diǎn)和B點(diǎn)的類重疊度相等。但是由圖2可以看出:A點(diǎn)的10個最近鄰點(diǎn)中有5個屬于自己類,另5個屬于類Cq;B點(diǎn)的10個最近鄰點(diǎn)中卻有7個都是屬于自己類,只有3個屬于類Cp,容易得到類Cp和類Cq在A點(diǎn)的類重疊度應(yīng)比B點(diǎn)更大。由此,啟發(fā)我們可以用訓(xùn)練樣本點(diǎn)的K個近鄰樣本中異類樣本所占的比例來反映該點(diǎn)的類重疊度。所以,對于k類分類,進(jìn)一步改進(jìn)類重疊度公式為
(4)
式中:K表示K個近鄰樣本點(diǎn);Ki表示第i個樣本點(diǎn)的K個近鄰樣本中異類樣本數(shù)。
圖2 不同點(diǎn)的類重疊度Fig.2 Class overlap for different points
綜上,本節(jié)基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理的算法,具體描述如表2所示。
表2 基于LOF去噪和類重疊度欠采樣的非平衡 數(shù)據(jù)預(yù)處理算法
傳統(tǒng)的支持向量機(jī)等同地對待所有的訓(xùn)練樣本點(diǎn),對所有錯分的訓(xùn)練樣本點(diǎn)分配相同的權(quán)重。然而,在實(shí)際應(yīng)用中,數(shù)據(jù)集中的不同樣本點(diǎn)對分類產(chǎn)生的作用是不同的,因此一個合理的做法是根據(jù)各訓(xùn)練樣本點(diǎn)的重要性,為每個訓(xùn)練樣本點(diǎn)分配不同的權(quán)值。第2節(jié)提出的基于LOF去噪和類重疊度欠采樣的預(yù)處理算法,可以有效地刪除噪聲樣本和冗余樣本,保留支持向量,數(shù)據(jù)集的不平衡比例也明顯降低。預(yù)處理過后的數(shù)據(jù)集中每個樣本點(diǎn)的類重疊度代表著該樣本點(diǎn)的重要程度,以相應(yīng)的類重疊度作為隸屬度值,構(gòu)造模糊多類支持向量機(jī)。
對于k類分類,給定一個帶有類別標(biāo)記以及模糊隸屬度的訓(xùn)練樣本集S={(xi,yi,ui),i=1,2,…,N}。式中:xi∈Rn是訓(xùn)練樣本集;yi∈{1,2,…,k}是對應(yīng)的類別標(biāo)記;ui=μk(xi)為第i個樣本的改進(jìn)后的類重疊度,見公式(4)。則基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)模型如下(以Crammer-Singers直接多分類算法[16]為基礎(chǔ)模型)
(5)
subject to
εi≥0,(i=1,…,N)
wi∈Rn+1,(i=1,…,k).
式中:λ>0是一個調(diào)節(jié)因子,類似于標(biāo)準(zhǔn)支持向量機(jī)中的參數(shù)C;ε=[ε1,ε2,…,εN]表示松弛變量。
由式(5)可以看出,每個樣本點(diǎn)xi的錯分代價為uiεi,模糊隸屬度ui越小,則損失參數(shù)εi對目標(biāo)函數(shù)值的影響越小,所對應(yīng)的樣本點(diǎn)xi越不重要。
綜上,基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)的具體算法描述,如表3所示。
表3 基于LOF去噪和類重疊度欠采樣的 不平衡模糊多類支持向量機(jī)算法
為了驗(yàn)證本文方法的有效性和普適性,本節(jié)實(shí)驗(yàn)由模擬數(shù)據(jù)實(shí)驗(yàn)和實(shí)際數(shù)據(jù)實(shí)驗(yàn)兩部分組成。實(shí)驗(yàn)在2.4 GHz/8 GB的PC主機(jī)上利用Matlab R2015軟件實(shí)現(xiàn),所有數(shù)值實(shí)驗(yàn)以Crammer-Singers直接多分類支持向量機(jī)作為基礎(chǔ)模型。
為了驗(yàn)證基于LOF去噪和類重疊度欠采樣的不平衡數(shù)據(jù)預(yù)處理算法的有效性,本節(jié)將在一個不平衡的模擬數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并根據(jù)模擬實(shí)驗(yàn)結(jié)果,分析上述預(yù)處理算法的有效性。
隨機(jī)生成3類正態(tài)分布的數(shù)據(jù)集,其中類1為均值為[2,2],方差為[0.2,0;0,0.3]的樣本集,共50個樣本點(diǎn);類2為均值為[3.5,2],方差為[0.3,0;0,0.4]的樣本集,共100個樣本點(diǎn);類3為均值為[2.8,3.8],方差為[0.4,0;0,0.5]的樣本集,共200個樣本點(diǎn)。為了驗(yàn)證提出的預(yù)處理算法的去噪能力以及更符合實(shí)際應(yīng)用情況,在[0,5]×[0,6]范圍內(nèi)隨機(jī)產(chǎn)生50個噪聲樣本。加上噪聲樣本,總的模擬數(shù)據(jù)集共400個樣本。設(shè)置預(yù)抽取的樣本數(shù)為200。
對以上含噪聲的模擬數(shù)據(jù),進(jìn)行基于LOF去噪和類重疊度欠采樣的不平衡數(shù)據(jù)預(yù)處理,結(jié)果如圖3所示。為方便區(qū)別,在下面所有圖中,類1中的樣本由“*”表示,類2中的樣本由“+”表示,類3中的樣本由“o”表示,噪聲樣本由“Δ”表示。
圖3為上述非平衡數(shù)據(jù)預(yù)處理算法在加噪后的3類正態(tài)分布的數(shù)據(jù)集上的分段處理效果圖。圖3(a)顯示原有的正態(tài)分布的數(shù)據(jù)集,共350個樣本點(diǎn)。圖3(b)是在原有數(shù)據(jù)集中增加50個噪聲樣本后的數(shù)據(jù)集分布,可以看出,增加噪聲樣本后的數(shù)據(jù)集的分布比較復(fù)雜,如果直接以這樣的數(shù)據(jù)集進(jìn)行分類,將嚴(yán)重影響分類結(jié)果。圖3(c)是經(jīng)過LOF和箱線圖去除噪聲樣本后的數(shù)據(jù)集,剔除42個噪聲樣本,剩余358個樣本點(diǎn),由圖可以看出,經(jīng)過去噪后的數(shù)據(jù)集,噪聲樣本明顯減少,數(shù)據(jù)集分布較為明晰。圖3(d)是在去噪后的數(shù)據(jù)集中基于類重疊度由大到小的順序抽取的200個數(shù)據(jù)集,即預(yù)處理過后的數(shù)據(jù)集,由圖可以看出,樣本數(shù)量明顯減少,但是縮減過后的數(shù)據(jù)集依然較好地保留了原有的數(shù)據(jù)分布,尤其在分類決策面附近對分類起著關(guān)鍵作用的支持向量得到了比較好的保留,且數(shù)據(jù)集的不平衡比例經(jīng)過欠采樣后也明顯地降低,由1∶2∶4降低至1∶2.30∶2.76,剔除了多數(shù)類中的大量冗余樣本。
圖3 非平衡數(shù)據(jù)預(yù)處理算法的模擬實(shí)驗(yàn)結(jié)果Fig.3 Simulation results of imbalanced data preprocessing algorithm
1)評價準(zhǔn)則
對于不平衡數(shù)據(jù)分類問題,常用的評價指標(biāo)有AvgAcc,G-mean[17]等。假設(shè)k類分類,Acci表示第i類的分類精度,則AvgAcc是各類分類精度的算術(shù)平均值,G-mean是各類分類精度的幾何平均值,計算方法如下:
2)實(shí)驗(yàn)數(shù)據(jù)
本次實(shí)驗(yàn)選用UCI數(shù)據(jù)庫中4個UCI數(shù)據(jù)集,數(shù)據(jù)集具體參數(shù)見表4,其中不平衡率為各類別的樣本數(shù)量與最小類的樣本數(shù)量的不平衡比例。
實(shí)驗(yàn)中,除User數(shù)據(jù)集自帶訓(xùn)練集和測試集,其他每個數(shù)據(jù)采用5折交叉檢驗(yàn),并取5次結(jié)果的均值作為最終結(jié)果。由于Ecoli和Glass數(shù)據(jù)集中某些類的樣本數(shù)量較少,并不適用于5折交叉檢驗(yàn),所以實(shí)驗(yàn)將Ecoli中原樣本數(shù)量分別為
表4 UCI數(shù)據(jù)集及相關(guān)屬性
2,2,5,20的4類合并為一類,將Glass中原樣本數(shù)量分別為9,13,17的3類合并為一類。
3)實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果如表5、表6所示,表5顯示算法中每個數(shù)據(jù)集的實(shí)際樣本數(shù)和算法預(yù)抽取的樣本數(shù),表6列出各方法在不平衡數(shù)據(jù)集上分類精度和運(yùn)行時間的比較結(jié)果。其中,CMSVMsuiji表示隨機(jī)欠采樣的支持向量機(jī)。
表5 實(shí)驗(yàn)中各數(shù)據(jù)集抽取樣本數(shù)
表5顯示,抽取的樣本集只占原數(shù)據(jù)集的一小部分。由表6的實(shí)驗(yàn)結(jié)果可以看出,就運(yùn)行時間而言,由于訓(xùn)練樣本數(shù)的減少,本文算法和隨機(jī)欠采樣支持向量機(jī)在運(yùn)行時間上要小于其他算法。此外,因?yàn)楸疚乃惴ㄐ枰嬎忝總€樣本點(diǎn)的LOF局部離群點(diǎn)因子和類重疊度,所以在運(yùn)行時間上會略高于隨機(jī)欠采樣的支持向量機(jī)。比如在Balance數(shù)據(jù)集上,本文方法運(yùn)行時間是105 s,隨機(jī)欠采樣的支持向量機(jī)的運(yùn)行時間是42 s,但其他方法的最少運(yùn)行時間是112 s,本文方法的運(yùn)行時間要高于隨機(jī)欠采樣的支持向量機(jī)的運(yùn)行時間,但要低于其他方法的運(yùn)行時間。就分類精度而言,除在Glass數(shù)據(jù)集上,本文算法的精度以微小的差距低于一些算法,其他數(shù)據(jù)集上,本文算法的分類精度均要優(yōu)于其他算法。如在Balance數(shù)據(jù)集中,就AvgAcc評價準(zhǔn)則,本文方法的分類精度為0.87,其他方法的最高分類精度為0.85,本文方法要高于其他方法,就G-mean評價準(zhǔn)則,本文方法的分類精度為0.85,其他方法的最高分類精度為0.72,本文方法要高于其他方法。就實(shí)驗(yàn)結(jié)果的穩(wěn)定性而言,同樣是抽取相同數(shù)目的訓(xùn)練樣本,本文算法是根據(jù)訓(xùn)練數(shù)據(jù)集的類重疊度由大至小抽取樣本集,實(shí)驗(yàn)結(jié)果是固定的,然而對于隨機(jī)欠采樣的支持向量機(jī),由于每次隨機(jī)采樣的訓(xùn)練樣本集可能不同,實(shí)驗(yàn)結(jié)果也不穩(wěn)定。綜上,對于相同的數(shù)據(jù)集,本文提出的算法在運(yùn)行時間上僅次于隨機(jī)欠采樣支持向量機(jī);在分類精度上要高于其他算法;而且本文算法還克服了隨機(jī)欠采樣的支持向量機(jī)的實(shí)驗(yàn)結(jié)果不穩(wěn)定的缺點(diǎn)。
表6 實(shí)驗(yàn)結(jié)果
針對支持向量機(jī)在不平衡數(shù)據(jù)集上分類效果并不理想且對噪聲數(shù)據(jù)敏感的問題,本文提出基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)算法,首先對數(shù)據(jù)集進(jìn)行預(yù)處理,采用LOF局部離群點(diǎn)因子和箱線圖結(jié)合的方法刪除訓(xùn)練數(shù)據(jù)集中的噪聲樣本,然后設(shè)置合適的采樣數(shù)目,根據(jù)類重疊度抽取對分類起關(guān)鍵作用的支持向量。預(yù)處理過后的數(shù)據(jù)集最大限度地維持了原有的數(shù)據(jù)分布信息,并且降低了原數(shù)據(jù)集的不平衡比例。算法最后將代表每個樣本點(diǎn)的重要程度的類重疊度作為隸屬度值,構(gòu)造模糊多類支持向量機(jī)。由于算法是基于類重疊度對訓(xùn)練數(shù)據(jù)集進(jìn)行欠采樣,支持向量等重要樣本被較好地保留下來,且只要設(shè)定固定的抽樣數(shù)目,則實(shí)驗(yàn)結(jié)果便是固定的,所以該算法克服了隨機(jī)欠采樣方法容易丟失重要樣本信息和實(shí)驗(yàn)結(jié)果不穩(wěn)定的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該算法在能夠很好地提升支持向量機(jī)在不平衡且含噪聲的數(shù)據(jù)集上的分類精度的同時,縮減算法的運(yùn)行時間。