亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于半監(jiān)督學(xué)習(xí)的非平衡分類算法

2013-12-09 02:09:36武永成

湖北民族大學(xué)學(xué)報(自然科學(xué)版) 2013年4期

武永成

(荊楚理工學(xué)院計算機工程學(xué)院，湖北荊門448000)

在利用監(jiān)督學(xué)習(xí)(supervised learning)進(jìn)行分類時，往往需要大量的有標(biāo)注(label)(即分類類型)的樣例(labeled instances)，才能得到準(zhǔn)確率高的分類模型(classifier)．現(xiàn)實世界中，通常存在大量的未標(biāo)注樣例(unlabeled instances)，而有標(biāo)注樣例則往往較少．例如在計算機輔助醫(yī)學(xué)圖像分析中，可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練例，但如果要求醫(yī)學(xué)專家把這些圖像中的病灶都標(biāo)注出來，則要付出大量的時間和精力，這往往是不現(xiàn)實的．為了綜合利用有限的有標(biāo)注樣例和大量的未標(biāo)注樣例，各種半監(jiān)督學(xué)習(xí)方法(semisupervised learning)被提出，并取得較好的效果［1－2］．但現(xiàn)存的這些半監(jiān)督學(xué)習(xí)方法都假定樣例數(shù)據(jù)(包括有標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù))都是均衡的，即標(biāo)注的分布是均衡的．現(xiàn)實世界中，很多情況下，樣例數(shù)據(jù)是不均衡的．例如:在1 000 個體檢數(shù)據(jù)集中，最終分類類型為健康的可能占90%，分類類型為不健康的可能為10%，標(biāo)注的分布就不是均衡的了．本研究中，為便于敘述，將一個數(shù)據(jù)集中大多數(shù)的樣例都屬于的分類類型稱為MA，而剩余的樣例的分類類型稱為MI．對于非平衡數(shù)據(jù)的分類(imbalanced classification)，半監(jiān)督學(xué)習(xí)最大的問題是:最終得到的分類模型可能只對MA 數(shù)據(jù)敏感，而忽略MI 數(shù)據(jù)．在對測試數(shù)據(jù)進(jìn)行分類預(yù)測時，容易將樣例分類為MA 而忽略MI．

針對非平衡數(shù)據(jù)的分類，在監(jiān)督學(xué)習(xí)中，主要采用的是重取樣(re－sampling)［3］和代價敏感(cost－sensitive learning)［4］的方法．

本研究的貢獻(xiàn)在于:①對監(jiān)督學(xué)習(xí)中的重取樣技術(shù)進(jìn)行擴展，使其應(yīng)用到半監(jiān)督學(xué)習(xí)中;②通過隨機動態(tài)生成樣例特征子空間(random feature subspace)，提供半監(jiān)督學(xué)習(xí)的協(xié)同訓(xùn)練［5］(co－training)所需的不同的視圖(view)．在4 個相關(guān)數(shù)據(jù)集上的試驗驗證了本方法的有效性．

1 相關(guān)工作

1．1 基于半監(jiān)督學(xué)習(xí)的分類

機器學(xué)習(xí)的分類問題中，給定一個樣例集合D={＜x1，y1＞，…＜xn，yn＞}∈X×Y，其中＜xi，yi＞是一個樣例．xi是一個向量［xi1，…xim］，yi是該樣例的標(biāo)注(或分類類型)．X、Y分別是xi，yi的取值范圍．＜x1，?＞是未標(biāo)注樣例，＜x1，y1＞是有標(biāo)注樣例．

協(xié)同訓(xùn)練是當(dāng)前最流行的一種半監(jiān)督學(xué)習(xí)風(fēng)范［5］．它假設(shè)數(shù)據(jù)集有兩個充分冗余(sufficient and redundant)的視圖(view)．在這兩個視圖上利用有標(biāo)記示例分別訓(xùn)練出一個分類器，然后，在協(xié)同訓(xùn)練過程中，每個分類器從未標(biāo)注示例中挑選出若干分類置信度較高的示例進(jìn)行標(biāo)注，并把標(biāo)注后的示例加入另一個分類器的有標(biāo)注訓(xùn)練集中．協(xié)同訓(xùn)練的目的是，通過相互提供未知的信息，使得兩個分類器的準(zhǔn)確性都得以提高．

協(xié)同訓(xùn)練的關(guān)鍵是找到同一數(shù)據(jù)集的不同的視圖．本文通過隨機動態(tài)生成樣例特征子空間的方法［6］，在同一數(shù)據(jù)集上，產(chǎn)生多個視圖．

1．2 非平衡分類

非平衡分類問題，作為一個具有挑戰(zhàn)性的機器學(xué)習(xí)問題，近些年在多個領(lǐng)域被廣泛研究．如:機器學(xué)習(xí)領(lǐng)域、數(shù)據(jù)挖掘領(lǐng)域和算法領(lǐng)域．其中使用的最重要的技術(shù)是:重取樣技術(shù)和代價敏感學(xué)習(xí)技術(shù)．重取樣技術(shù)又分為增重取樣(over－sampling)［3］和減重取樣(under－sampling)［7］兩種方法．增重取樣技術(shù)通過復(fù)制MI 樣本來使得它和MA 的樣本數(shù)達(dá)到平衡．減重取樣技術(shù)則通過刪除一定的MA 樣本使它與MI 的樣本數(shù)達(dá)到平衡．本文采用減重取樣技術(shù)來處理非平衡分類問題．

2 基于半監(jiān)督學(xué)習(xí)的非平衡分類算法

采用半監(jiān)督學(xué)習(xí)中最流行的協(xié)同訓(xùn)練方法．對于協(xié)同訓(xùn)練所需的同一數(shù)據(jù)集上的不同視圖，本文采用隨機動態(tài)特征子空間的產(chǎn)生辦法．

2．1 動態(tài)子空間的產(chǎn)生

動態(tài)子空間產(chǎn)生(Random Subspace Generation，RSG)是一種集成(ensemble)技術(shù)［6］．如本文1．1 所述，對于樣例集合D 中的每個樣例＜xi，yi＞，xi是一個m維向量［xi1，xi2，…，xim］，即樣例由m個特征來描述．從m個特征中，RSG 隨機的選取r(m＞r)個特征，組成一個r維的特征子空間．通過這種方式，就產(chǎn)生了一個r維的訓(xùn)練樣例集合Ds={＜x1s，y1＞，＜x2s，y2＞，…＜xns，yn＞}∈X×Y，其中＜xis，yi＞的xis是r維的向量．

文中，r=m/2．在得到的兩個m/2 維數(shù)據(jù)集上，分別訓(xùn)練，生成兩個子空間分類器，為協(xié)同訓(xùn)練做準(zhǔn)備．

2．2 基于半監(jiān)督學(xué)習(xí)的非平衡分類算法

如1．2 節(jié)所述，本文采用減重取樣技術(shù)來處理非平衡分類問題．通過減重取樣技術(shù)得到平衡的訓(xùn)練數(shù)據(jù)集后，采用動態(tài)子空間產(chǎn)生方法，生成兩個m/2 維數(shù)據(jù)集．在這兩個數(shù)據(jù)集上，訓(xùn)練生成協(xié)同訓(xùn)練所需的兩個子空間分類器．這里存在一個問題:由于采用減重取樣技術(shù)，使得大量MA樣本被舍棄，而這些MA樣本中可能蘊含很多重要的信息．為充分利用這些信息，循環(huán)地利用減重取樣技術(shù)，生成多個平衡的樣本集合．在每個平衡的樣本集合上，再采用采用動態(tài)子空間產(chǎn)生方法，生成兩個m/2 維數(shù)據(jù)集，訓(xùn)練生成兩個子空間分類器．本文提出的基于半監(jiān)督學(xué)習(xí)的非平衡分類算法，完整描述如算法1 所示．

算法1 基于半監(jiān)督學(xué)習(xí)的非平衡分類算法(Algorithm 1 An imbalanced classification algorithm based on semi－supervised learning)

5 for j=1 to K do 6 在全部特征空間上，隨機產(chǎn)生兩個特征子空間;7 在第j 個平衡的樣例集合上，在隨機產(chǎn)生的兩個特征子空間上，訓(xùn)練生成兩個分類器Ci1 和Ci2;8 利用Ci1 和Ci2，對未標(biāo)注樣例集合U 進(jìn)行分類，并選取分類置信度最高的一個MA 類型樣本和一個MI 類型的樣本，將它們加入B 中;9 end for 10 將集合B 中樣例分別加入K 個平衡的樣例集合中;11 A=A ∪B ;12 end for

3 試驗結(jié)果與分析

試驗中用到4 個數(shù)據(jù)集［8］．?dāng)?shù)據(jù)集的相關(guān)信息如表1 所示．從表可以看出，每個數(shù)據(jù)集都是非平衡的，MA類型的樣例和MI類型的樣例的個數(shù)的比(K=(int)n+/ n－)最小為3，最大為8．

對于每個數(shù)據(jù)集，先隨機選取100 個MI樣例數(shù)據(jù)，然后選取K* 100 個MA樣例數(shù)據(jù)，形成有標(biāo)注樣例集合L．在隨機選取400個MA數(shù)據(jù)和400 個MI數(shù)據(jù)作為測試數(shù)據(jù);最后剩余的樣例數(shù)據(jù)，去掉它們的分類類型，讓它們組成未標(biāo)注樣例集合U．

由于數(shù)據(jù)的非平衡性，最終對算法的評價不能采用常用的分類預(yù)測正確率評價方法．為此，本文采用了一種流行的G－mean 方法［9］．該方法中其中TPrate=TP/(TP+FN)，TNrate=TN(TN+FP)．TP指樣例本身標(biāo)注為MA且被分類預(yù)測也是MA，F(xiàn)N指樣例本身標(biāo)注為MA但被分類預(yù)測為MI，TN指本身標(biāo)注為MI且被分類預(yù)測也是MI，F(xiàn)P指樣例本身標(biāo)注為MI但被分類預(yù)測為MA．

表1 試驗中用到的數(shù)據(jù)集(Table 1 Experimental data sets)

為驗證本算法的有效性，與另一基礎(chǔ)算法做了比較．該基礎(chǔ)算法的特征子空間是靜態(tài)的，其余部分與本算法相同．試驗結(jié)果如圖1 所示．圖中Ours 代表本文提出的算法．Static 代表基礎(chǔ)算法．從圖看看出，在4 個數(shù)據(jù)集上，本研究中的算法都優(yōu)于Static 基礎(chǔ)算法．

圖1 比較Ours 和Static 在不同數(shù)據(jù)集上的分類正確率Fig．1 Classification accuracy on different data sets

4 結(jié)語

本文對基于半監(jiān)督學(xué)習(xí)的非平衡分類問題進(jìn)行了研究．首先采用減重取樣技術(shù)對原始非平衡數(shù)據(jù)進(jìn)行處理，得到多個平衡的數(shù)據(jù)集．然后在每個平衡的數(shù)據(jù)集上，采用動態(tài)子空間產(chǎn)生方法，生成同一數(shù)據(jù)集的兩個不同視圖，從而利于半監(jiān)督學(xué)習(xí)進(jìn)行學(xué)習(xí)訓(xùn)練．試驗表明該方法優(yōu)于靜態(tài)的子空間的產(chǎn)生辦法．在協(xié)同訓(xùn)練的過程中，循環(huán)的次數(shù)是根據(jù)實驗經(jīng)驗事先確定的．如何設(shè)定一個循環(huán)終止的條件，讓算法自動確定循環(huán)的次數(shù)，是需要繼續(xù)研究的問題．

［1］ Cohen I，Cozman F G，Sebe N，et al．Semi－supervised learning of classifiers:theory，algorithm，and their application to human－computer interaction［C］//IEEE Trans．Pattern Anal．Mach． Intell，2004，26(12):553－567．

［2］ Zhu X．Semi－Supervised Learning Literature Survey［R］．Computer Sciences Technical Report，University of Wisconsin，Madison，2006．

［3］ Chawla N，Bowyer K，Hall L．SMOTE:Synthetic Minority Over－Sampling Technique［J］．Journal of Artificial Intelligence Research，2002(16):321－357．

［4］ Zhou Z，Liu X．Training Cost－Sensitive Neural Networks with Methods Addressing the Class Imbalance Problem［C］//IEEE Transaction on Knowledge and Data Engineering，2006(18):63－77．

［5］周志華．半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法［C］//周志華，王玨．機器學(xué)習(xí)及其應(yīng)用．北京:清華大學(xué)出版社，2007:259－275．

［6］ Ho T．The Random Subspace Method for Constructing Decision Forests［C］//IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20(8):832－844．

［7］ Barandela R，Sánchez J，García V，et al．Strategies for Learning in Class Imbalance Problems［J］．Pattern Recognition，2003(36):849－851．

［8］ Multi－domain sentiment dataset v2．0［Z］．(2009－03－23)［2013－10－10］http://www．seas．upenn．edu/～mdredze/datasets/sentiment/．

［9］ Kubat M，Matwin S．Addressing the Curse of Imbalanced Training Sets:One－Sided Selection［C］．In Proceedings of ICML－97，1997:179－186．