王 曉 波(天津大學(xué) 理學(xué)院,天津300072)
?
基于可信點(diǎn)的聯(lián)合半監(jiān)督學(xué)習(xí)
王 曉 波(天津大學(xué) 理學(xué)院,天津300072)
摘要:在半監(jiān)督分類問(wèn)題中,某些無(wú)標(biāo)簽的數(shù)據(jù)點(diǎn)很有可能屬于某一特定的類,則這些點(diǎn)可被信任,應(yīng)當(dāng)被充分地利用去幫助學(xué)習(xí)正確的分類界面,從而提升圖像分類的效果.因此,如何區(qū)分出可信點(diǎn)在半監(jiān)督分類問(wèn)題中顯得尤為重要.針對(duì)該問(wèn)題,提出一種聯(lián)合的半監(jiān)督學(xué)習(xí)方法,可以自適應(yīng)地區(qū)分可信點(diǎn),并且提出了相應(yīng)的迭代優(yōu)化分類器和可信點(diǎn)標(biāo)簽矩陣的算法,把分類器的歸納能力和無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽直推化能力融合到了一個(gè)框架中,不需要額外的步驟去預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽.在兩個(gè)人臉數(shù)據(jù)庫(kù)中大量實(shí)驗(yàn)驗(yàn)證了所提方法的可行性和有效性.
關(guān)鍵詞:聯(lián)合半監(jiān)督學(xué)習(xí);圖像分類;可信點(diǎn)
研究有效的算法去實(shí)現(xiàn)圖像分類是計(jì)算機(jī)視覺(jué)的一大熱點(diǎn).監(jiān)督分類系統(tǒng)[1-2]依賴手工標(biāo)注的帶標(biāo)簽的數(shù)據(jù)特別耗費(fèi)人力和財(cái)力,甚至有時(shí)候無(wú)法實(shí)現(xiàn)的.在大部分的情況下,數(shù)據(jù)集中的訓(xùn)練樣本雖然很多,但是帶標(biāo)簽的卻很少.因此,如何充分利用那些無(wú)標(biāo)簽的數(shù)據(jù)就變得非常重要. 近些年提出了大量的半監(jiān)督學(xué)習(xí)方法就是適合這種情況,主要可分為三種類型:直推式學(xué)習(xí)模型[3-6]、歸納式學(xué)習(xí)模型[7-8]和聯(lián)合學(xué)習(xí)模型[9].直推式模型主要是基于標(biāo)簽在圖中的傳播,最優(yōu)的預(yù)測(cè)標(biāo)簽則是標(biāo)簽和圖的結(jié)構(gòu)一致性的最大化.一些代表性的工作包括局部全局一致性(LGC)[4],高斯域調(diào)和函數(shù)(GFHF)[5],局部樣條回歸(LSR)[6]等等.雖然這些方法有理論上的保證,但不能用于預(yù)測(cè)訓(xùn)練樣本之外的測(cè)試集,并且計(jì)算量很大.
歸納式模型利用無(wú)標(biāo)簽的數(shù)據(jù)去正則化分類器(保證分類界面通過(guò)的是數(shù)據(jù)低密度的區(qū)域).學(xué)習(xí)的分類器可用于分類訓(xùn)練樣本中的無(wú)標(biāo)簽數(shù)據(jù)和訓(xùn)練樣本之外的測(cè)試樣本.從以能用于測(cè)試樣本的角度看,歸納式模型在應(yīng)用中更為實(shí)用.一些代表性的方法包括拉普拉斯回歸(LR)[7],彈性流行嵌入(FME)[8],但這些方法需要額外的步驟去預(yù)測(cè)訓(xùn)練樣本中無(wú)標(biāo)簽的數(shù)據(jù)的標(biāo)簽.
聯(lián)合直推式和歸納式模型如ASL[9]同時(shí)學(xué)習(xí)分類器和預(yù)測(cè)訓(xùn)練樣本中無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽.該方法可用于測(cè)試樣本且可擴(kuò)展到大數(shù)據(jù)上,實(shí)驗(yàn)結(jié)果顯示比傳統(tǒng)基于圖的方法更好.但是用所有無(wú)標(biāo)簽的數(shù)據(jù)去精細(xì)分類器一般達(dá)不到最優(yōu)的分類效果.
為了同時(shí)克服以上所有的缺點(diǎn),本文提出了一種新的聯(lián)合半監(jiān)督學(xué)習(xí)模型(簡(jiǎn)記為USSL_CP).該算法融合了三個(gè)優(yōu)點(diǎn):自動(dòng)區(qū)分可信點(diǎn)、自適應(yīng)地優(yōu)化過(guò)程和計(jì)算有效性.
1基于可信點(diǎn)的聯(lián)合半監(jiān)督學(xué)習(xí)
直覺(jué)上,對(duì)于帶標(biāo)簽的數(shù)據(jù),希望學(xué)習(xí)分類器能很好地分開(kāi)它們.即對(duì)于帶標(biāo)簽的訓(xùn)練樣本xi,其分類錯(cuò)誤[公式(1)]應(yīng)該很小.其中Xl∈Rd×nl是帶標(biāo)簽的訓(xùn)練樣本矩陣,Yl∈Rn1×C是標(biāo)簽矩陣,W∈Rd×C是要學(xué)習(xí)的分類器的參數(shù)矩陣,
(1)
b∈RC×1是偏差.1nl是nl維元素為1的列向量.
(2)
其中:P∈Rnu×c是Pjk形成的無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽概率矩陣.tk∈Rc×1則是第k類別標(biāo)簽的指示向量.
最后基于可信點(diǎn)的聯(lián)合半監(jiān)督學(xué)習(xí)模型為:
minW,b,PJl(W,b)+Ju(W,b,P)
(3)
2優(yōu)化算法過(guò)程
(4)
2) 固定無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽概率矩陣P,優(yōu)化模型參數(shù)W 和 b.將目標(biāo)方程(3)重新寫成一種緊致的矩陣形式:
(5)
目標(biāo)函數(shù)(5)關(guān)于b求偏導(dǎo)為0,可得:
(6)
目標(biāo)函數(shù)(5)關(guān)于W求偏導(dǎo)為0, 可得:
W=C-1A.
(7)
其中
為了使整個(gè)算法更為清晰,總結(jié)為算法1. 兩步交替地迭代優(yōu)化模型可知分類器的歸納能力受標(biāo)簽概率矩陣的影響,同時(shí)無(wú)標(biāo)簽數(shù)據(jù)的直推能力又取決于分類器.
算法 1:基于可信點(diǎn)聯(lián)合半監(jiān)督學(xué)習(xí) (USSL_CP)
各參數(shù)的初始值Winit,binit,σinit,θinit.
Fort (10) 1)公式(4)更新無(wú)標(biāo)簽數(shù)據(jù)的概率矩陣P 2)公式(7)和(6)更新分類器參數(shù)W和b end 輸出:分類器參數(shù)W和b, 概率矩陣P. 3實(shí)驗(yàn) 3.1數(shù)據(jù)集的描述 為了評(píng)價(jià)本文提出的聯(lián)合半監(jiān)督學(xué)習(xí)方法的有效性,分別在ORL數(shù)據(jù)庫(kù)[10],和YALE-B數(shù)據(jù)庫(kù)[11]兩個(gè)數(shù)據(jù)庫(kù)上做了相應(yīng)的實(shí)驗(yàn).兩個(gè)數(shù)據(jù)庫(kù)都是相應(yīng)的人臉數(shù)據(jù)庫(kù),將原始的灰度圖像用PCA進(jìn)行降維.重要的數(shù)據(jù)指標(biāo)如表1所示. 表1數(shù)據(jù)集描述 #樣本個(gè)數(shù)#特征維數(shù)#類數(shù)ORL40064440Yale-B2414102438 3.2實(shí)驗(yàn)設(shè)置 為評(píng)價(jià)本文提出的聯(lián)合半監(jiān)督學(xué)習(xí)方法的可行性和有效性,實(shí)驗(yàn)比較了最具代表性的直推式半監(jiān)督學(xué)習(xí)方法高斯域調(diào)和函數(shù)(GFHF)[5]和最具代表性的歸納式半監(jiān)督學(xué)習(xí)方法拉普拉斯回歸(LapReg)[7],還有最具代表性的聯(lián)合學(xué)習(xí)方法自適應(yīng)的半監(jiān)督學(xué)習(xí)方法(ASL)[9],以及最具代表性的監(jiān)督學(xué)習(xí)方法支持向量機(jī)(SVM)[12]. 實(shí)驗(yàn)重復(fù)10次去計(jì)算平均分類準(zhǔn)確率和標(biāo)準(zhǔn)差以及用不同個(gè)數(shù)的帶標(biāo)簽數(shù)據(jù)來(lái)測(cè)試算法對(duì)帶標(biāo)簽數(shù)據(jù)的敏感性.隨機(jī)從每類選取1,3,5個(gè)帶標(biāo)簽的數(shù)據(jù)點(diǎn),剩余的作為無(wú)標(biāo)簽的數(shù)據(jù).對(duì)于直推式的模型,由于不能用于測(cè)試集的預(yù)測(cè),僅僅計(jì)算其訓(xùn)練樣本中無(wú)標(biāo)簽數(shù)據(jù)的識(shí)別率.對(duì)于歸納式的方法,隨機(jī)選取33%的數(shù)據(jù)做測(cè)試集,其余的樣本隨機(jī)劃分為帶標(biāo)簽的和無(wú)標(biāo)簽的數(shù)據(jù).并計(jì)算了訓(xùn)練樣本中無(wú)標(biāo)簽數(shù)據(jù)的識(shí)別率和測(cè)試集的識(shí)別率. 對(duì)于本文的參數(shù)θ從0~0.1的范圍內(nèi)調(diào)整,每次調(diào)整的步長(zhǎng)0.01.參數(shù)σ從0~1之間調(diào)整,每次調(diào)整的步長(zhǎng)為0.1. SVM則用的是默認(rèn)參數(shù)值, GFHF是無(wú)參的模型,對(duì)于LapReg,兩個(gè)正則化參數(shù)在調(diào)整{10-5,10-4,…,104,105}. 對(duì)于ASL,它的參數(shù)r從1~2 之間調(diào)整,每次調(diào)整的步長(zhǎng)為0.1,報(bào)告的結(jié)果為最佳參數(shù)下所得出的結(jié)果. 表2不同比較方法在ORL數(shù)據(jù)庫(kù)上的平均分類準(zhǔn)確率及偏差 ORLSVMGFHFLapRegASLUSSL_CPkl=1測(cè)試集無(wú)標(biāo)簽64.83±4.1265.50±2.44NA65.87±1.7366.58±3.7466.38±2.3467.50±3.8667.66±1.4071.83±3.0468.00±1.27kl=3測(cè)試集無(wú)標(biāo)簽87.83±2.7386.87±1.53NA85.15±1.7884.53±2.3785.79±2.5488.50±1.0886.00±2.6389.50±1.3987.82±1.67kl=5測(cè)試集無(wú)標(biāo)簽94.16±0.8394.25±1.11NA89.83±2.2690.37±3.0192.01±2.3193.50±0.1892.83±1.3995.00±1.5397.85±1.39 注:kl-每類帶標(biāo)簽的數(shù)據(jù)樣本個(gè)數(shù);NA-不可無(wú)法獲得的結(jié)果 表3不同比較方法在Yale-B數(shù)據(jù)庫(kù)上的平均分類準(zhǔn)確率及偏差 Yale-BSVMGFHFLapRegASLUSSL_CPkl=1測(cè)試集無(wú)標(biāo)簽57.32±4.1056.26±3.59NA45.98±3.3753.34±4.5353.37±4.3259.22±4.6959.38±3.5660.94±3.9261.03±2.73kl=3測(cè)試集無(wú)標(biāo)簽90.36±2.3289.83±2.56NA79.82±1.7991.51±1.6592.83±1.5796.14±1.1696.59±1.8596.69±1.4695.14±1.06kl=5測(cè)試集無(wú)標(biāo)簽98.10±0.7698.29±0.98NA89.96±2.3897.38±1.0598.16±1.0799.00±0.8799.21±0.5399.10±0.6799.340.23 3.3分類性能比較 表2、表3中報(bào)告了不同的算法在兩個(gè)數(shù)據(jù)庫(kù)上的平均識(shí)別率和標(biāo)準(zhǔn)差.從這些表的數(shù)據(jù)可以得出,本文提出的USSL_CP模型優(yōu)于其他的方法.同時(shí)得出當(dāng)帶標(biāo)簽的數(shù)據(jù)量增大的時(shí)候,分類效果也比其他的方法好.特別是當(dāng)每類帶標(biāo)簽數(shù)據(jù)的個(gè)數(shù)從1增加到3時(shí),分類識(shí)別率有明顯地提升. 3.4收斂性 每次迭代都是最小化目標(biāo)函數(shù),即每步迭代的目標(biāo)函數(shù)是減小的,且目標(biāo)函數(shù)值的下界為0,算法是收斂的.在2.60GHz主頻和i5雙核處理器,4 GB的內(nèi)存的臺(tái)式機(jī)上,四個(gè)數(shù)據(jù)庫(kù)上,10步迭代已足夠使得算法收斂穩(wěn)定. 4結(jié)語(yǔ) 本文提出了一種聯(lián)合的半監(jiān)督學(xué)習(xí)模型,可以自適應(yīng)地識(shí)別可信點(diǎn).與以往的聯(lián)合半監(jiān)督學(xué)習(xí)方法相比,該模型不考慮那些起錯(cuò)誤引導(dǎo)作用的無(wú)標(biāo)簽數(shù)據(jù)點(diǎn),而是考慮可信點(diǎn)去幫助學(xué)習(xí)分類界面.從而達(dá)到更好的識(shí)別效果.并且提出了交替迭代優(yōu)化模型參數(shù)和無(wú)標(biāo)簽數(shù)據(jù)的概率標(biāo)簽矩陣,把分類器的歸納能力和無(wú)標(biāo)簽的直推能力融入在一個(gè)框架下,不需要額外的步驟去預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽,并且不需要構(gòu)建拉普拉斯圖矩陣,避免了較大的計(jì)算復(fù)雜度,即在理論上是可以擴(kuò)展到大數(shù)據(jù)庫(kù)上. 參考文獻(xiàn): [1]LAZEBNIK S, SCHMID C, PONCE J. A sparse texture representation using local affine regions [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1265-1278. [2]LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]// New York: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2006, 2: 2169-2178. [3]ZHU X, GOLDBERG A B. Introduction to semi-supervised learning [J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2009, 3(1): 1-130. [4]ZHOU D, BOUSQUET O, LAL T N,etal. Learning with local and global consistency [J]. Advances in neural information processing systems, 2004, 16(16): 321-328. [5]ZHU X, GHAHRAMANI Z, LAFFERTY J. Semi-supervised learning using gaussian fields and harmonic functions[C]//Washington DC: ICML, 2003, 3: 912-919. [6]XIANG S, NIE F, ZHANG C. Semi-supervised classification via local spline regression [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(11): 2039-2053. [7]SINDHWANI V, NIYOGI P, BELKIN M, et al. Linear manifold regularization for large scale semi-supervised learning[C]// Bonn: Proc. of the 22nd ICML Workshop on Learning with Partially Classified Training Data, 2005. 28. [8]NIE F, XU D, TSANG I W H,etal. Flexible manifold embedding: A framework for semi-supervised and unsupervised dimension reduction [J]. IEEE Transactions on Image Processing, 2010, 19(7): 1921-1932. [9]WANG D, NIE F, HUANG H. Large-scale adaptive semi-supervised learning via unified inductive and transductive model[C]// New York: ACM Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data mining, 2014. 482-491. [10]ORL Face Database [DB/OL]. http://www.cam-orl.co.uk/facedatabase.html. [11]Yale Face Database [DB/OL]. http://cvc.yale.edu/projects/yalefaces/yalefaces.html. [12]CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27. Unified semi-supervised learning with confidence points WANG Xiao-bo (School of Science, Tianjin University, Tianjin 300072, China) Abstract:In the question of semi-supervised classification, if data points have high confidence of belonging to a particular class, they should be well utilized for learning the correct classifier and thus can help boost the classification performance. So how to adaptively choose confidence points become very crucial in semi-supervised learning. To address the challenge, this paper proposed a unified semi-supervised learning model, which could adaptively distinguish confidence points, such that our new model is more effective for classification. Moreover, an efficient algorithm was also derived to alternatively optimize the model parameter and confidence matrix of the unlabeled data, such that the induction of classifier and the transduction of labels were unified into a framework, without needing an extra step to predict the label of unlabeled data. Extensive experimental results on two real-world data sets showed that the proposed unified semi-supervised learning model outperforms other related methods in most cases. Key words:unified semi-supervised learning; image classification; confidence points. 中圖分類號(hào):O235 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-0946(2016)01-0067-04 作者簡(jiǎn)介:王曉波(1991-),男,碩士,研究方向:模式識(shí)別、計(jì)算機(jī)視覺(jué). 基金項(xiàng)目:國(guó)家自然科學(xué)基金(61379014) 收稿日期:2015-04-01.