朱昌明 高玉森
摘要:由于受限于人工成本,很多現(xiàn)實世界中的多視角數(shù)據(jù)集是由少量有標簽樣本和大量無標檢樣本組成的。當前傳統(tǒng)的多視角矩陣分類器無法有效處理這類數(shù)據(jù)集。為了處理這個問題,將Universum學習引入多視角矩陣分類器中,提出基于信息增強的多視角矩陣分類器。由于Universum學習可以生成額外的無標簽樣本,這類樣本雖然沒有被指定類別標簽,但是包含了部分有標簽樣本的信息,所以Universum學習可以增強有效樣本信息。實驗表明,相比于傳統(tǒng)的多視角矩陣分類器,本文提出的基于信息增強的多視角矩陣分類器具有更好的分類性能。
關鍵詞:
Universum學習; 多視角; 矩陣分類器
中圖分類號:? TP391.4
文獻標志碼:? A
Information enhancement-based multi-view matrix classifier design
ZHU Changming, GAO Yusen
(Information Engineering College, Shanghai Maritime University, Shanghai 201306, China)
Abstract:
Due to the limitation of labor cost, many real-world multi-view datasets are composed of a small number of labeled samples and a large number of unlabeled samples. At present, the traditional multi-view matrix classifier cannot deal with this kind of datasets effectively. In order to deal with this problem, Universum learning is introduced into the multi-view matrix classifier, and an information enhancement-based multi-view matrix classifier is proposed. Because Universum learning can generate additional unlabeled samples that contain some information of labeled samples, Universum learning can enhance the effective sample information. Experimental results show that, the proposed information enhancement-based multi-view matrix classifier is of better classification performance than the traditional multi-view matrix classifiers.
Key words:
Universum learning; multi-view; matrix classifier
收稿日期: 2020-05-10
修回日期: 2020-06-23
基金項目: 中國博士后基金(2019M651576);上海市晨光計劃(18CG54)
作者簡介:
朱昌明(1988—),男,上海人,副教授,博士,研究方向為多視角學習、模式識別,(E-mail)cmzhu@shmtu.edu.cn
0 引 言
多視角數(shù)據(jù)集普遍存在于圖像處理、視頻追蹤、網(wǎng)頁分類等領域。數(shù)據(jù)集多由矩陣型樣本組成,因此通常采用多視角矩陣分類器(如改進的基于Nystrm的多核修正型Ho-Kashyap算法[1](INMKMHKS)、雙重局部化多矩陣學習機[2](DFLMMLM)、具有5方面樣本信息的多矩陣學習機[3](MMLMFAPI)等)處理。隨著國際貿易發(fā)展、生活節(jié)奏變快,越來越多的樣本呈現(xiàn)出大批量產(chǎn)生的特征,但受限于人力成本,僅有一小部分樣本獲得了標記。換句話說,當前的大多數(shù)多視角數(shù)據(jù)集是由少量有標簽樣本和大量無標簽樣本構成的。這類數(shù)據(jù)集稱為半監(jiān)督多視角數(shù)據(jù)集。傳統(tǒng)的多視角矩陣分類器無法有效處理這類數(shù)據(jù)集。
增強有效的樣本信息是處理這個問題的一種方式。眾所周知,有標簽樣本可以提供有利于分類器設計的有效樣本信息,而無標簽樣本能提供的這類有效的樣本信息很少。若可以以有標簽樣本為基礎生成一些樣本,則這類樣本可以提供有效的樣本信息,從而增強有利于分類器設計的樣本信息,并進一步提升分類器的性能。目前,Universum學習就是這樣的一種解決方式[4]。Universum學習通過生成包含有利于分類器設計的先驗知識和信息的額外無標簽樣本(即Universum樣本),并選擇其中的一部分加入原始數(shù)據(jù)集,來增強有效樣本信息并指導分類器設計。比如,對于有0、1、2、3、4、5、6、7、8、9總共10個數(shù)字的1 000多張圖片,要分類5和8,既可以用0、1、2、3、4、6、7、9這8個數(shù)字的圖片作為Universum樣本,也可以利用這些圖片來擬合生成一些包含了關于5和8的先驗知識的新圖片(這些新圖片雖然不能被歸為任務一類,但是它們在生成時涉及了5和8的相關信息,因此這些圖片也可以被認為是Universum樣本)。
經(jīng)典的Universum樣本生成及選擇方法在CHEN等[5]和ZHU[6]的工作中有所涉及,即通過選取任意兩個不同類的有標簽多視角樣本,平均化它們的特征信息,從而構建一個新的無標簽樣本。新的無標簽樣本由于是通過有標簽樣本生成的,所以包含一定的先驗知識和信息。朱昌明等[7]把該樣本生成算法用于結構風險最小化問題中以驗證其在理論上的有效性。劉鴻等[8]將Universum樣本生成算法用于度量學習,以更真實地刻畫樣本之間的距離,提高分類和聚類的精度。此外,相關學者更從降維、模糊學習等角度驗證了Universum學習的兩大優(yōu)點:①充分利用整個數(shù)據(jù)分布的域知識;②可獲取更多的有效樣本信息。[9-10]這些有效樣本信息對于指導分類器的構建有著重要的作用,可以提升分類器的性能。
為克服傳統(tǒng)多視角矩陣分類器的不足,本文以傳統(tǒng)的矩陣分類器(即基于矩陣樣本的修正型Ho-Kashyap算法(MatMHKS))[11]為基礎,引入Universum學習,并拓展到多視角領域,提出一個基于信息增強的多視角矩陣分類器(information enhancement-based multi-view MatMHKS, IMMatMHKS)。
1 IMMatMHKS
IMMatMHKS設計方法包含兩個步驟:第一步,通過Universum學習生成更多有用的Universum樣本;第二步,把這些模式用到多視角MatMHKS中,構建一個基于信息增強的多視角矩陣分類器設計方法,即IMMatMHKS。為此,本節(jié)由兩部分組成:第一部分描述Universum學習和生成Universum樣本,第二部分給出IMMatMHKS的訓練和優(yōu)化步驟。
1.1 CIBU算法
為生成合適的Universum樣本,并增強有效的樣本信息,本文使用CIBU(creating in-between Universum)算法。
假設有一個多視角矩陣集Tmat={(A1,φ1),(A2,φ2),…,(AN,φN)},φp∈[0,c]是類標簽(p=1,2,…,N),其中N和c分別表示有標簽樣本的數(shù)量和類別的數(shù)量。φp=0表示相應的樣本沒有標記,即該樣本為無標簽樣本;φp≠0表示相應的樣本為有標簽樣本。
先根據(jù)所有樣本的信息建立近鄰矩陣G。矩陣G第i行第j列的元素Gij由式(1)計算:
Gij=Ai-Aj22,Ai∈Nk(Aj)或Aj∈Nk(Ai)
+∞,其他
(1)
式中:Nk(Aj)或Nk(Ai)是Ai或Aj的k個最近鄰樣本的集合,Ai和Aj是兩個不同的樣本。
隨后,分別針對兩個不同的樣本Ai和Aj(其中至少有一個是有標簽樣本),根據(jù)其Gij進行判斷。若Gij的值不為無窮大,則由Ai和Aj得到一個Universum樣本A*k,其計算方式如下:
A*k=(Ai+Aj)/2
(2)
最后,在生成的Universum樣本集中選擇最小的UAk個Gij所對應的Universum樣本參與后續(xù)分類器的訓練。之所以選擇最小的UAk個Gij所對應的Universum樣本,是因為Gij越小,Ai與Aj之間的相似度越高,生成的Universum樣本所具有的先驗知識和有效樣本信息越多。至此,CIBU算法就完成了。
1.2 IMMatMHKS訓練與優(yōu)化
假設有一個包含N個多視角向量樣本的集合Tvec={(x1,φ1),(x2,φ2),…,(xN,φN)},其中樣本xp∈Rd,φp∈[0,c]為相應的類標簽,p=1,2,…,N。Tvec可以通過參考文獻[11]中給出的矩陣化技術被矩陣化到相應的多視角矩陣集Tmat={(A1,φ1),(A2,φ2),…,(AN,φN)}中,其中Ap∈Rd,d=n1×n2,p=1,2,…,N。另外,T*vec={x*1,x*2,…,x*M}是生成并選擇的用于訓練的M個Universum樣本
的集合,其被矩陣化后的
形式是T*mat=(A*1,A*2,…,A*M)。IMMatMHKS的目標函數(shù)為
min J|J(u,,v0,bp,b*q)=
Np=1(φp(uTAp+v0)-1-bp)2/2+
C(uTS1u+TS2)/2+
DMq=1((uTA*q+v0)-1-b*q)2/2
(3)
式中:u、分別為左、右權向量;v0為偏置;bp為樣本Ap的松弛量;b*q為樣本A*q的松弛量;C和D為正則化參數(shù),其作用是調節(jié)模型復雜度與分類誤差之間的平衡。
為求解式(3),令:Y=(y1,y2,…,yN)T,yp=φp(uTAp,1)T,p=1,2,…,N;v=(T,v0)T;b=(b1,b2,…,bN)T;IN×1=(1,1,…,1)T;Y*=(y*1,y*2,…,y*M),y*q=(uTA*q,1)T,q=1,2,…,M;b*=(b*1,b*2,…,b*M)T;I*M×1=(1,1,…,1)T。IMMatMHKS的目標函數(shù)可重寫為
min J|J(u,v,bp,b*q)=
(Yv-I-b)T(Yv-I-b)/2+
C(uTS1u+vTS~2v)/2+
D(Y*v-I*-b*)T(Y*v-I*-b)/2
(4)
式中S~2=S2000。由式(3)或式(4)無法直接獲取參數(shù)u、v、b、b*的最優(yōu)值,因此采用梯度下降法對式(4)進行迭代求解。
先由式(4)對u、v、b、b*求偏導數(shù),再令所求得的偏導數(shù)為0,得到權向量u和以及偏置v0的迭代結果。設定迭代終止條件,當?shù)K止時會得到最優(yōu)的權向量u和以及偏置v0,即權向量un和n以及偏置v0n,隨后便可利用這些最優(yōu)值對測試樣本進行分類。
2 實驗分析
2.1 實驗設置
為驗證所提出的IMMatMHKS的有效性,選擇3個多視角數(shù)據(jù)集作為實驗數(shù)據(jù),見表1~3。針對這些數(shù)據(jù)集,隨機選擇10%、20%、30%、40%、50%、60%的樣本作為訓練樣本,其余的樣本用于測試。另外,在訓練樣本中隨機選擇10%、20%、30%、40%、50%、60%、70%、80%、90%的樣本作為有標簽訓練樣本,其余的樣本作為無標簽訓練樣本。
選擇INMKMHKS、DFLMMLM和MMLMFAPI這3個傳統(tǒng)方法作為對比。這些方法的參數(shù)由相應的參考文獻可知。而對于本文提出的IMMatMHKS,其大部分參數(shù)設置可以參考文獻[11]。IMMatMHKS中的參數(shù)k和UAk設置如下:k=5;UAk為所有樣本數(shù)量的3倍。實際上,
k和UAk這兩個參數(shù)設置的不同,會影響IMMatMHKS的性能,但是通過大量實驗發(fā)現(xiàn),由于Universum學習的引入,這兩個參數(shù)在大部分情況下都會使分類器的性能提高,因此本文中僅給出如上設置的實驗結果。
為獲得最佳參數(shù),采用十重交叉驗證的方法:針對每組參數(shù)組合,將所使用的數(shù)據(jù)集的訓練樣本分為10份,每次取9份進行訓練,1份進行驗證,然后獲得一個分類性能;10次實驗之后,便得到一個平均結果;以平均結果最好的情況下的參數(shù)為最佳參數(shù),對測試樣本進行測試實驗。
2.2 分類性能比較
為體現(xiàn)IMMatMHKS的有效性,采用準確率、真陽率、真陰率和F值(相應的指標概念可參考文獻[12])等4個指標描述其性能。從表4可知:①就準確率、真陽率、真陰率來說,IMMatMHKS可以帶來相對較好的性能;②從F值的結果來看,IMMatMHKS的性能優(yōu)勢并沒有明顯偏向正類和負類,具有普適性??傮w而言,由于本文提出的IMMatMHKS引入了Universum學習,可以在識別同一個數(shù)據(jù)集時,通過信息的增強使更多的有效樣本信息參與分類器的訓練,所以IMMatMHKS比INMKMHKS、DFLMMLM、MMLMFAPI具有更好的分類性能。
2.3 時間性能比較
表5給出了在最佳參數(shù)的情況下,4種方法的訓練時間和測試時間。由表5可知,隨著Universum學習的引入,分類器的訓練需要更多的時間,但是由于增加的時間不超過10%,所以結合IMMatMHKS的性能優(yōu)勢,這一現(xiàn)象是可以接受的。另外,從測試時間來看,在同一個數(shù)據(jù)集中,IMMatMHKS所需要的測試時間也不一定是最多的。當然,應當注意的是,對于一般的識別問題而言,時間上的差距可以通過硬件來彌補,而識別率上的差異則需要通過算法來彌補,因此IMMatMHKS在時間上的額外開銷并不會過多地影響其性能優(yōu)勢。
2.4 顯著度分析
為驗證IMMatMHKS的優(yōu)勢是顯著的,下面進行顯著度分析,即p值比較[13]。p值最早由FISHER提出,按照FISHER的理論,p值越小,兩種方法在同一個數(shù)據(jù)集上的差異越顯著。一般來說,當p>0.05時可以認為兩種方法在一個數(shù)據(jù)集上的差異是不顯著的,當p∈[0.01,0.05]時可以認為兩種方法在一個數(shù)據(jù)集上的差異是顯著的,而當p<0.01時可以認為兩種方法在一個數(shù)據(jù)集上的差異非常顯著。
為更好地表明IMMatMHKS的有效性,用表6表示在不同的評價指標下IMMatMHKS與參與對比的方法在不同數(shù)據(jù)集上的p值。
由表6可以明顯地看到,相對于其他對比方法,特別是INMKMHKS,本文提出的IMMatMHKS具有顯著的優(yōu)勢。
2.5 訓練樣本和有標簽樣本比例的影響
由于在實驗中針對訓練樣本和有標簽樣本選擇了不同的比例,本文也給出樣本比例不同的情況下IMMatMHKS性能的變化。為簡化說明,本文只給出在不同的訓練樣本比例和有標簽訓練樣本比例的情況下
IMMatMHKS在Mfeat數(shù)據(jù)集上準確率的變化。盡管沒有給出IMMatMHKS在其他數(shù)據(jù)集和其他分類性能指標下的變化,但是這并不會影響結果。從表7可知,訓練樣本和有標簽訓練樣本的比例越高,IMMatMHKS在Mfeat數(shù)據(jù)集上的準確率越高,這也證明隨著信息的增強,有效樣本信息越多,可以更容易指導分類器的設計,從而提升分類器的性能。
3 總結與未來工作
在當前的模式識別領域中,多視角學習問題普遍存在。盡管已有學者提出一系列多視角矩陣分類器處理此類問題,但是受限于人工成本,現(xiàn)實世界中大多數(shù)多視角數(shù)據(jù)是由少量有標簽樣本和大量無標簽樣本組成的,傳統(tǒng)的多視角矩陣分類器對于此類問題的處理存在一定的困難。
本文在矩陣分類器中引入Universum學習,通過CIBU算法增強有效的樣本信息,并提出一個基于信息增強的多視角矩陣分類器(IMMatMHKS)。通過在Mfeat、Reuters、Corel等3個典型的多視角數(shù)據(jù)集上的實驗,驗證IMMatMHKS具有更高的分類性能且性能優(yōu)勢顯著,只是訓練時間略有增加。本文的工作也驗證了隨著訓練樣本或有標簽訓練樣本比例的增加,矩陣分類器的性能也會增強。
除Universum學習外,還有很多其他的方法可以生成額外的樣本,如對抗網(wǎng)絡。由于本文的研究目的是驗證信息增強后分類器性能會提高,而Universum學習的時間開銷比對抗網(wǎng)絡的小,所以本文研究采用了Universum學習。未來工作會采用對抗網(wǎng)絡等方式加以深入研究,以更好地增強樣本信息。
參考文獻:
[1]ZHU Changming, GAO Daqi. Improved multi-kernel classification machine with Nystrm approximation technique[J]. Pattern Recognition, 2015, 48(4): 1490-1509. DOI: 10.1016 / j.patcog.2014.10.029.
[2]ZHU Changming, WANG Zhe, GAO Daqi, et al. Double-fold localized multiple matrixized learning machine[J]. Information Sciences, 2015, 295: 196-220. DOI: 10.1016/j.ins.2014.10.024.
[3]ZHU Changming, GAO Daqi. Multiple matrix learning machine with five aspects of pattern information[J]. Knowledge-Based Systems, 2015,? 83: 13-31. DOI: 10.1016/j.knosys.2015.03.004.
[4]WESTON J, COLLOBERT R, SINZ F, et al. Inference with the Universum[C]//Proceedings of the 23rd International Conference on Machine Learning. ICML, 2006: 1009-1016. DOI: 10.1145/1143844.1143971.
[5]CHEN Xiaohong, YIN Hujun, JIANG Fan, et al. Multi-view dimensionality reduction based on Universum learning[J]. Neurocomputing, 2018, 275: 2279-2286. DOI: 10.1016/j.neucom.2017.11.006.
[6]ZHU Changming. Improved multi-kernel classification machine with Nystrm approximation technique and Universum data[J]. Neurocomputing, 2016, 175: 610-634. DOI: 10.1016/j.neucom.2015.10.102.
[7]朱昌明, 梅成就, 周日貴, 等. 基于Universum的多視角全局和局部結構風險最小化模型[J]. 上海海事大學學報, 2018, 39(3): 91-102. DOI: 10.13340/j.jsmu.2018.03.017.
[8]劉鴻, 陳曉紅, 張恩豪. 融入Universum學習的度量學習算法[J]. 計算機工程與應用, 2019, 55(13): 158-164, 238.
[9]CHEN Xiaohong, YIN Hujun, JIANG Fan, et al. Multi-view dimensionality reduction based on Universum learning[J]. Neurocomputing, 2018, 275: 2279-2286. DOI: 10.1016/j.neucom.2017.11.006.
[10]TENCER L, REZNAKOVA M, CHERIET M. UFuzzy: fuzzy models with Universum[J]. Applied Soft Computing, 2016, 59: 1-18. DOI: 10.1016/j.asoc.2016.05.041.
[11]CHEN Songcan, WANG Zhe, TIAN Yongjun. Matrix-pattern-oriented Ho-Kashyap classifier with regularization learning[J]. Pattern Recognition, 2016, 40(5): 1533-1543. DOI: 10.1016/j.patcog.2006.09.001.
[12]BERGER A, GUDA S. Threshold optimization for F measure of macro-averaged precision and recall[J]. Pattern Recognition, 2020, 102: 107250. DOI: 10.1016/j.patcog.2020.107250.
[13]TANG Shijie, TSUI KW. Distributional properties for the generalized p-value for the Behrens-Fisher problem[J]. Statistics & Probability Letters, 2007, 77(11): 1-8. DOI: 10.1016/j.spl.2006.05.005.
(編輯 賈裙平)