許亞雲(yún),嚴(yán) 華
(四川大學(xué) 電子信息學(xué)院,成都 610065)
有監(jiān)督的模式識(shí)別過于依賴有標(biāo)簽的訓(xùn)練樣本的數(shù)量.一方面,在現(xiàn)實(shí)生活中為樣本打標(biāo)簽十分耗費(fèi)資源和時(shí)間;另一方面,這種完全由樣本的數(shù)量和質(zhì)量決定的學(xué)習(xí)方式非常容易導(dǎo)致過擬合.由于監(jiān)督學(xué)習(xí)的局限性和不便利性,大量的研究者開始探索無監(jiān)督和半監(jiān)督的學(xué)習(xí)方法.如主動(dòng)學(xué)習(xí),它不是將所有樣本打上標(biāo)簽,而是提出一些標(biāo)注請(qǐng)求,將一些經(jīng)過篩選的數(shù)據(jù)提交給相關(guān)領(lǐng)域?qū)<疫M(jìn)行標(biāo)注.
域自適應(yīng)或遷移學(xué)習(xí),因?yàn)椴恍枰罅康臄?shù)據(jù)標(biāo)注,近年來受到研究者的廣泛關(guān)注.在域自適應(yīng)的問題中,將需要進(jìn)行識(shí)別的數(shù)據(jù)集稱為測(cè)試集.測(cè)試集中的數(shù)據(jù)全部沒有標(biāo)簽時(shí)稱為無監(jiān)督域自適應(yīng)[1-2],測(cè)試集中有少部分?jǐn)?shù)據(jù)有標(biāo)簽時(shí)則稱為半監(jiān)督域自適應(yīng)[3-4].與主動(dòng)學(xué)習(xí)不一樣的是,不需要采取人工輔助的方式為樣本打上標(biāo)簽,用于訓(xùn)練做訓(xùn)練集的源域中已經(jīng)擁有大量有標(biāo)簽的數(shù)據(jù),但是源域的數(shù)據(jù)和真正需要進(jìn)行分類的目的域數(shù)據(jù)并不是同分布的.所以域自適應(yīng)主要解決兩個(gè)域分布適應(yīng)的問題,從而借助源域中大量有標(biāo)簽的數(shù)據(jù)集對(duì)目的域的數(shù)據(jù)進(jìn)行識(shí)別.目前傳統(tǒng)的域自適應(yīng)算法的相關(guān)研究工作主要分為以下3種方式:1)數(shù)據(jù)分布的適應(yīng):即通過某種變換直接將兩個(gè)域的分布拉近或者選擇出分布相似的公共特征,主要通過最大平均差異(maximum mean discrepancy, MMD)[5]度量變換后的兩個(gè)域的相似性,例如TCA[6]、TJM[7]、JDA[8]和JGSA[9].TCA首先提出通過一個(gè)特征映射使得映射后的兩個(gè)域的邊緣分布接近,JDA同時(shí)考慮了邊緣分布適配和條件分布適配.其他部分方法基于TCA和JDA做出了擴(kuò)展,例如TJM在TCA中加入了源域樣本選擇,ARTL[10]將JDA嵌入結(jié)構(gòu)風(fēng)險(xiǎn)最小化框架.2)子空間學(xué)習(xí):包括低維統(tǒng)計(jì)特征的子空間對(duì)齊(SA[11]、SDA[12]和RTML[13])和低維流形結(jié)構(gòu)的子空間對(duì)齊(GFK[14]和DIP[15]).3)表示學(xué)習(xí):在子空間學(xué)習(xí)的基礎(chǔ)上通過源域樣本表示目的域樣本(DTSL[16]和LSDT[17]).
本文的方法基于表示學(xué)習(xí),與現(xiàn)有表示學(xué)習(xí)方法思想相同:都是在子空間學(xué)習(xí)的基礎(chǔ)上引入表示矩陣以更好地減少兩個(gè)域的分布差異.但是現(xiàn)有方法通常只采用一個(gè)單一的表示矩陣來建立兩個(gè)域之間的映射關(guān)系.本文的方法與之不同:1) 本文改進(jìn)地采用兩個(gè)不同的表示矩陣,分別用源域表示目的域和用目的域表示源域;2)同時(shí)提出兩個(gè)表示矩陣各自的最優(yōu)化約束設(shè)計(jì),使得源域和目的域最優(yōu)地相互表示,從而減少域差異,實(shí)現(xiàn)借助源域數(shù)據(jù)對(duì)目的域無標(biāo)簽數(shù)據(jù)的分類.
域自適應(yīng)問題最關(guān)鍵的是減小兩個(gè)域的差異.通??梢酝ㄟ^尋求一個(gè)兩域的共同子空間去實(shí)現(xiàn)兩域之間的遷移.由于源域具有可靠的真實(shí)標(biāo)簽,首先在源域?qū)W習(xí)一個(gè)標(biāo)簽引導(dǎo)的子空間.模型如式(1)所示
s.t.C≥0,
(1)
式中:⊙是Hadamard乘積運(yùn)算,P∈Rm×d是共同的子空間,Xs∈Rm×ns是源域的數(shù)據(jù),Ys∈Rd×ns是源域標(biāo)簽矩陣,m是樣本特征的維度,ns代表源域樣本的數(shù)目,d是共同子空間的維度.C∈Rd×ns是松弛標(biāo)簽矩陣,加入松弛標(biāo)簽C是為了更自由地獲得共同子空間.
通常引入表示矩陣可以促進(jìn)共同子空間的學(xué)習(xí).常見的方法是使用一個(gè)表示矩陣,即單一方向地用源域的數(shù)據(jù)表示目的域數(shù)據(jù),或者目的域數(shù)據(jù)表示源域數(shù)據(jù),例如DTSL和LSDT.但這樣的表示方式下,兩個(gè)域的有用信息很難被完全保留.這是因?yàn)樵从蚝湍繕?biāo)域的特征分布不同,兩個(gè)域需要保留的信息不同,而使用同一個(gè)表示矩陣不能很好地保留兩個(gè)域特有的有用信息和結(jié)構(gòu)特征.尤其是,當(dāng)帶有標(biāo)簽的源域樣本單方向地靠近目的域數(shù)據(jù)時(shí),會(huì)對(duì)源域的基本結(jié)構(gòu)造成一定的破壞.
于是本文提出在源域和目的域采用兩個(gè)不同的表示矩陣來表示另一個(gè)域.即在源域存在一個(gè)表示矩陣去表示目的域的特征,同時(shí)在目的域存在另一個(gè)表示矩陣去表示源域的特征.該模型如式(2)(3)所示
PTXsZs=PTXt,
(2)
(PTXs)T=Zt(PTXt)T.
(3)
式中:Zs∈Rns×nt是作用于源域的表示矩陣;Zt∈Rns×nt是作用于目的域的表示矩陣;Xt∈Rm×nt是目的域的樣本,nt代表目的域樣本的數(shù)目.對(duì)于分布不同的兩個(gè)域,按照各自特征去學(xué)習(xí)不同的表示矩陣有助于對(duì)齊兩個(gè)域的分布,同時(shí)保存自己特有的信息.
共同子空間和合理的兩個(gè)表示矩陣可以減小兩個(gè)域差異的同時(shí)盡可能地保存兩個(gè)域的原始有用信息.為了得到盡可能最優(yōu)的兩個(gè)表示矩陣,對(duì)上面提出的兩個(gè)表示矩陣進(jìn)行了相應(yīng)的約束設(shè)計(jì),進(jìn)而借助它們學(xué)習(xí)到有利于域適應(yīng)的共同子空間.由于兩個(gè)表示矩陣需要保留的特征不同,應(yīng)該按條件對(duì)它們施加不同的約束.在兩個(gè)域分布差異盡可能小的公共子空間上,目的域數(shù)據(jù)通過表示矩陣可以被源域的數(shù)據(jù)線性表示,如式(2)所示.也就是說,目的域中的每個(gè)樣本都可以視作是源域樣本的線性組合.再則考慮到源域的數(shù)據(jù)具有可靠的標(biāo)簽,對(duì)源域表示矩陣進(jìn)行按列稀疏約束,表示為
(4)
式中‖·‖1表示1-范數(shù).這樣目的域的樣本可以由更少的源域樣本線性組合,保留了數(shù)據(jù)局部結(jié)構(gòu)的同時(shí)能夠更確切地分類.
但是同一類別往往有很多樣本,當(dāng)某一個(gè)樣本由同一類樣本線性組合表示的時(shí)候并不會(huì)丟失可判別性,反而會(huì)提高可判別性并降低過擬合的風(fēng)險(xiǎn).受這個(gè)思路和最優(yōu)傳輸理論[18]的啟發(fā),本文采用group-lasso作為Zs表示矩陣的稀疏約束,對(duì)表示矩陣按類別進(jìn)行稀疏約束,同一類別采用2-范數(shù)降低稀疏約束強(qiáng)度,表示為
式中,‖·‖2表示2-范數(shù),τcl是源域第cl類數(shù)據(jù)對(duì)應(yīng)表示矩陣Zs中相應(yīng)行的組合,j代表樣本特征維度的第j維.綜上,源域表示矩陣Zs受到的稀疏約束由式(4)改進(jìn)為式(5).
(5)
為了更好地保留數(shù)據(jù)的結(jié)構(gòu)信息,最理想的情況是源域中相同類別的數(shù)據(jù)被目的域中的數(shù)據(jù)用同一種線性表示方式所表示.例如作用在目的域的表示矩陣的秩降低到等于類別數(shù),即說明同一類樣本擁有同樣的線性表示方式.于是作用于目的域的表示矩陣應(yīng)該受到低秩約束,如式(6)所示
(6)
將式(1)~(3)、(5)和(6)合并,得到最終的模型,總模型為
(7)
其中,α和β是超參數(shù). 總模型示意圖如圖1所示.
圖1 模型示意
式(7)的最優(yōu)化問題是非凸的,求解只能保證局部最優(yōu)而不是全局最優(yōu).為了解決這個(gè)問題,利用不精確拉格朗日乘子法(IALM)將該問題轉(zhuǎn)換成凸問題,轉(zhuǎn)換如下:
(8)
可以通過增廣拉格朗日乘子法,進(jìn)一步將式(8)轉(zhuǎn)換為
β‖Z1‖*+α‖Z2‖group-lasso+
〈Y1,PTXsZs-PTXt〉+
〈Y2,(PTXs)T-Zt(PTXt)T〉+
〈Y3,Zt-Z1〉+〈Y4,Zs-Z2〉+
(9)
式中,μ是懲罰參數(shù);Y1、Y2、Y3和Y4代表拉格朗日乘子,在優(yōu)化求解過程中,每次更新其中一個(gè)變量并固定其余變量迭代求解.
Ben-David[19]定理提出源域分類器在目的域中的誤差上限,即借助源域有標(biāo)簽的樣本訓(xùn)練得到的分類器來識(shí)別無標(biāo)簽的目的域樣本的誤差上限.如式(10)所示
minEDS[|fS(X)-fT(X)|],
EDT[|fS(X)-fT(X)|].
(10)
由于標(biāo)簽函數(shù)是已知的,所以minEDS[|fS(X)-fT(X)|],EDT[|fS(X)-fT(X)|]是一個(gè)常量.從式(10)可以推出,若需減小目的域分類誤差,則需要減小S(h)和d1(DS,DT).所以域自適應(yīng)算法的關(guān)鍵是在保證源域誤差盡可能小的同時(shí)減小兩個(gè)域之間的差異.本文模型中的式(1)就是利用源域的可靠真實(shí)標(biāo)簽來減小S(h).同時(shí)通過式(2)和(3)構(gòu)建了兩個(gè)域之間的關(guān)系,然后提出最優(yōu)化約束設(shè)計(jì)來減小兩域的差異,減小d1(DS,DT).相較于目前其他域自適應(yīng)算法,所提算法使兩域可以最優(yōu)地相互表示,從而降低過擬合以及破壞兩域基本結(jié)構(gòu)的風(fēng)險(xiǎn).
在3個(gè)遷移學(xué)習(xí)常用的數(shù)據(jù)集上開展實(shí)驗(yàn)進(jìn)行驗(yàn)證.1)COIL20數(shù)據(jù)集將1 440張灰度圖片分成了兩個(gè)域:COIL1(C1)和COIL2(C2).該數(shù)據(jù)集的樣本有20個(gè)類別,COIL20數(shù)據(jù)集的部分示例見圖2.2)Office-Caltech 10[10]是最廣泛使用的數(shù)據(jù)集,一共分為4個(gè)域:Caltech(C)、Amazon(A)、DSLR(D)和Webcam(W) .本文的實(shí)驗(yàn)使用了該數(shù)據(jù)集800維的SURF特征和4 096維的DeCAF特征.3)ImageCLEF-DA[16]由3個(gè)數(shù)據(jù)集共同的12類數(shù)據(jù)組成,3個(gè)數(shù)據(jù)集分別是:Caltech-256(C)、ImageNet ILSVRC 2012(I)和VOC 2012(P).可構(gòu)建6個(gè)跨域任務(wù):C→I、C→P、I→C、I→P、P→C和P→I.
圖2 COIL20數(shù)據(jù)集部分示例
與以下10種傳統(tǒng)遷移學(xué)習(xí)方法進(jìn)行了對(duì)比,包括:TCA[6]、GFK[14]、JDA[8]、SA[11]、DTSL[16]、CORAL[20]、BDA[21]、DICD[22]、KOT[23]和DST-ELM[24],同時(shí)還與以下2種深度方法也進(jìn)行了對(duì)比:AlexNet[25]和JDOT[26].實(shí)驗(yàn)結(jié)果見表1~5,其中識(shí)別準(zhǔn)確率的最好值與次好值分別通過加粗和下劃線表示.從實(shí)驗(yàn)結(jié)果來看,本文的方法超過了很多的傳統(tǒng)遷移學(xué)習(xí)方法和一些深度方法,其中包括一些比較先進(jìn)的傳統(tǒng)遷移學(xué)習(xí)方法如DST-ELM和深度方法如JDOT等,這體現(xiàn)了本文方法的有效性.
在COIL20數(shù)據(jù)集構(gòu)建兩個(gè)跨域任務(wù):COIL1→COIL2和COIL2→COIL1.其中,COIL1由角度為[0°,85°]∪[180°,265°]的灰度圖像組成,而COIL2則由[90°,175°]∪[270°,355°]的灰度圖像組成.實(shí)驗(yàn)結(jié)果如表1所示,本文算法的平均準(zhǔn)確率達(dá)89.3%,比CORAL準(zhǔn)確率高了7.3%.JDA簡(jiǎn)單地考慮邊緣分布和條件分布適配反而比DTSL和CORAL效果好.由于兩個(gè)域的差異僅僅來自圖片的拍攝角度不同,所以該任務(wù)比其他數(shù)據(jù)集簡(jiǎn)單,過度擬合和破壞源域的基本結(jié)構(gòu)反而會(huì)降低在該數(shù)據(jù)集的識(shí)別準(zhǔn)確性.而本文采用group-lasso作為表示矩陣的稀疏約束,可以降低過擬合風(fēng)險(xiǎn),從實(shí)驗(yàn)結(jié)果可以驗(yàn)證本文模型的有效性和魯棒性.
表1 在COIL20數(shù)據(jù)集上的準(zhǔn)確率
在Office-Caltech 10數(shù)據(jù)集上,不論使用SURF特征還是DeCAF特征,本文算法都超過了對(duì)比的算法.采用SURF特征的平均準(zhǔn)確率為51.2%,使用DeCAF特征,本文模型的平均準(zhǔn)確率達(dá)90.6%,分別如表2和表3所示.與DTSL對(duì)比,使用SURF特征,本文模型的準(zhǔn)確率提升了4.5%,如果使用DeCAF深度特征,本文模型將準(zhǔn)確率從83.8%提升到了90.6%.由于DTSL只使用了一個(gè)表示矩陣,對(duì)源域的基本結(jié)構(gòu)造成了一定的破壞,很難保存所有目的域的有用信息.所以本文模型采用兩個(gè)表示矩陣解決了相關(guān)問題,從而提升了準(zhǔn)確率.DICD通過MMD測(cè)量來減小兩個(gè)域之間的差異,雖然考慮了減小類內(nèi)距離和擴(kuò)大類間距離,但是只通過MMD距離來判斷差距也會(huì)對(duì)結(jié)構(gòu)造成一定的破壞,本文算法在這個(gè)數(shù)據(jù)集上的效果仍然高于DICD,這也驗(yàn)證了本文算法具有不錯(cuò)的可判別性.
表2 在Office-Caltech 10 (SURF) 數(shù)據(jù)集上的準(zhǔn)確率
表3 在Office-Caltech 10 (DeCAF) 數(shù)據(jù)集上的準(zhǔn)確率
傳統(tǒng)的方法在Office-Caltech 10數(shù)據(jù)集使用DeCAF特征都取得了不錯(cuò)的結(jié)果.雖然本文的方法與一些先進(jìn)的傳統(tǒng)方法(如DST-ELM)對(duì)比只提升了一點(diǎn),但是與某些先進(jìn)的深度方法(如JDOT)做對(duì)比時(shí),本文的方法仍能顯示出一定的優(yōu)勢(shì),如表4所示.
表4 在Office-Caltech 10 (DeCAF) 數(shù)據(jù)集上與深度方法對(duì)比準(zhǔn)確率
在ImageCLEF-DA數(shù)據(jù)集,使用ResNet50網(wǎng)絡(luò)提取的深度特征.顯然,本文算法的效果優(yōu)于所有對(duì)比的算法.實(shí)驗(yàn)結(jié)果如表5所示.
表5 在ImageCLEF-DA數(shù)據(jù)集上的準(zhǔn)確率
為了進(jìn)一步驗(yàn)證對(duì)作用于源域的表示矩陣施加group-lasso約束是否可以提高模型的識(shí)別準(zhǔn)確率,進(jìn)行了消融實(shí)驗(yàn).RLlow-rank模型只對(duì)Zt矩陣進(jìn)行低秩約束,對(duì)Zs矩陣不做約束.RLsparse模型對(duì)Zs矩陣做1-范數(shù)稀疏約束.RLgroup-lasso模型對(duì)Zs矩陣采用group-lasso約束.RLjoint1模型對(duì)Zs和Zt兩個(gè)表示矩陣分別做1-范數(shù)和低秩約束,而RLjoint2模型對(duì)Zs和Zt兩個(gè)表示矩陣分別做group-lasso和低秩約束.實(shí)驗(yàn)結(jié)果如表6所示.通過對(duì)比RLgroup-lasso和RLsparse兩個(gè)模型的實(shí)驗(yàn)結(jié)果,可以明顯得出在域自適應(yīng)表示學(xué)習(xí)中,稀疏約束采用group-lasso優(yōu)于使用1-范數(shù).通過RLjoint1的實(shí)驗(yàn)結(jié)果,僅僅對(duì)作用于源域的表示矩陣Zs采用group-lasso約束的分類準(zhǔn)確率甚至高于同時(shí)使用1-范數(shù)和低秩約束.對(duì)比RLgroup-lasso和RLjoint2模型的實(shí)驗(yàn)結(jié)果,對(duì)Zt的低秩約束也是必不可少的,能夠更好地保留樣本特征的結(jié)構(gòu),從而提高準(zhǔn)確率.
表6 Office-Caltech 10 (SURF)數(shù)據(jù)集上消融實(shí)驗(yàn)的結(jié)果
由式(7)可知,本文的總模型含有兩個(gè)超參數(shù)α和β.為了分析不同參數(shù)對(duì)模型識(shí)別準(zhǔn)確率的影響,在COIL20、Office-Caltech 10和ImageCLEF-DA 3個(gè)數(shù)據(jù)集進(jìn)行了參數(shù)敏感度實(shí)驗(yàn):在離散數(shù)據(jù)集[0.001, 0.01, 0.1, 1, 5, 10]的范圍內(nèi)改變兩個(gè)超參數(shù)的值,觀察識(shí)別準(zhǔn)確率的變化,實(shí)驗(yàn)結(jié)果見圖3.從圖3可以觀察到,參數(shù)α和β的取值在0.001~10大范圍變化,對(duì)識(shí)別準(zhǔn)確率造成的影響依然很小.所以雖然本文的模型需要調(diào)試兩個(gè)超參數(shù),但是兩個(gè)超參數(shù)的選擇卻較簡(jiǎn)單,在相對(duì)大的范圍內(nèi)取值,都可以使本文的模型分類準(zhǔn)確率達(dá)到一個(gè)很好的效果.
圖3 參數(shù)敏感度分析
針對(duì)無監(jiān)督域自適應(yīng)問題,本文提出了一個(gè)新穎的表示學(xué)習(xí)算法.為了在學(xué)得的共同子空間下更好地保留源域和目的域樣本的特有特征和結(jié)構(gòu),使用兩個(gè)不同的表示矩陣分別作用于兩個(gè)域,同時(shí)基于線性表示和最優(yōu)傳輸相關(guān)理論為這兩個(gè)表示矩陣設(shè)計(jì)不同的約束.大量的實(shí)驗(yàn)驗(yàn)證了本文模型的有效性和魯棒性,在多個(gè)數(shù)據(jù)集上,本文方法的識(shí)別精度超過了很多先進(jìn)的無監(jiān)督域自適應(yīng)方法.