李嘉豪,蔡瑞初
(廣東工業(yè)大學(xué)計算機學(xué)院,廣州510006)
隨著社會和科技的發(fā)展,人類的活動數(shù)據(jù)與日俱增。由于數(shù)據(jù)處理遠(yuǎn)不如數(shù)據(jù)生成高效,各個領(lǐng)域都亟需一種高效的學(xué)習(xí)方法來處理大量堆積的無標(biāo)簽數(shù)據(jù)。大量的研究工作表明,這種問題能夠被無監(jiān)督領(lǐng)域自適應(yīng)算法[1]有效解決。這種算法能夠把源領(lǐng)域的類別信息遷移到無標(biāo)注的目標(biāo)領(lǐng)域中,避免了繁重的標(biāo)注工作。
目前,分布對齊思想被主流的無監(jiān)督領(lǐng)域自適應(yīng)算法所采用。一些算法假設(shè)目標(biāo)領(lǐng)域總體分布是源領(lǐng)域總體分布的一個子集,并試圖對樣本重加權(quán)或挑選以抽取出一個符合目標(biāo)領(lǐng)域特性的分布[2-4]。一些算法假設(shè)目標(biāo)領(lǐng)域總體分布是源領(lǐng)域總體分布的一個低維映射,并試圖挑選與領(lǐng)域弱相關(guān)的局部特征來對齊領(lǐng)域的低維總體分布[5-7]。這兩種分布對齊方法可以混合使用。最簡單的方法是使用兩個投影矩陣分別加權(quán)源領(lǐng)域和目標(biāo)領(lǐng)域的全體數(shù)據(jù)集,然后使用一定的策略約束投影矩陣和加權(quán)結(jié)果的相似性[8-9]。為了使投影矩陣能夠?qū)R領(lǐng)域總體分布或條件分布,算法需要引入再生核希爾伯特空間,并執(zhí)行核對齊準(zhǔn)則[10-11]和分散準(zhǔn)則[12-13]。
然而,淺層模型沒有為算法提供一個充足的用于分布對齊的參數(shù)空間,算法在面對更為復(fù)雜的場景時無法挖掘出足夠的高層分類知識。為此,不少研究工作使用深度學(xué)習(xí)來完成無監(jiān)督領(lǐng)域自適應(yīng)任務(wù)。部分工作會從神經(jīng)網(wǎng)絡(luò)中劃分一個特征提取器,然后使用最大均值差異對齊不同領(lǐng)域的特征分布差異[14-15]。此外,一些研究工作表明,在基于多任務(wù)學(xué)習(xí)思想設(shè)計的神經(jīng)網(wǎng)絡(luò)上,對目標(biāo)領(lǐng)域重構(gòu)誤差最小化或?qū)︻I(lǐng)域判別誤差最大化,能夠幫助算法尋得領(lǐng)域一致的類別空間。兩個領(lǐng)域的特征分布還可以通過對抗學(xué)習(xí)[20]的形式進(jìn)行對齊。通過反轉(zhuǎn)領(lǐng)域判別器到特征提取器的梯度,特征提取器能夠去除源領(lǐng)域和目標(biāo)領(lǐng)域中的領(lǐng)域?qū)S眯畔21-22]。此外,兩個共享權(quán)重的生成對抗網(wǎng)絡(luò)也能夠?qū)R生成器的輸出特征分布[23-24]。
不過,這些深度算法經(jīng)常造成分布差異和分類誤差互相抗衡的局面。該問題主要由總體分布對齊引起的,因為從對齊的總體分布中得到的知識未必就是有效的類別信息,從而無法保證類別信息的有效利用。為此,所提算法使用類內(nèi)均方偏差(Intra-Class Mean Square Bias)準(zhǔn)則對齊兩個領(lǐng)域的類內(nèi)分布。這種做法會通過模型預(yù)測所有領(lǐng)域樣本的偽標(biāo)簽,然后對齊兩個領(lǐng)域中帶相同偽標(biāo)簽的數(shù)據(jù)分布。這種做法能夠最大限度保留源領(lǐng)域的類別信息,并且有效減少源領(lǐng)域中某些專用類別信息的干擾。實驗結(jié)果表明所提算法能夠通過類內(nèi)均方偏差準(zhǔn)則有效對齊兩個領(lǐng)域的類內(nèi)分布,并得到了最佳的性能表現(xiàn)。
本文接下來引入一個風(fēng)險上界,并以此概括無監(jiān)督領(lǐng)域自適應(yīng)算法的設(shè)計理念,然后從風(fēng)險上界中引出基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法。最后把所提算法與一系列對比算法進(jìn)行比較,以驗證本文所提算法的效果。
領(lǐng)域自適應(yīng)能夠被一個風(fēng)險上界所描述。在給定轉(zhuǎn)換函數(shù)g 后,這個風(fēng)險上界能夠被拆分為兩個部分。第一部分為目標(biāo)領(lǐng)域的后驗分布pT(Y|g(X))與源領(lǐng)域的后驗分布pS(Y|g(X))之間的差異。第二部分為源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)P偷暮篁灧植紂(Y|g(X))之間的差異。這些分布差異可以定義為L1距離,即給定任意轉(zhuǎn)換函數(shù)g 和領(lǐng)域D ∈{S,T}后,后驗分布p(Y|g(X))和q(Y|g(X))之間的差異被定義為:
定理1 如果給定轉(zhuǎn)換函數(shù)g 和源領(lǐng)域S 后,源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)P偷暮篁灧植紂(Y|g(X))之間的差異被量化為?S( )g,q,pS,那么同理可得,并且有不等式:
由定理1 知,若目標(biāo)領(lǐng)域的后驗分布pT(Y|g(X))與源領(lǐng)域的后驗分布pS(Y|g(X))之間的差異Δ 足夠小,那么對齊源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)P偷暮篁灧植紂(Y|g(X))才有意義,因為q(Y|g(X))能夠逼近pT(Y|g(X))。不過,若使用有監(jiān)督模型來擬合源領(lǐng)域的后驗分布,那么q(Y|g(X))逼近pT(Y|g(X))的程度有限。因為Δ 無法得到優(yōu)化。為此,無監(jiān)督領(lǐng)域自適應(yīng)任務(wù)會借助目標(biāo)領(lǐng)域中的無標(biāo)簽樣本最小化Δ,從而使q(Y|g(X))進(jìn)一步逼近pT(Y|g(X))。根據(jù)Δ 的形式,對齊兩個領(lǐng)域的總體分布πS(g(x))和πT(g(x))能夠達(dá)到最小化Δ 的效果。于是,無監(jiān)督領(lǐng)域自適應(yīng)算法有兩個任務(wù):①使用任意的有監(jiān)督模型來擬合源領(lǐng)域的后驗分布;②使用一個評估函數(shù)量化并對齊兩個領(lǐng)域的總體分布差異。
根據(jù)上一節(jié)的討論,算法需要借助評估函數(shù)對齊領(lǐng)域總體分布πS(g(x))和πT(g(x))。一種有效的評估函數(shù)是均方偏差準(zhǔn)則,即MSB(Mean Square Bias)。它的定義如下:
其中,μS和μT分別為g(x )在兩個領(lǐng)域上的期望。為了在數(shù)據(jù)集上評估分布差異,均方偏差準(zhǔn)則有經(jīng)驗評估:
然而,定理1 表明,如果算法使用均方偏差準(zhǔn)則對齊總體分布,那么模型可能無法避免分類信息的流失。由于模型與源領(lǐng)域的后驗分布差異還影響到后驗分布差異Δ,對齊領(lǐng)域總體分布有可能造成經(jīng)驗?zāi)P偷暮篁灧植紵o法逼近源領(lǐng)域的后驗分布,從而增大后驗分布差異Δ。為此,算法轉(zhuǎn)而對齊兩個領(lǐng)域的類內(nèi)分布。根據(jù)式(1),針對類別c 的均方偏差可以定義為:
綜合上述討論,基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法有以下目標(biāo)函數(shù)
其中,損失函數(shù)L 采用均方誤差或Softmax 函數(shù)等。超參λ 決定ICMSB 正則項的誤差貢獻(xiàn)程度。
根據(jù)式(2)的目標(biāo)函數(shù)形式,算法有兩個任務(wù)。第一個任務(wù)是對分類器f 和特征提取器g 進(jìn)行優(yōu)化,從而最小化源領(lǐng)域分類誤差。第二個任務(wù)是對特征提取器g 使用ICMSB 進(jìn)行優(yōu)化,從而對齊類內(nèi)分布。這里需要說明一點,為了減少內(nèi)存占用,算法在每個迭代I最小化以下形式的ICMSB 正則項。
其中,集合C 代表兩個領(lǐng)域的類別空間。
考慮到目標(biāo)領(lǐng)域的類別空間在無監(jiān)督場景下無法被訪問,并且源領(lǐng)域和目標(biāo)領(lǐng)域都存在領(lǐng)域?qū)S玫念悇e信息,因此輸入到ICMSB 正則項的樣本都帶有偽標(biāo)簽。除此之外,考慮到未收斂模型的弱分類能力會造成某類偽標(biāo)記樣本不夠充足,因此算法需要對偽標(biāo)記樣本進(jìn)行過采樣。整個過采樣流程主要由閾值τ 和α控制。詳細(xì)地說,當(dāng)兩個領(lǐng)域的同類偽標(biāo)記樣本個數(shù)都不低于τ 時,算法分別對采樣α 次。否則,算法分別對原始數(shù)據(jù)XS和XT采樣α 次??傊瑹o論哪種采樣方式被算法執(zhí)行,這套過采樣流程都會額外產(chǎn)生兩個樣本集和。最后,為了保證模型收斂,所提算法計算以下梯度縮放率。
基于上述目標(biāo)函數(shù)的形式,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計如圖1 所示。整個算法流程有四個步驟。第一步預(yù)測兩個領(lǐng)域中所有樣本的偽標(biāo)記。第二步對偽標(biāo)記樣本執(zhí)行過采樣流程,并得到第三步評估類內(nèi)分布差異和分類誤差。第四步更新并學(xué)習(xí)分類器f 的參數(shù)θf和特征提取器g 的參數(shù)θg。這些參數(shù)的更新幅度由學(xué)習(xí)率η 控制。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
綜上所述,基于類內(nèi)最大均方偏差的無監(jiān)督自適應(yīng)算法有以下訓(xùn)練過程:
(1)對于當(dāng)前迭代I:
(2)c ←I mod|C|
(4)mc←0,nc←0
(5)對于每個下標(biāo)i=1,2,…,m,若xi帶有偽標(biāo)簽c:
(7)對于每個下標(biāo)j=1,2,…,n,若x?j帶有偽標(biāo)簽c:
(9)如果mc≥τ 并且nc≥τ:
(11)否則,分別從XS和XT中采樣α 次,得到和
為了比較所提算法與主流算法,本文采用精度(Accuracy)指標(biāo)來量化所有算法的性能表現(xiàn)。由于使用神經(jīng)網(wǎng)絡(luò)對目標(biāo)函數(shù)進(jìn)行建模,所提算法被部署到CAFFE[25]深度學(xué)習(xí)框架中。
考慮到對比實驗的公平性,所有實驗均使用OFFICE-31 圖片數(shù)據(jù)集①下載地址為https://pan.baidu.com/s/1o8igXT4#list/path=%2F。OFFICE-31 包含三個領(lǐng)域,分別為AMAZON、DSLR 和WEBCAM。這些領(lǐng)域都包含31 種類別的圖片。其中,AMAZON 包含2817 張圖片,DSLR 包含498 張圖片,WEBCAM 包含795 張圖片。考慮到OFFICE-31 的數(shù)據(jù)形式,所有算法都在六種領(lǐng)域自適應(yīng)場景中驗證它們的有效性。這六種場景分別為‘A2W’、‘W2A’、‘A2D’、‘D2A’、‘W2D’和‘D2W’。其中,‘2’之前的字母代表源領(lǐng)域,剩余的字母代表目標(biāo)領(lǐng)域。
為了更好地展示所提算法的優(yōu)越性,實驗選用了四個主流對比算法,分別為GRL[18]、DRCN[16]、DAN[15]和DDC[14]。其中,GRL 通過最大化領(lǐng)域預(yù)測錯誤率來尋找一致的類別空間,DRCN 借助自動編碼器對齊隱層特征的類別空間。DAN 和DDC 均采用最大均值差異(Maximum Mean Discrepancy,MMD)對齊領(lǐng)域分布,其中前者使用單核MMD,后者使用多核MMD。
同時,所有算法的網(wǎng)絡(luò)骨架均采用AlexNet[26],見圖2。對比算法中的正則項及超參數(shù)維持原論文公布的設(shè)計。所提算法的正則項采用ICMSB 的設(shè)計,并受四類超參數(shù)控制。第一類超參數(shù)是初始學(xué)習(xí)率η0及其退火策略,主要控制模型的迭代優(yōu)化量。由于OFFICE-31 數(shù)據(jù)集充滿背景噪聲,為了不影響模型收斂,算法采用初始學(xué)習(xí)率較小的退火策略來調(diào)整學(xué)習(xí)率,即η0被設(shè)為0.001,并在每個迭代I 計算以下學(xué)習(xí)率η。
第二類超參數(shù)是迭代周期數(shù),主要控制模型的更新次數(shù)。由于使用了較小的學(xué)習(xí)率,算法把迭代周期數(shù)設(shè)定為50000,即I 的取值不能超過50000。根據(jù)設(shè)定,算法使用隨機梯度算法對模型中的所有參數(shù)更新50000 次。第三類超參數(shù)是正則項權(quán)重λ,主要影響正則項對整體目標(biāo)函數(shù)的誤差貢獻(xiàn)。由于ICMSB 自帶縮放功能,正則項權(quán)重λ 被設(shè)定為1.0。第四類超參數(shù)是閾值τ 和α,主要控制算法的過采樣邏輯。在本文實驗中,它們被設(shè)定為7 和64。亦即,當(dāng)兩個領(lǐng)域都有7 個同類偽標(biāo)記樣本時,算法對這些樣本采樣64 次。
圖2 具體網(wǎng)絡(luò)結(jié)構(gòu)
在OFFICE-31 數(shù)據(jù)集上,將所提算法與GRL、DRCN、DAN、DDC 相比較,并得到以下實驗結(jié)果。
表1 OFFICE-31 上的算法精度比較
由表1 可知,在所有的領(lǐng)域自適應(yīng)場景下,ICMSB的精度都高于主流算法。這是因為ICMSB 只對齊兩個領(lǐng)域的類內(nèi)分布,避免了傳統(tǒng)算法的類別信息流失問題。由于其他算法在對齊總體分布時總是過多地流失類別信息,這些對比算法的實驗精度都不及ICMSB。顯然,對齊總體分布會削弱模型對目標(biāo)領(lǐng)域的預(yù)測能力。
值得說明的是,所有算法在‘W2D’和‘D2W’自適應(yīng)場景中都有良好的表現(xiàn)。這是因為DSLR 和WEBCAM 的原始數(shù)據(jù)分布是十分接近的。此外,GRL 和DRCN 分別在‘W2A’和‘A2W’場景中表現(xiàn)遠(yuǎn)遠(yuǎn)不及ICMSB,但GRL 和DRCN 分別在‘A2W’和‘W2A’場景中表現(xiàn)接近ICMSB。這表明對齊總體分布不一定流失太多的類別信息。此外,在所有自適應(yīng)場景中,DAN 的精度都高于DDC。這表明多核MMD 能夠有效保留源領(lǐng)域的類別信息。
針對傳統(tǒng)算法的類別信息流失問題,本文提出了一種基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法。這個算法能夠?qū)R不同領(lǐng)域的類內(nèi)分布。得益于這種類內(nèi)分布對齊的設(shè)計,算法有效保留源領(lǐng)域中具備遷移能力的類別信息,從而獲得優(yōu)于主流算法的性能表現(xiàn)。