亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)

2019-07-25 08:03:22李嘉豪蔡瑞初

現(xiàn)代計算機 2019年17期

李嘉豪，蔡瑞初

（廣東工業(yè)大學(xué)計算機學(xué)院，廣州510006）

0 引言

隨著社會和科技的發(fā)展，人類的活動數(shù)據(jù)與日俱增。由于數(shù)據(jù)處理遠(yuǎn)不如數(shù)據(jù)生成高效，各個領(lǐng)域都亟需一種高效的學(xué)習(xí)方法來處理大量堆積的無標(biāo)簽數(shù)據(jù)。大量的研究工作表明，這種問題能夠被無監(jiān)督領(lǐng)域自適應(yīng)算法[1]有效解決。這種算法能夠把源領(lǐng)域的類別信息遷移到無標(biāo)注的目標(biāo)領(lǐng)域中，避免了繁重的標(biāo)注工作。

目前，分布對齊思想被主流的無監(jiān)督領(lǐng)域自適應(yīng)算法所采用。一些算法假設(shè)目標(biāo)領(lǐng)域總體分布是源領(lǐng)域總體分布的一個子集，并試圖對樣本重加權(quán)或挑選以抽取出一個符合目標(biāo)領(lǐng)域特性的分布[2-4]。一些算法假設(shè)目標(biāo)領(lǐng)域總體分布是源領(lǐng)域總體分布的一個低維映射，并試圖挑選與領(lǐng)域弱相關(guān)的局部特征來對齊領(lǐng)域的低維總體分布[5-7]。這兩種分布對齊方法可以混合使用。最簡單的方法是使用兩個投影矩陣分別加權(quán)源領(lǐng)域和目標(biāo)領(lǐng)域的全體數(shù)據(jù)集，然后使用一定的策略約束投影矩陣和加權(quán)結(jié)果的相似性[8-9]。為了使投影矩陣能夠?qū)R領(lǐng)域總體分布或條件分布，算法需要引入再生核希爾伯特空間，并執(zhí)行核對齊準(zhǔn)則[10-11]和分散準(zhǔn)則[12-13]。

然而，淺層模型沒有為算法提供一個充足的用于分布對齊的參數(shù)空間，算法在面對更為復(fù)雜的場景時無法挖掘出足夠的高層分類知識。為此，不少研究工作使用深度學(xué)習(xí)來完成無監(jiān)督領(lǐng)域自適應(yīng)任務(wù)。部分工作會從神經(jīng)網(wǎng)絡(luò)中劃分一個特征提取器，然后使用最大均值差異對齊不同領(lǐng)域的特征分布差異[14-15]。此外，一些研究工作表明，在基于多任務(wù)學(xué)習(xí)思想設(shè)計的神經(jīng)網(wǎng)絡(luò)上，對目標(biāo)領(lǐng)域重構(gòu)誤差最小化或?qū)︻I(lǐng)域判別誤差最大化，能夠幫助算法尋得領(lǐng)域一致的類別空間。兩個領(lǐng)域的特征分布還可以通過對抗學(xué)習(xí)[20]的形式進(jìn)行對齊。通過反轉(zhuǎn)領(lǐng)域判別器到特征提取器的梯度，特征提取器能夠去除源領(lǐng)域和目標(biāo)領(lǐng)域中的領(lǐng)域?qū)Ｓ眯畔21-22]。此外，兩個共享權(quán)重的生成對抗網(wǎng)絡(luò)也能夠?qū)R生成器的輸出特征分布[23-24]。

不過，這些深度算法經(jīng)常造成分布差異和分類誤差互相抗衡的局面。該問題主要由總體分布對齊引起的，因為從對齊的總體分布中得到的知識未必就是有效的類別信息，從而無法保證類別信息的有效利用。為此，所提算法使用類內(nèi)均方偏差（Intra-Class Mean Square Bias）準(zhǔn)則對齊兩個領(lǐng)域的類內(nèi)分布。這種做法會通過模型預(yù)測所有領(lǐng)域樣本的偽標(biāo)簽，然后對齊兩個領(lǐng)域中帶相同偽標(biāo)簽的數(shù)據(jù)分布。這種做法能夠最大限度保留源領(lǐng)域的類別信息，并且有效減少源領(lǐng)域中某些專用類別信息的干擾。實驗結(jié)果表明所提算法能夠通過類內(nèi)均方偏差準(zhǔn)則有效對齊兩個領(lǐng)域的類內(nèi)分布，并得到了最佳的性能表現(xiàn)。

本文接下來引入一個風(fēng)險上界，并以此概括無監(jiān)督領(lǐng)域自適應(yīng)算法的設(shè)計理念，然后從風(fēng)險上界中引出基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法。最后把所提算法與一系列對比算法進(jìn)行比較，以驗證本文所提算法的效果。

1 無監(jiān)督領(lǐng)域自適應(yīng)

領(lǐng)域自適應(yīng)能夠被一個風(fēng)險上界所描述。在給定轉(zhuǎn)換函數(shù)g 后，這個風(fēng)險上界能夠被拆分為兩個部分。第一部分為目標(biāo)領(lǐng)域的后驗分布pT(Y|g(X))與源領(lǐng)域的后驗分布pS(Y|g(X))之間的差異。第二部分為源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)Ｐ偷暮篁灧植紂(Y|g(X))之間的差異。這些分布差異可以定義為L1距離，即給定任意轉(zhuǎn)換函數(shù)g 和領(lǐng)域D ∈{S,T}后，后驗分布p(Y|g(X))和q(Y|g(X))之間的差異被定義為：

定理1 如果給定轉(zhuǎn)換函數(shù)g 和源領(lǐng)域S 后，源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)Ｐ偷暮篁灧植紂(Y|g(X))之間的差異被量化為?S( )g,q,pS，那么同理可得，并且有不等式：

由定理1 知，若目標(biāo)領(lǐng)域的后驗分布pT(Y|g(X))與源領(lǐng)域的后驗分布pS(Y|g(X))之間的差異Δ 足夠小，那么對齊源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)Ｐ偷暮篁灧植紂(Y|g(X))才有意義，因為q(Y|g(X))能夠逼近pT(Y|g(X))。不過，若使用有監(jiān)督模型來擬合源領(lǐng)域的后驗分布，那么q(Y|g(X))逼近pT(Y|g(X))的程度有限。因為Δ 無法得到優(yōu)化。為此，無監(jiān)督領(lǐng)域自適應(yīng)任務(wù)會借助目標(biāo)領(lǐng)域中的無標(biāo)簽樣本最小化Δ，從而使q(Y|g(X))進(jìn)一步逼近pT(Y|g(X))。根據(jù)Δ 的形式，對齊兩個領(lǐng)域的總體分布πS(g(x))和πT(g(x))能夠達(dá)到最小化Δ 的效果。于是，無監(jiān)督領(lǐng)域自適應(yīng)算法有兩個任務(wù)：①使用任意的有監(jiān)督模型來擬合源領(lǐng)域的后驗分布；②使用一個評估函數(shù)量化并對齊兩個領(lǐng)域的總體分布差異。

2 類內(nèi)均方偏差準(zhǔn)則

根據(jù)上一節(jié)的討論，算法需要借助評估函數(shù)對齊領(lǐng)域總體分布πS(g(x))和πT(g(x))。一種有效的評估函數(shù)是均方偏差準(zhǔn)則，即MSB（Mean Square Bias）。它的定義如下：

其中，μS和μT分別為g(x )在兩個領(lǐng)域上的期望。為了在數(shù)據(jù)集上評估分布差異，均方偏差準(zhǔn)則有經(jīng)驗評估：

然而，定理1 表明，如果算法使用均方偏差準(zhǔn)則對齊總體分布，那么模型可能無法避免分類信息的流失。由于模型與源領(lǐng)域的后驗分布差異還影響到后驗分布差異Δ，對齊領(lǐng)域總體分布有可能造成經(jīng)驗?zāi)Ｐ偷暮篁灧植紵o法逼近源領(lǐng)域的后驗分布，從而增大后驗分布差異Δ。為此，算法轉(zhuǎn)而對齊兩個領(lǐng)域的類內(nèi)分布。根據(jù)式（1），針對類別c 的均方偏差可以定義為：

3 具體模型及算法

綜合上述討論，基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法有以下目標(biāo)函數(shù)

其中，損失函數(shù)L 采用均方誤差或Softmax 函數(shù)等。超參λ 決定ICMSB 正則項的誤差貢獻(xiàn)程度。

根據(jù)式（2）的目標(biāo)函數(shù)形式，算法有兩個任務(wù)。第一個任務(wù)是對分類器f 和特征提取器g 進(jìn)行優(yōu)化，從而最小化源領(lǐng)域分類誤差。第二個任務(wù)是對特征提取器g 使用ICMSB 進(jìn)行優(yōu)化，從而對齊類內(nèi)分布。這里需要說明一點，為了減少內(nèi)存占用，算法在每個迭代I最小化以下形式的ICMSB 正則項。

其中，集合C 代表兩個領(lǐng)域的類別空間。

考慮到目標(biāo)領(lǐng)域的類別空間在無監(jiān)督場景下無法被訪問，并且源領(lǐng)域和目標(biāo)領(lǐng)域都存在領(lǐng)域?qū)Ｓ玫念悇e信息，因此輸入到ICMSB 正則項的樣本都帶有偽標(biāo)簽。除此之外，考慮到未收斂模型的弱分類能力會造成某類偽標(biāo)記樣本不夠充足，因此算法需要對偽標(biāo)記樣本進(jìn)行過采樣。整個過采樣流程主要由閾值τ 和α控制。詳細(xì)地說，當(dāng)兩個領(lǐng)域的同類偽標(biāo)記樣本個數(shù)都不低于τ 時，算法分別對采樣α 次。否則，算法分別對原始數(shù)據(jù)XS和XT采樣α 次?？傊瑹o論哪種采樣方式被算法執(zhí)行，這套過采樣流程都會額外產(chǎn)生兩個樣本集和。最后，為了保證模型收斂，所提算法計算以下梯度縮放率。

基于上述目標(biāo)函數(shù)的形式，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計如圖1 所示。整個算法流程有四個步驟。第一步預(yù)測兩個領(lǐng)域中所有樣本的偽標(biāo)記。第二步對偽標(biāo)記樣本執(zhí)行過采樣流程，并得到第三步評估類內(nèi)分布差異和分類誤差。第四步更新并學(xué)習(xí)分類器f 的參數(shù)θf和特征提取器g 的參數(shù)θg。這些參數(shù)的更新幅度由學(xué)習(xí)率η 控制。

圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

綜上所述，基于類內(nèi)最大均方偏差的無監(jiān)督自適應(yīng)算法有以下訓(xùn)練過程：

（1）對于當(dāng)前迭代I：

（2）c ←I mod|C|

（4）mc←0，nc←0

（5）對于每個下標(biāo)i=1,2,…,m，若xi帶有偽標(biāo)簽c：

（7）對于每個下標(biāo)j=1,2,…,n，若x?j帶有偽標(biāo)簽c：

（9）如果mc≥τ 并且nc≥τ：

（11）否則，分別從XS和XT中采樣α 次，得到和

4 實驗配置及結(jié)果

為了比較所提算法與主流算法，本文采用精度（Accuracy）指標(biāo)來量化所有算法的性能表現(xiàn)。由于使用神經(jīng)網(wǎng)絡(luò)對目標(biāo)函數(shù)進(jìn)行建模，所提算法被部署到CAFFE[25]深度學(xué)習(xí)框架中。

考慮到對比實驗的公平性，所有實驗均使用OFFICE-31 圖片數(shù)據(jù)集①下載地址為https://pan.baidu.com/s/1o8igXT4#list/path=%2F。OFFICE-31 包含三個領(lǐng)域，分別為AMAZON、DSLR 和WEBCAM。這些領(lǐng)域都包含31 種類別的圖片。其中，AMAZON 包含2817 張圖片，DSLR 包含498 張圖片，WEBCAM 包含795 張圖片。考慮到OFFICE-31 的數(shù)據(jù)形式，所有算法都在六種領(lǐng)域自適應(yīng)場景中驗證它們的有效性。這六種場景分別為‘A2W’、‘W2A’、‘A2D’、‘D2A’、‘W2D’和‘D2W’。其中，‘2’之前的字母代表源領(lǐng)域，剩余的字母代表目標(biāo)領(lǐng)域。

為了更好地展示所提算法的優(yōu)越性，實驗選用了四個主流對比算法，分別為GRL[18]、DRCN[16]、DAN[15]和DDC[14]。其中，GRL 通過最大化領(lǐng)域預(yù)測錯誤率來尋找一致的類別空間，DRCN 借助自動編碼器對齊隱層特征的類別空間。DAN 和DDC 均采用最大均值差異（Maximum Mean Discrepancy，MMD）對齊領(lǐng)域分布，其中前者使用單核MMD，后者使用多核MMD。

同時，所有算法的網(wǎng)絡(luò)骨架均采用AlexNet[26]，見圖2。對比算法中的正則項及超參數(shù)維持原論文公布的設(shè)計。所提算法的正則項采用ICMSB 的設(shè)計，并受四類超參數(shù)控制。第一類超參數(shù)是初始學(xué)習(xí)率η0及其退火策略，主要控制模型的迭代優(yōu)化量。由于OFFICE-31 數(shù)據(jù)集充滿背景噪聲，為了不影響模型收斂，算法采用初始學(xué)習(xí)率較小的退火策略來調(diào)整學(xué)習(xí)率，即η0被設(shè)為0.001，并在每個迭代I 計算以下學(xué)習(xí)率η。

第二類超參數(shù)是迭代周期數(shù)，主要控制模型的更新次數(shù)。由于使用了較小的學(xué)習(xí)率，算法把迭代周期數(shù)設(shè)定為50000，即I 的取值不能超過50000。根據(jù)設(shè)定，算法使用隨機梯度算法對模型中的所有參數(shù)更新50000 次。第三類超參數(shù)是正則項權(quán)重λ，主要影響正則項對整體目標(biāo)函數(shù)的誤差貢獻(xiàn)。由于ICMSB 自帶縮放功能，正則項權(quán)重λ 被設(shè)定為1.0。第四類超參數(shù)是閾值τ 和α，主要控制算法的過采樣邏輯。在本文實驗中，它們被設(shè)定為7 和64。亦即，當(dāng)兩個領(lǐng)域都有7 個同類偽標(biāo)記樣本時，算法對這些樣本采樣64 次。

圖2 具體網(wǎng)絡(luò)結(jié)構(gòu)

在OFFICE-31 數(shù)據(jù)集上，將所提算法與GRL、DRCN、DAN、DDC 相比較，并得到以下實驗結(jié)果。

表1 OFFICE-31 上的算法精度比較

由表1 可知，在所有的領(lǐng)域自適應(yīng)場景下，ICMSB的精度都高于主流算法。這是因為ICMSB 只對齊兩個領(lǐng)域的類內(nèi)分布，避免了傳統(tǒng)算法的類別信息流失問題。由于其他算法在對齊總體分布時總是過多地流失類別信息，這些對比算法的實驗精度都不及ICMSB。顯然，對齊總體分布會削弱模型對目標(biāo)領(lǐng)域的預(yù)測能力。

值得說明的是，所有算法在‘W2D’和‘D2W’自適應(yīng)場景中都有良好的表現(xiàn)。這是因為DSLR 和WEBCAM 的原始數(shù)據(jù)分布是十分接近的。此外，GRL 和DRCN 分別在‘W2A’和‘A2W’場景中表現(xiàn)遠(yuǎn)遠(yuǎn)不及ICMSB，但GRL 和DRCN 分別在‘A2W’和‘W2A’場景中表現(xiàn)接近ICMSB。這表明對齊總體分布不一定流失太多的類別信息。此外，在所有自適應(yīng)場景中，DAN 的精度都高于DDC。這表明多核MMD 能夠有效保留源領(lǐng)域的類別信息。

5 結(jié)語

針對傳統(tǒng)算法的類別信息流失問題，本文提出了一種基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法。這個算法能夠?qū)R不同領(lǐng)域的類內(nèi)分布。得益于這種類內(nèi)分布對齊的設(shè)計，算法有效保留源領(lǐng)域中具備遷移能力的類別信息，從而獲得優(yōu)于主流算法的性能表現(xiàn)。