亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)

        2019-07-25 08:03:22李嘉豪蔡瑞初
        現(xiàn)代計算機 2019年17期
        關(guān)鍵詞:監(jiān)督差異模型

        李嘉豪,蔡瑞初

        (廣東工業(yè)大學(xué)計算機學(xué)院,廣州510006)

        0 引言

        隨著社會和科技的發(fā)展,人類的活動數(shù)據(jù)與日俱增。由于數(shù)據(jù)處理遠(yuǎn)不如數(shù)據(jù)生成高效,各個領(lǐng)域都亟需一種高效的學(xué)習(xí)方法來處理大量堆積的無標(biāo)簽數(shù)據(jù)。大量的研究工作表明,這種問題能夠被無監(jiān)督領(lǐng)域自適應(yīng)算法[1]有效解決。這種算法能夠把源領(lǐng)域的類別信息遷移到無標(biāo)注的目標(biāo)領(lǐng)域中,避免了繁重的標(biāo)注工作。

        目前,分布對齊思想被主流的無監(jiān)督領(lǐng)域自適應(yīng)算法所采用。一些算法假設(shè)目標(biāo)領(lǐng)域總體分布是源領(lǐng)域總體分布的一個子集,并試圖對樣本重加權(quán)或挑選以抽取出一個符合目標(biāo)領(lǐng)域特性的分布[2-4]。一些算法假設(shè)目標(biāo)領(lǐng)域總體分布是源領(lǐng)域總體分布的一個低維映射,并試圖挑選與領(lǐng)域弱相關(guān)的局部特征來對齊領(lǐng)域的低維總體分布[5-7]。這兩種分布對齊方法可以混合使用。最簡單的方法是使用兩個投影矩陣分別加權(quán)源領(lǐng)域和目標(biāo)領(lǐng)域的全體數(shù)據(jù)集,然后使用一定的策略約束投影矩陣和加權(quán)結(jié)果的相似性[8-9]。為了使投影矩陣能夠?qū)R領(lǐng)域總體分布或條件分布,算法需要引入再生核希爾伯特空間,并執(zhí)行核對齊準(zhǔn)則[10-11]和分散準(zhǔn)則[12-13]。

        然而,淺層模型沒有為算法提供一個充足的用于分布對齊的參數(shù)空間,算法在面對更為復(fù)雜的場景時無法挖掘出足夠的高層分類知識。為此,不少研究工作使用深度學(xué)習(xí)來完成無監(jiān)督領(lǐng)域自適應(yīng)任務(wù)。部分工作會從神經(jīng)網(wǎng)絡(luò)中劃分一個特征提取器,然后使用最大均值差異對齊不同領(lǐng)域的特征分布差異[14-15]。此外,一些研究工作表明,在基于多任務(wù)學(xué)習(xí)思想設(shè)計的神經(jīng)網(wǎng)絡(luò)上,對目標(biāo)領(lǐng)域重構(gòu)誤差最小化或?qū)︻I(lǐng)域判別誤差最大化,能夠幫助算法尋得領(lǐng)域一致的類別空間。兩個領(lǐng)域的特征分布還可以通過對抗學(xué)習(xí)[20]的形式進(jìn)行對齊。通過反轉(zhuǎn)領(lǐng)域判別器到特征提取器的梯度,特征提取器能夠去除源領(lǐng)域和目標(biāo)領(lǐng)域中的領(lǐng)域?qū)S眯畔21-22]。此外,兩個共享權(quán)重的生成對抗網(wǎng)絡(luò)也能夠?qū)R生成器的輸出特征分布[23-24]。

        不過,這些深度算法經(jīng)常造成分布差異和分類誤差互相抗衡的局面。該問題主要由總體分布對齊引起的,因為從對齊的總體分布中得到的知識未必就是有效的類別信息,從而無法保證類別信息的有效利用。為此,所提算法使用類內(nèi)均方偏差(Intra-Class Mean Square Bias)準(zhǔn)則對齊兩個領(lǐng)域的類內(nèi)分布。這種做法會通過模型預(yù)測所有領(lǐng)域樣本的偽標(biāo)簽,然后對齊兩個領(lǐng)域中帶相同偽標(biāo)簽的數(shù)據(jù)分布。這種做法能夠最大限度保留源領(lǐng)域的類別信息,并且有效減少源領(lǐng)域中某些專用類別信息的干擾。實驗結(jié)果表明所提算法能夠通過類內(nèi)均方偏差準(zhǔn)則有效對齊兩個領(lǐng)域的類內(nèi)分布,并得到了最佳的性能表現(xiàn)。

        本文接下來引入一個風(fēng)險上界,并以此概括無監(jiān)督領(lǐng)域自適應(yīng)算法的設(shè)計理念,然后從風(fēng)險上界中引出基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法。最后把所提算法與一系列對比算法進(jìn)行比較,以驗證本文所提算法的效果。

        1 無監(jiān)督領(lǐng)域自適應(yīng)

        領(lǐng)域自適應(yīng)能夠被一個風(fēng)險上界所描述。在給定轉(zhuǎn)換函數(shù)g 后,這個風(fēng)險上界能夠被拆分為兩個部分。第一部分為目標(biāo)領(lǐng)域的后驗分布pT(Y|g(X))與源領(lǐng)域的后驗分布pS(Y|g(X))之間的差異。第二部分為源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)P偷暮篁灧植紂(Y|g(X))之間的差異。這些分布差異可以定義為L1距離,即給定任意轉(zhuǎn)換函數(shù)g 和領(lǐng)域D ∈{S,T}后,后驗分布p(Y|g(X))和q(Y|g(X))之間的差異被定義為:

        定理1 如果給定轉(zhuǎn)換函數(shù)g 和源領(lǐng)域S 后,源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)P偷暮篁灧植紂(Y|g(X))之間的差異被量化為?S( )g,q,pS,那么同理可得,并且有不等式:

        由定理1 知,若目標(biāo)領(lǐng)域的后驗分布pT(Y|g(X))與源領(lǐng)域的后驗分布pS(Y|g(X))之間的差異Δ 足夠小,那么對齊源領(lǐng)域的后驗分布pS(Y|g(X))與經(jīng)驗?zāi)P偷暮篁灧植紂(Y|g(X))才有意義,因為q(Y|g(X))能夠逼近pT(Y|g(X))。不過,若使用有監(jiān)督模型來擬合源領(lǐng)域的后驗分布,那么q(Y|g(X))逼近pT(Y|g(X))的程度有限。因為Δ 無法得到優(yōu)化。為此,無監(jiān)督領(lǐng)域自適應(yīng)任務(wù)會借助目標(biāo)領(lǐng)域中的無標(biāo)簽樣本最小化Δ,從而使q(Y|g(X))進(jìn)一步逼近pT(Y|g(X))。根據(jù)Δ 的形式,對齊兩個領(lǐng)域的總體分布πS(g(x))和πT(g(x))能夠達(dá)到最小化Δ 的效果。于是,無監(jiān)督領(lǐng)域自適應(yīng)算法有兩個任務(wù):①使用任意的有監(jiān)督模型來擬合源領(lǐng)域的后驗分布;②使用一個評估函數(shù)量化并對齊兩個領(lǐng)域的總體分布差異。

        2 類內(nèi)均方偏差準(zhǔn)則

        根據(jù)上一節(jié)的討論,算法需要借助評估函數(shù)對齊領(lǐng)域總體分布πS(g(x))和πT(g(x))。一種有效的評估函數(shù)是均方偏差準(zhǔn)則,即MSB(Mean Square Bias)。它的定義如下:

        其中,μS和μT分別為g(x )在兩個領(lǐng)域上的期望。為了在數(shù)據(jù)集上評估分布差異,均方偏差準(zhǔn)則有經(jīng)驗評估:

        然而,定理1 表明,如果算法使用均方偏差準(zhǔn)則對齊總體分布,那么模型可能無法避免分類信息的流失。由于模型與源領(lǐng)域的后驗分布差異還影響到后驗分布差異Δ,對齊領(lǐng)域總體分布有可能造成經(jīng)驗?zāi)P偷暮篁灧植紵o法逼近源領(lǐng)域的后驗分布,從而增大后驗分布差異Δ。為此,算法轉(zhuǎn)而對齊兩個領(lǐng)域的類內(nèi)分布。根據(jù)式(1),針對類別c 的均方偏差可以定義為:

        3 具體模型及算法

        綜合上述討論,基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法有以下目標(biāo)函數(shù)

        其中,損失函數(shù)L 采用均方誤差或Softmax 函數(shù)等。超參λ 決定ICMSB 正則項的誤差貢獻(xiàn)程度。

        根據(jù)式(2)的目標(biāo)函數(shù)形式,算法有兩個任務(wù)。第一個任務(wù)是對分類器f 和特征提取器g 進(jìn)行優(yōu)化,從而最小化源領(lǐng)域分類誤差。第二個任務(wù)是對特征提取器g 使用ICMSB 進(jìn)行優(yōu)化,從而對齊類內(nèi)分布。這里需要說明一點,為了減少內(nèi)存占用,算法在每個迭代I最小化以下形式的ICMSB 正則項。

        其中,集合C 代表兩個領(lǐng)域的類別空間。

        考慮到目標(biāo)領(lǐng)域的類別空間在無監(jiān)督場景下無法被訪問,并且源領(lǐng)域和目標(biāo)領(lǐng)域都存在領(lǐng)域?qū)S玫念悇e信息,因此輸入到ICMSB 正則項的樣本都帶有偽標(biāo)簽。除此之外,考慮到未收斂模型的弱分類能力會造成某類偽標(biāo)記樣本不夠充足,因此算法需要對偽標(biāo)記樣本進(jìn)行過采樣。整個過采樣流程主要由閾值τ 和α控制。詳細(xì)地說,當(dāng)兩個領(lǐng)域的同類偽標(biāo)記樣本個數(shù)都不低于τ 時,算法分別對采樣α 次。否則,算法分別對原始數(shù)據(jù)XS和XT采樣α 次??傊瑹o論哪種采樣方式被算法執(zhí)行,這套過采樣流程都會額外產(chǎn)生兩個樣本集和。最后,為了保證模型收斂,所提算法計算以下梯度縮放率。

        基于上述目標(biāo)函數(shù)的形式,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計如圖1 所示。整個算法流程有四個步驟。第一步預(yù)測兩個領(lǐng)域中所有樣本的偽標(biāo)記。第二步對偽標(biāo)記樣本執(zhí)行過采樣流程,并得到第三步評估類內(nèi)分布差異和分類誤差。第四步更新并學(xué)習(xí)分類器f 的參數(shù)θf和特征提取器g 的參數(shù)θg。這些參數(shù)的更新幅度由學(xué)習(xí)率η 控制。

        圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        綜上所述,基于類內(nèi)最大均方偏差的無監(jiān)督自適應(yīng)算法有以下訓(xùn)練過程:

        (1)對于當(dāng)前迭代I:

        (2)c ←I mod|C|

        (4)mc←0,nc←0

        (5)對于每個下標(biāo)i=1,2,…,m,若xi帶有偽標(biāo)簽c:

        (7)對于每個下標(biāo)j=1,2,…,n,若x?j帶有偽標(biāo)簽c:

        (9)如果mc≥τ 并且nc≥τ:

        (11)否則,分別從XS和XT中采樣α 次,得到和

        4 實驗配置及結(jié)果

        為了比較所提算法與主流算法,本文采用精度(Accuracy)指標(biāo)來量化所有算法的性能表現(xiàn)。由于使用神經(jīng)網(wǎng)絡(luò)對目標(biāo)函數(shù)進(jìn)行建模,所提算法被部署到CAFFE[25]深度學(xué)習(xí)框架中。

        考慮到對比實驗的公平性,所有實驗均使用OFFICE-31 圖片數(shù)據(jù)集①下載地址為https://pan.baidu.com/s/1o8igXT4#list/path=%2F。OFFICE-31 包含三個領(lǐng)域,分別為AMAZON、DSLR 和WEBCAM。這些領(lǐng)域都包含31 種類別的圖片。其中,AMAZON 包含2817 張圖片,DSLR 包含498 張圖片,WEBCAM 包含795 張圖片。考慮到OFFICE-31 的數(shù)據(jù)形式,所有算法都在六種領(lǐng)域自適應(yīng)場景中驗證它們的有效性。這六種場景分別為‘A2W’、‘W2A’、‘A2D’、‘D2A’、‘W2D’和‘D2W’。其中,‘2’之前的字母代表源領(lǐng)域,剩余的字母代表目標(biāo)領(lǐng)域。

        為了更好地展示所提算法的優(yōu)越性,實驗選用了四個主流對比算法,分別為GRL[18]、DRCN[16]、DAN[15]和DDC[14]。其中,GRL 通過最大化領(lǐng)域預(yù)測錯誤率來尋找一致的類別空間,DRCN 借助自動編碼器對齊隱層特征的類別空間。DAN 和DDC 均采用最大均值差異(Maximum Mean Discrepancy,MMD)對齊領(lǐng)域分布,其中前者使用單核MMD,后者使用多核MMD。

        同時,所有算法的網(wǎng)絡(luò)骨架均采用AlexNet[26],見圖2。對比算法中的正則項及超參數(shù)維持原論文公布的設(shè)計。所提算法的正則項采用ICMSB 的設(shè)計,并受四類超參數(shù)控制。第一類超參數(shù)是初始學(xué)習(xí)率η0及其退火策略,主要控制模型的迭代優(yōu)化量。由于OFFICE-31 數(shù)據(jù)集充滿背景噪聲,為了不影響模型收斂,算法采用初始學(xué)習(xí)率較小的退火策略來調(diào)整學(xué)習(xí)率,即η0被設(shè)為0.001,并在每個迭代I 計算以下學(xué)習(xí)率η。

        第二類超參數(shù)是迭代周期數(shù),主要控制模型的更新次數(shù)。由于使用了較小的學(xué)習(xí)率,算法把迭代周期數(shù)設(shè)定為50000,即I 的取值不能超過50000。根據(jù)設(shè)定,算法使用隨機梯度算法對模型中的所有參數(shù)更新50000 次。第三類超參數(shù)是正則項權(quán)重λ,主要影響正則項對整體目標(biāo)函數(shù)的誤差貢獻(xiàn)。由于ICMSB 自帶縮放功能,正則項權(quán)重λ 被設(shè)定為1.0。第四類超參數(shù)是閾值τ 和α,主要控制算法的過采樣邏輯。在本文實驗中,它們被設(shè)定為7 和64。亦即,當(dāng)兩個領(lǐng)域都有7 個同類偽標(biāo)記樣本時,算法對這些樣本采樣64 次。

        圖2 具體網(wǎng)絡(luò)結(jié)構(gòu)

        在OFFICE-31 數(shù)據(jù)集上,將所提算法與GRL、DRCN、DAN、DDC 相比較,并得到以下實驗結(jié)果。

        表1 OFFICE-31 上的算法精度比較

        由表1 可知,在所有的領(lǐng)域自適應(yīng)場景下,ICMSB的精度都高于主流算法。這是因為ICMSB 只對齊兩個領(lǐng)域的類內(nèi)分布,避免了傳統(tǒng)算法的類別信息流失問題。由于其他算法在對齊總體分布時總是過多地流失類別信息,這些對比算法的實驗精度都不及ICMSB。顯然,對齊總體分布會削弱模型對目標(biāo)領(lǐng)域的預(yù)測能力。

        值得說明的是,所有算法在‘W2D’和‘D2W’自適應(yīng)場景中都有良好的表現(xiàn)。這是因為DSLR 和WEBCAM 的原始數(shù)據(jù)分布是十分接近的。此外,GRL 和DRCN 分別在‘W2A’和‘A2W’場景中表現(xiàn)遠(yuǎn)遠(yuǎn)不及ICMSB,但GRL 和DRCN 分別在‘A2W’和‘W2A’場景中表現(xiàn)接近ICMSB。這表明對齊總體分布不一定流失太多的類別信息。此外,在所有自適應(yīng)場景中,DAN 的精度都高于DDC。這表明多核MMD 能夠有效保留源領(lǐng)域的類別信息。

        5 結(jié)語

        針對傳統(tǒng)算法的類別信息流失問題,本文提出了一種基于類內(nèi)均方偏差的無監(jiān)督領(lǐng)域自適應(yīng)算法。這個算法能夠?qū)R不同領(lǐng)域的類內(nèi)分布。得益于這種類內(nèi)分布對齊的設(shè)計,算法有效保留源領(lǐng)域中具備遷移能力的類別信息,從而獲得優(yōu)于主流算法的性能表現(xiàn)。

        猜你喜歡
        監(jiān)督差異模型
        一半模型
        相似與差異
        音樂探索(2022年2期)2022-05-30 21:01:37
        重要模型『一線三等角』
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        找句子差異
        生物為什么會有差異?
        監(jiān)督見成效 舊貌換新顏
        夯實監(jiān)督之基
        3D打印中的模型分割與打包
        粉嫩av最新在线高清观看| 日韩AV无码一区二区三| AV中文码一区二区三区| 日本妇女高清一区二区三区| 波多野结衣av一区二区全免费观看| 国产尤物精品福利视频| 日本19禁啪啪吃奶大尺度| 丰满女人又爽又紧又丰满| 国产精品一区二区三级| 国产影片免费一级内射| 成年美女黄的视频网站| 国产成人亚洲精品无码mp4| 91精品国产色综合久久不卡蜜| 四虎在线中文字幕一区| 日日碰狠狠添天天爽超碰97久久 | 国产成人精品人人做人人爽97 | 日本a级一级淫片免费观看| 亚洲人精品亚洲人成在线| 亚洲一区二区三区成人| 中文字幕人妻一区色偷久久| 人妻少妇进入猛烈时中文字幕| 国产 字幕 制服 中文 在线| 久久精品伊人无码二区| 在线观看视频国产一区二区三区 | 日韩高清在线观看永久| 国产精品九九久久一区hh| 一区二区三区在线乱码| 国产熟妇与子伦hd| 久久久久久久女国产乱让韩| 久久久久无码中文字幕| 久久亚洲中文字幕乱码| 在线涩涩免费观看国产精品| 国产一级毛片卡| 日韩精品一区二区在线视| 三级全黄裸体| 欧美日韩精品一区二区在线观看| 国产在视频线精品视频二代| 校园春色日韩高清一区二区| 国产精品亚洲αv天堂无码| 日韩AV有码无码一区二区三区| 亚洲一区二区三区免费av|