亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于反向偽標(biāo)簽最優(yōu)化傳輸?shù)臒o監(jiān)督域自適應(yīng)

        2023-08-15 02:53:46韓忠義尹義龍
        關(guān)鍵詞:特征模型

        孫 昊 韓忠義 王 帆 尹義龍

        (山東大學(xué)軟件學(xué)院 濟(jì)南 250000)(202215230@mail.sdu.edu.cn)

        近年來,無監(jiān)督域自適應(yīng)成為一個(gè)備受關(guān)注、重要且有價(jià)值的問題,它可以解決現(xiàn)實(shí)世界中數(shù)據(jù)分布不同導(dǎo)致模型性能下降的問題.在機(jī)器學(xué)習(xí)中,大量的方法都是基于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)屬于獨(dú)立同分布的假設(shè),但在實(shí)際情況下它們的分布往往是相似但不同的.因此,在富有監(jiān)督信息的訓(xùn)練數(shù)據(jù)上訓(xùn)練好的模型在面對實(shí)際測試數(shù)據(jù)時(shí)無法適應(yīng)分布差異[1],導(dǎo)致模型的性能大幅度下降[2].在這種背景下,無監(jiān)督域自適應(yīng)(unsupervised domain adaptation)被提出來解決這類現(xiàn)實(shí)問題.

        有標(biāo)簽的訓(xùn)練數(shù)據(jù)的分布被稱作源域,沒有標(biāo)簽的測試數(shù)據(jù)的分布被稱作目標(biāo)域,無監(jiān)督域自適應(yīng)研究的是如何把源域上學(xué)習(xí)到的知識轉(zhuǎn)移到目標(biāo)域上,解決模型由于分布偏移而在目標(biāo)域數(shù)據(jù)上性能下降的問題[2].與傳統(tǒng)監(jiān)督學(xué)習(xí)相比,無監(jiān)督域自適應(yīng)不需要目標(biāo)域監(jiān)督信息,減免了手動給目標(biāo)域標(biāo)注標(biāo)簽這種耗時(shí)且昂貴的工作,也展現(xiàn)出了非常可觀的應(yīng)用價(jià)值,它將傳統(tǒng)機(jī)器學(xué)習(xí)從有限的封閉環(huán)境向現(xiàn)實(shí)的開放環(huán)境發(fā)展,實(shí)現(xiàn)了機(jī)器學(xué)習(xí)的應(yīng)用化和實(shí)用化,在自動駕駛、智慧醫(yī)療等方面發(fā)揮了重要的作用.例如在自動駕駛領(lǐng)域,車輛會面臨不同時(shí)間、不同天氣、不同城市等不斷變化的環(huán)境,給模型做判斷提高了難度.無監(jiān)督域自適應(yīng)增強(qiáng)了模型應(yīng)對不同場景的適應(yīng)力,保證了安全性,因此無監(jiān)督域自適應(yīng)已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)非常熱門的話題.

        近年來,無監(jiān)督域自適應(yīng)引起了越來越多國內(nèi)外研究者的關(guān)注,得到了較為深入的研究,取得了較大的發(fā)展.目前無監(jiān)督域自適應(yīng)問題的解決方法主要有4個(gè)方面:1)提取域不變特征[3-4].它考慮的是盡管源域和目標(biāo)域分布不同,但存在可以用來判別樣本類別的域不變的特征,神經(jīng)網(wǎng)絡(luò)通過提取域不變特征來實(shí)現(xiàn)知識從源域到目標(biāo)域的轉(zhuǎn)移.2)加權(quán)重采樣[5-7].它的主要思想是通過給每個(gè)源域樣本分配一個(gè)權(quán)重,使加權(quán)重采樣后的源域和目標(biāo)域盡可能相似,從而源域和目標(biāo)域可以被近似地認(rèn)為滿足獨(dú)立同分布,使模型可以在目標(biāo)域上表現(xiàn)出很好的效果.3)基于對抗的方法[8-10].它的主流思想是訓(xùn)練一個(gè)域判別器,讓特征提取器和域判別器形成對抗訓(xùn)練,使特征提取器盡可能提取域判別器無法區(qū)分的特征,從而提取到2個(gè)域的共同特征,實(shí)現(xiàn)知識遷移.4)基于偽標(biāo)簽(自訓(xùn)練)[3,11-12]的方法.用在源域樣本上訓(xùn)練的分類器在目標(biāo)域上標(biāo)注偽標(biāo)簽,再通過不斷給目標(biāo)域偽標(biāo)簽提純來增強(qiáng)偽標(biāo)簽的可信度,最終將偽標(biāo)簽視為模型預(yù)測的標(biāo)簽進(jìn)行輸出.

        盡管已有的無監(jiān)督域自適應(yīng)方法取得了一定程度的效果提升,卻仍存在一些問題有待解決,包括2個(gè)方面:1)如何獲得更魯棒的公共特征.在基于度量分布距離來進(jìn)行特征對齊的方法中,如何合理準(zhǔn)確地度量源域和目標(biāo)域之間的差異,以便模型能夠?qū)W習(xí)到更好的公共特征,是一個(gè)值得不斷探索的問題.無論是基于核函數(shù)的MMD (maximum mean discrepancy )[13],JMMD[14],DAN(deep adaptation network )[15],基于均值和協(xié)方差矩陣的CORAL[16],Deep CORAL[17],基于能量和信息論的KL散度[18],還是H-divergence[19]和MDD(margin disparity discrepancy)[20],它們都關(guān)注于2個(gè)域之間的數(shù)據(jù)點(diǎn)的分布差異,但忽略了源域和目標(biāo)域之間的結(jié)構(gòu)相似性和拓?fù)湫畔?2)如何更有效地利用偽標(biāo)簽.基于偽標(biāo)簽的方法包括為每個(gè)樣本分配標(biāo)簽的硬標(biāo)簽方法[21-23]和對每個(gè)樣本分配一個(gè)向量的軟標(biāo)簽[24]方法,它們都存在一個(gè)問題:由于存在分布偏移,根據(jù)高置信度來選取的目標(biāo)域偽標(biāo)簽的可信性大大降低.由于目標(biāo)域缺乏真實(shí)標(biāo)簽信息,無法利用監(jiān)督學(xué)習(xí)的損失函數(shù)來糾正錯(cuò)誤的偽標(biāo)簽,也無法得知模型遷移知識的能力.

        在本文中,為了更準(zhǔn)確地度量2個(gè)分布之間的距離以及更有效地利用偽標(biāo)簽來驗(yàn)證模型知識遷移的能力,本文提出了反向驗(yàn)證標(biāo)簽最優(yōu)化傳輸方法BPLOT.BPLOT主要包含3個(gè)部分:1)最優(yōu)化特征-拓?fù)鋫鬏?該部分從特征層面和拓?fù)浣Y(jié)構(gòu)層面來度量分布之間的距離.主要思想是融合利用瓦瑟斯坦距離(Wasserstein distance,WD)和格羅莫夫-瓦瑟斯坦距離(Gromov-Wasserstein distance,GWD).通過將WD和GWD的傳輸方案共享,在利用WD度量分布間特征距離的同時(shí),利用GWD度量分布間拓?fù)湫畔⒌牟町悾瑥亩罱K計(jì)算距離更準(zhǔn)確的反應(yīng)分布差異.2)反向驗(yàn)證偽標(biāo)簽部分.該部分通過使用偽標(biāo)簽來驗(yàn)證模型知識遷移能力.其主要思想是將用目標(biāo)域偽標(biāo)簽訓(xùn)練的分類器反向在源域進(jìn)行驗(yàn)證,最小化分類器在源域數(shù)據(jù)上的損失.由于源域數(shù)據(jù)有真實(shí)標(biāo)簽,解決了無法驗(yàn)證模型知識遷移能力的問題.模型知識遷移能力越強(qiáng),目標(biāo)域分類器在源域上的表現(xiàn)越好.3)Tsallis熵部分.它既增強(qiáng)了模型在目標(biāo)域上的分類信心,減小分類的不確定性,又保證了模型在訓(xùn)練過程中能夠糾正分類錯(cuò)誤的偽標(biāo)記.其主要思想是通過Tsallis熵來對目標(biāo)域分類輸出進(jìn)行正則化,動態(tài)調(diào)整對模型不確定性的懲罰力度,達(dá)到模型最優(yōu)的效果.

        本文的主要貢獻(xiàn)可以總結(jié)為3點(diǎn):

        1)針對無監(jiān)督域自適應(yīng)問題,提出了基于反向偽標(biāo)簽最優(yōu)化傳輸方法,該方法進(jìn)一步提高了模型在目標(biāo)域上的性能和魯棒性.

        2)從最優(yōu)化運(yùn)輸?shù)慕嵌瘸霭l(fā),考慮了特征距離和拓?fù)洳町悾鼫?zhǔn)確地計(jì)算了分布之間的距離,從而提取出更加魯棒的公共特征;同時(shí),通過反向驗(yàn)證偽標(biāo)簽,驗(yàn)證了模型知識遷移的能力,提高了偽標(biāo)簽質(zhì)量,實(shí)現(xiàn)知識從源域向目標(biāo)域的轉(zhuǎn)移.

        3)本文將BPLOT在多個(gè)無監(jiān)督域自適應(yīng)數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果顯示其效果超過了基準(zhǔn)方法.通過消融實(shí)驗(yàn),對每個(gè)單獨(dú)測試部分進(jìn)行分析,也證明了本文提出的各個(gè)部分的有效性和合理性.

        1 相關(guān)工作

        本節(jié)主要介紹了無監(jiān)督域自適應(yīng)、自訓(xùn)練學(xué)習(xí)、最優(yōu)化傳輸?shù)难芯糠椒ê脱芯窟M(jìn)展.

        1.1 無監(jiān)督域自適應(yīng)方法研究進(jìn)展

        目前,在所有無監(jiān)督域自適應(yīng)的方法中,學(xué)習(xí)域不變特征表示是一種非常重要的方法,本文的方法也屬于這一種.域不變特征表示的學(xué)習(xí)主流方法有3種:

        1)基于分布距離特征對齊的方法.其基本思想是計(jì)算兩個(gè)分布之間的差異,顯式地減少2個(gè)域之間的距離[4,14,25].基本方法是使用一種度量2個(gè)域之間差異性的計(jì)算方法,通過明確的公式計(jì)算出2個(gè)域之間的距離,然后通過調(diào)整特征提取器減小這個(gè)距離.已被廣泛利用的有MMD[13],JointMMD[21],MDD[20]等距離,此外還有最近被應(yīng)用于無監(jiān)督域自適應(yīng)的最優(yōu)化傳輸算法.

        2)基于對抗學(xué)習(xí)[26-28]的方法.其基本思想是在對抗的過程中學(xué)習(xí)2個(gè)域之間的不變特征,即用域判別器度量2個(gè)域之間的差異程度.其中意義重大的工作是DANN模型[29].其基本方法是訓(xùn)練一個(gè)二分類器作為域判別器,判斷樣本屬于源域還是目標(biāo)域.同時(shí),也訓(xùn)練特征提取器,盡量使得特征提取器提取的特征無法被域判別器區(qū)分,從而形成對抗訓(xùn)練,使得域判別器和特征提取器對抗學(xué)習(xí).最后提取器提取的特征就被認(rèn)為是域不變特征.

        3)基于半監(jiān)督學(xué)習(xí)中偽標(biāo)簽(自訓(xùn)練)的方法用在源域數(shù)據(jù)上,訓(xùn)練的源域分類器給目標(biāo)域數(shù)據(jù)標(biāo)注偽標(biāo)簽,并不斷修改提純偽標(biāo)簽,且特征提取器不斷學(xué)習(xí)提取域不變特征.

        1.2 分布距離度量方法在無監(jiān)督域自適應(yīng)中的應(yīng)用

        基于分布距離度量的特征對齊方法是無監(jiān)督域自適應(yīng)中非常基本的一種方法.其主要的思想是通過特征提取網(wǎng)絡(luò)或者映射,將源域和目標(biāo)域的樣本從輸入空間提取到特征空間或者映射到可再生核希伯爾特空間中,使2個(gè)分布中的樣本在新空間中的分布變得相似,從而使得后面的分類器可以根據(jù)在源域上學(xué)習(xí)到的知識給目標(biāo)域樣本進(jìn)行正確分類.

        KMM (kernel mean matching )方法[24]是該方向中較早使用的方法之一.KMM提出了給每個(gè)源域的訓(xùn)練樣本分配一個(gè)權(quán)重,使得分配權(quán)重后的源域分布近似于目標(biāo)域分布,減少特征距離.后來, MMD距離[13]在KMM上繼續(xù)發(fā)展,直接計(jì)算并最小化源域和目標(biāo)域在核希伯爾特空間中的距離.DDC (deep domain confusion )方法[25]將MMD距離加入深度神經(jīng)網(wǎng)絡(luò),對模型的自適應(yīng)層進(jìn)行調(diào)整;而DAN方法[12]則在DDC的基礎(chǔ)上進(jìn)一步發(fā)展,提出MK-MMD距離,將DDC中的MMD距離適應(yīng)層從1層增加到了3層,并且計(jì)算MMD距離時(shí)使用了多個(gè)核函數(shù).

        除MMD距離外,文獻(xiàn)[14]還通過對多個(gè)特征連同logit輸出連續(xù)做乘法的方式計(jì)算JointMMD距離[21]來度量2個(gè)分布之間的距離,考慮特征的同時(shí)考慮了類別信息.MDD 距離[8]則是在距離度量方面提出新的理論,將評分函數(shù)和損失結(jié)合在了一起,進(jìn)一步提升了模型的表現(xiàn).但是文獻(xiàn)[8,12-14,21,24-25]的方法都沒有單獨(dú)考慮2個(gè)分布之間的拓?fù)湫畔⒉町?BPLOT從最優(yōu)化傳輸理論出發(fā),利用了衡量特征差異的瓦瑟斯坦距離和衡量拓?fù)洳町惖母窳_莫夫-瓦瑟斯坦距離來進(jìn)行2個(gè)分布之間的特征對齊,實(shí)現(xiàn)了更好的效果,并通過實(shí)驗(yàn)證明了在度量分布差異時(shí)拓?fù)洳町惒豢珊鲆?

        1.3 偽標(biāo)簽學(xué)習(xí)在無監(jiān)督域自適應(yīng)中的應(yīng)用

        近年來,半監(jiān)督學(xué)習(xí)的方法被引入到無監(jiān)督域自適應(yīng)問題中.與傳統(tǒng)的半監(jiān)督學(xué)習(xí)相似,偽標(biāo)簽學(xué)習(xí)利用源域無標(biāo)簽數(shù)據(jù)Dsou訓(xùn)練一個(gè)源域分類器fsou,然后利用fsou在目標(biāo)域數(shù)據(jù)Dtar上標(biāo)注偽標(biāo)簽.模型通過利用源域的標(biāo)簽信息和目標(biāo)域的偽標(biāo)簽信息進(jìn)行訓(xùn)練,實(shí)現(xiàn)對目標(biāo)域大量無標(biāo)簽數(shù)據(jù)的利用.

        此外,文獻(xiàn)[30]提出通過保持樣本的流形結(jié)構(gòu)來實(shí)現(xiàn)域自適應(yīng),即在保持流形結(jié)構(gòu)的基礎(chǔ)上,利用標(biāo)簽傳播來預(yù)測目標(biāo)域的偽標(biāo)簽.文獻(xiàn)[31]通過逐漸增加目標(biāo)域訓(xùn)練樣本和不確定性的樣本數(shù)量來逐步學(xué)習(xí)跨域關(guān)系,在無監(jiān)督域自適應(yīng)中提出了偽標(biāo)簽引導(dǎo)的對不確定性的探索.文獻(xiàn)[32]提出了選擇性偽標(biāo)簽(selective pseudo labeling,SPL),它基于監(jiān)督局部投影不變性來學(xué)習(xí)域不變和域特殊特征,并通過選擇偽標(biāo)簽來訓(xùn)練分類器.但文獻(xiàn)[30-32]的方法都有一些問題,由于分布偏移,偽標(biāo)簽的可信度很低,比如在數(shù)據(jù)集VisDA-2017上,偽標(biāo)簽會朝某一些類偏移得很嚴(yán)重,導(dǎo)致偽標(biāo)簽完全不可信,而且這些方法存在理論上的不足.

        本文認(rèn)為,如果特征提取器訓(xùn)練得好,提取到了不變特征,使得偽標(biāo)簽準(zhǔn)確,那么目標(biāo)域偽標(biāo)簽訓(xùn)練的目標(biāo)域分類器在源域數(shù)據(jù)上同樣應(yīng)該表現(xiàn)得很好.為了更有效利用偽標(biāo)簽,文獻(xiàn)[3]提出了循環(huán)偽標(biāo)簽算法.BPLOT基于此方法做出改進(jìn),利用最優(yōu)化特征-拓?fù)鋫鬏斃植季嚯x,再將偽標(biāo)簽訓(xùn)練的目標(biāo)域分類器反向在源域數(shù)據(jù)上測試,利用源域真實(shí)標(biāo)簽驗(yàn)證了模型知識遷移的能力,在多個(gè)數(shù)據(jù)集上達(dá)到了更好的效果.

        1.4 最優(yōu)化傳輸在無監(jiān)督域自適應(yīng)中的應(yīng)用

        瓦瑟斯坦距離也稱推土機(jī)距離,是一種度量2個(gè)概率分布之間差異的距離度量,在機(jī)器學(xué)習(xí)相關(guān)任務(wù)上已經(jīng)獲得了廣泛的應(yīng)用.傳統(tǒng)的最優(yōu)化傳輸問題(Kantorovich問題)可以用瓦瑟斯坦距離來描述,但在高維情況下,直接應(yīng)用瓦瑟斯坦距離可能會導(dǎo)致傳輸方案不規(guī)則.因此,文獻(xiàn)[33]提出將傳輸約束條件放松,加入正則化,放松這種稀疏性來尋找更平滑的傳輸形式.文獻(xiàn)[34]在開集域自適應(yīng)中提出了聯(lián)合最優(yōu)傳輸,在利用源域的標(biāo)簽信息的同時(shí),也利用目標(biāo)域中未知類的鑒別表示,不僅使得類內(nèi)更加緊致,也使得類間更加可分.此外,文獻(xiàn)[35]采用結(jié)合加權(quán)最優(yōu)傳輸?shù)牟呗?,減少了源域的決策邊界上的樣本所帶來的負(fù)遷移影響.在圖神經(jīng)網(wǎng)絡(luò)方向,文獻(xiàn)[36]提出了混合瓦瑟斯坦(FGW)距離.FGW在圖神經(jīng)網(wǎng)絡(luò)上度量結(jié)構(gòu)化數(shù)據(jù),例如分子模型、社會關(guān)系等,同時(shí)使用WD和GWD對圖結(jié)構(gòu)進(jìn)行計(jì)算.

        本文則將GWD拓展至無監(jiān)督域自適應(yīng)中.在計(jì)算瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離時(shí),融合兩者的傳輸方案,保證了相同的優(yōu)化方向.通過最優(yōu)化特征-拓?fù)鋫鬏?,BPLOT更合理地拉近了源域和目標(biāo)域,提取到更魯棒的公共特征,在多個(gè)數(shù)據(jù)集中表現(xiàn)出更好的效果.

        2 方 法

        2.1 符號設(shè)置

        本文的任務(wù)是利用Dsou中的有標(biāo)簽數(shù)據(jù)和Dtar中的無標(biāo)簽數(shù)據(jù)訓(xùn)練f中的特征提取網(wǎng)絡(luò)φ來提取Dsou和Dtar中的共同特征,也就是經(jīng)過特征提取網(wǎng)絡(luò)φ后,Dsou和Dtar的特征盡量相近,從而源域分類器θsou的知識可以轉(zhuǎn)移到目標(biāo)域分類器θtar上,使得目標(biāo)域分類器θtar在目標(biāo)域上的分類正確率接近源域分類器θsou的分類正確率.

        2.2 方法總覽

        BPLOT的目的在于有效利用偽標(biāo)簽來驗(yàn)證模型知識遷移能力和合理度量分布差異,其主要包含3個(gè)部分:1)最優(yōu)化特征-拓?fù)鋫鬏?,融合瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離,減小2個(gè)分布之間的特征距離和拓?fù)洳町悾?)反向驗(yàn)證偽標(biāo)簽部分,將目標(biāo)域分類器在源域進(jìn)行驗(yàn)證,增強(qiáng)特征提取器提取公共特征;3)使用Tsallis熵來調(diào)節(jié)對模型不確定性的懲罰力度,使得模型前期可以糾正錯(cuò)誤偽標(biāo)簽,后期可以對預(yù)測有信心.BPLOT的整體框架如圖1所示.

        Fig.1 The calculation process of BPLOT model and optimal feature-topological transport圖1 BPLOT模型和最優(yōu)化特征-拓?fù)鋫鬏數(shù)挠?jì)算流程

        2.2.1 最優(yōu)化特征-拓?fù)鋫鬏?/p>

        源域和目標(biāo)域的分布差異中,特征差異是現(xiàn)在大多數(shù)方法普遍考慮的差異點(diǎn),但是受文獻(xiàn)[37]的啟發(fā),源域和目標(biāo)域分布不僅在特征層面存在差異,其拓?fù)湫畔⒅g的差異在對齊源域和目標(biāo)域,促進(jìn)特征提取器提取公共特征的工作中也發(fā)揮重要作用.在消融實(shí)驗(yàn)部分,本文也通過實(shí)驗(yàn)證明:源域和目標(biāo)域之間的差異中,特征差異占主要部分,但是拓?fù)湫畔⒉町愐舶l(fā)揮了重要的作用,是不可忽視的.但是現(xiàn)有的無監(jiān)督域自適應(yīng)中度量分布差異的方法都沒有考慮源域和目標(biāo)域之間的拓?fù)湫畔⒉町?,?dǎo)致模型在計(jì)算分布差異時(shí)仍然不夠準(zhǔn)確.BPLOT的最優(yōu)化特征-拓?fù)鋫鬏敳糠值闹饕枷胧怯米顑?yōu)化傳輸理論顯式地計(jì)算并減小2個(gè)分布之間的特征距離和拓?fù)洳町悾植贾g的距離,使特征提取器可以提取到域不變特征.

        BPLOT選擇對最優(yōu)化傳輸理論中的瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離進(jìn)行融合利用以計(jì)算特征距離和拓?fù)洳町?瓦瑟斯坦距離是最優(yōu)化傳輸理論最先提出的距離度量,度量的是將一個(gè)分布傳輸成另一個(gè)分布所需要的最小代價(jià).格羅莫夫-瓦瑟斯坦距離在圖結(jié)構(gòu)中用來計(jì)算2個(gè)圖之間的相似程度,度量的是點(diǎn)與點(diǎn)之間連邊的相似程度.在無監(jiān)督域自適應(yīng)問題中,分布內(nèi)的拓?fù)湫畔⒉町惡蛨D之間的結(jié)構(gòu)差異有相似性,因此BPLOT在度量分布差異時(shí)引入格羅莫夫-瓦瑟斯坦距離,用來匹配分布之間的拓?fù)洳町?

        2.2.2 瓦瑟斯坦距離度量特征距離

        近年來,瓦瑟斯坦距離在域自適應(yīng)方面獲得了越來越多的關(guān)注,在跨域?qū)R方面有很好的表現(xiàn).本文也用瓦瑟斯坦距離對齊2個(gè)域之間的特征距離.瓦瑟斯坦距離的定義為:

        讓μ∈Psou,ν∈Qtar代表了2個(gè)分布,Π(μ,ν)代表了所有的由μ和ν形成的聯(lián)合分布,c(x,y)表示x到y(tǒng)的距離函數(shù),具體可以用余弦距離來表示.2個(gè)分布μ,ν之間的距離可以表示為:

        其中,T是聯(lián)合分布空間中能使總代價(jià)最小的一個(gè)聯(lián)合分布,同時(shí)也代表了傳輸計(jì)劃,Ti,j表示從xi轉(zhuǎn)移到y(tǒng)j的質(zhì)量.DisW代表分布μ到分布ν的瓦瑟斯坦距離,是對2個(gè)分布之間每一對樣本特征的傳輸代價(jià)的累加和,用來衡量特征距離.

        在所有的可能的傳輸方案中找尋2個(gè)分布之間的最優(yōu)傳輸方案是非常困難的[35],所以,最優(yōu)化傳輸問題被轉(zhuǎn)換為搜索能夠使得2個(gè)分布之間點(diǎn)距離最小的聯(lián)合概率測度T,其邊緣分布分別為μ,ν.能夠使得計(jì)算后的代價(jià)最小的聯(lián)合分布就被稱為傳輸方案,該傳輸方案對應(yīng)的總代價(jià)就是瓦瑟斯坦距離.

        但直接尋找這個(gè)最優(yōu)的聯(lián)合概率測度仍然是困難的,為了更方便計(jì)算出傳輸方案,引入熵正則化.熵正則化不僅可以作為防止模型過擬合的一個(gè)常見方法,還可以引導(dǎo)出一些性質(zhì)來更好地解決問題,文獻(xiàn)[38]提出通過概率耦合的熵對最優(yōu)傳輸問題的表達(dá)進(jìn)行正則化.引入正則化后新的問題變成了:

        其中,C代表由式(1)中的c(,)組成的矩陣,T代表可能的傳輸方案,計(jì)算了T上的負(fù)熵,加入這種正則化項(xiàng)的目的有2個(gè):一個(gè)是由于T0中大部分的元素很可能為0,因此可以通過增加它的熵來使得傳輸更加地平滑均勻,降低傳輸方案的稀疏性.最優(yōu)傳輸方案T在分布之間的傳輸將會更加稠密.另一個(gè)是加入熵正則化后的結(jié)果是推導(dǎo)出了辛克霍恩-克諾普縮放矩陣[39]的方法從而快速高效計(jì)算求解最優(yōu)化傳輸問題.

        綜上所述,本文通過利用辛克霍恩算法來計(jì)算瓦瑟斯坦距離,如算法1:

        算法1.瓦瑟斯坦距離計(jì)算算法.

        輸出:轉(zhuǎn)移方案T,瓦瑟斯坦距離DisW.

        ③ for k = 1,2,…,do; /*sinkhorn算法*/

        ⑤ end for

        ⑥T=diag(δ)Kdiag(σ) ;

        ⑧ returnT,DisW.

        2.2.3 格羅莫夫-瓦瑟斯坦距離度量拓?fù)洳町?/p>

        不同但是相似于瓦瑟斯坦距離,本文通過格羅莫夫-瓦瑟斯坦距離衡量的是2個(gè)分布之間的拓?fù)湫畔⒉町?通過計(jì)算2個(gè)分布內(nèi)2個(gè)點(diǎn)形成的邊之間的最優(yōu)傳輸距離,可以衡量2個(gè)分布中特征之間關(guān)系的差異性.通過最小化這個(gè)距離,可以對齊2個(gè)域之間的拓?fù)渚嚯x.格羅莫夫-瓦瑟斯坦距離的定義和瓦瑟斯坦距離的定義類似:

        其中L(xi,yi,xi′,yi′)=‖c1(xi,xi′)-c2(yi,yi′)‖,作為損失函數(shù),評估2個(gè)分布之間內(nèi)部2個(gè)點(diǎn)(xi,xj) 和(yi,yj)連線的相似度作為衡量2個(gè)分布拓?fù)洳町惓潭鹊囊罁?jù).和是傳輸方案,i是樣本索引.和瓦瑟斯j坦距離相似,在格羅莫夫-瓦瑟斯坦距離的設(shè)置中,c1(x,y)和c2(x,y)都是距離函數(shù),使用余弦相似度來衡量域內(nèi)2點(diǎn)的距離(邊),域間作差得到每條邊傳輸?shù)木嚯x代價(jià).學(xué)習(xí)到的T′仍然代表傳輸方案.文獻(xiàn)[40]認(rèn)為格羅莫夫-瓦瑟斯坦距離實(shí)際上可以把點(diǎn)看成邊,把邊看成點(diǎn),這樣就和傳統(tǒng)的瓦瑟斯坦距離相同.由于在計(jì)算傳輸方案時(shí),依據(jù)的是2個(gè)分布之間內(nèi)部邊的距離,所以最后的總代價(jià)就衡量了2個(gè)分布之間的拓?fù)洳町惓潭?

        格羅莫夫-瓦瑟斯坦距離成功地應(yīng)用在了包括無監(jiān)督自然語言處理[41]、位于不同維度空間中的對象的生成學(xué)習(xí)[42]等方面.非凸優(yōu)化方法已被證明在實(shí)踐中成功地將格羅莫夫-瓦瑟斯坦距離用于機(jī)器學(xué)習(xí)問題,包括交替最小化[43]和熵正則化[44].

        本文考慮格羅莫夫-瓦瑟斯坦距離的計(jì)算,格羅莫夫-瓦瑟斯坦距離是采用2個(gè)分布的內(nèi)部點(diǎn)構(gòu)成的邊之間的相似程度作為距離代價(jià),所以最后求得的總代價(jià)為邊的傳輸總代價(jià),從而衡量了2個(gè)分布之間的拓?fù)湎嗨贫榷鴽]有考慮特征的關(guān)系.針對格羅莫夫-瓦瑟斯坦距離的計(jì)算,文獻(xiàn)[37]提出通過算法2中展示的方法,即通過利用瓦瑟斯坦距離的計(jì)算方法計(jì)算了格羅莫夫-瓦瑟斯坦距離.

        算法2.格羅莫夫-瓦瑟斯坦距離計(jì)算算法

        輸出:轉(zhuǎn)移方案T,格羅莫夫-瓦瑟斯坦距離DisGW.

        ③ fort= 1,2,…,do

        ⑤ 應(yīng)用算法1計(jì)算轉(zhuǎn)移方案T;

        ⑥ end for

        ⑧ returnT,DisGW.

        2.3 聯(lián)合優(yōu)化特征-拓?fù)鋫鬏?/h3>

        瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離的計(jì)算關(guān)鍵是傳輸方案,如果分開計(jì)算,對源域和目標(biāo)域分別進(jìn)行特征傳輸和拓?fù)湫畔鬏?,會?dǎo)致分布間的特征和拓?fù)湫畔⒎蛛x,二者不統(tǒng)一.

        如何將瓦瑟斯坦距離和格羅姆夫-瓦瑟斯坦距離融合計(jì)算,使求得的距離可以同時(shí)衡量特征,本工作受到了文獻(xiàn)[37]所提方法的啟發(fā),使瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離共享傳輸方案T,如圖1所示,不僅可以只計(jì)算1次傳輸方案,降低了計(jì)算復(fù)雜度,還可以更好地衡量2個(gè)分布之間的差異.用共享的傳輸方案T,計(jì)算出新的距離DisWGW使瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離能夠更好地相互調(diào)節(jié),傳輸方案T能夠同時(shí)結(jié)合2個(gè)分布特征之間的關(guān)系和拓?fù)湫畔⒅g的關(guān)系.結(jié)合后的算法如算法3所示.

        算法3.BPLOT計(jì)算方法

        ① forepoch= 0 toMaxIterdo:

        ② 將用不同α訓(xùn)練的不同目標(biāo)域模型在源域驗(yàn)證,選出最好的α用作之后的訓(xùn)練;

        ④Ci,j=cos(xi,yj); /*計(jì)算2個(gè)分布之間的相似度*/

        ⑤ 將算法2中行④偽代價(jià)矩陣換為Cfused=λC+(1-λ)C′;

        ⑥ 將Cfused帶入算法2計(jì)算T和DisWGW;

        ⑨ 計(jì)算出薩利斯熵lTsallis,Q?;

        ⑩φ←φ-η?φ[?P?(θsou,φ)+?P?(θtar,φ)+?Q?,Tsallis,α(θsou)+DisWGW]; /*更新特征提取器*/

        ? θsou←θsou-η?θsou[?P?(θsou,φ)+?Q?,Tsallis,α(θsou)] ;/*更新源于分類器*/

        ? end for

        2.4 反向驗(yàn)證偽標(biāo)簽

        在顯式地拉近2個(gè)分布之間的距離后,本文考慮如何進(jìn)一步利用拉近的距離.受文獻(xiàn)[3]提出的循環(huán)自訓(xùn)練方法的啟發(fā),不斷循環(huán)驗(yàn)證源域分類器和目標(biāo)域分類器,本文使用反向驗(yàn)證偽標(biāo)簽的方式來驗(yàn)證模型的知識遷移能力.

        自訓(xùn)練學(xué)習(xí)會根據(jù)有監(jiān)督信息的數(shù)據(jù)來訓(xùn)練一個(gè)分類器,并用分類器給沒有監(jiān)督信息的數(shù)據(jù)標(biāo)注偽標(biāo)簽,將置信度大于某個(gè)閾值的偽標(biāo)簽作為該樣本的真實(shí)標(biāo)簽,將樣本加入訓(xùn)練,再一次訓(xùn)練分類器后繼續(xù)在沒有標(biāo)簽的樣本上標(biāo)注偽標(biāo)簽,并選擇“可信的”加入作為樣本真實(shí)標(biāo)簽加入訓(xùn)練,直到訓(xùn)練完成.

        自訓(xùn)練學(xué)習(xí)的方法由于存在分布偏移而沒有辦法直接應(yīng)用到無監(jiān)督域自適應(yīng)中,但是可以按照方法思路來簡單獲得第1次訓(xùn)練時(shí)的目標(biāo)域偽標(biāo)簽,雖然因?yàn)榉植计剖沟玫?次目標(biāo)域偽標(biāo)簽準(zhǔn)確率不高,但是源域模型可以在后來的不斷迭代中更新每個(gè)樣本的偽標(biāo)簽使其更加可信.按照標(biāo)準(zhǔn)的自訓(xùn)練方法,利用源域的有標(biāo)簽數(shù)據(jù),在源域上訓(xùn)練一個(gè)源域分類器,使得在源域上的錯(cuò)誤率最?。?/p>

        其中[i]是模型輸出x屬于第i類的概率.本文選取概率最高的類別作為目標(biāo)域的偽標(biāo)簽.傳統(tǒng)的偽標(biāo)簽方法會利用手動設(shè)置的置信度閾值,只保留置信度高于所設(shè)置的閾值的偽標(biāo)簽作為真實(shí)標(biāo)簽加入訓(xùn)練.后來文獻(xiàn)[28]提出的方法加入了熵來根據(jù)置信度進(jìn)行重新加權(quán).然而,傳統(tǒng)的偽標(biāo)簽方法存在分布偏移的問題,源域和目標(biāo)域之間的分布差異會使得偽標(biāo)簽非常的不可信.概率最高的類別很有可能和其真實(shí)的類別并不相同,分布偏移越嚴(yán)重,這種可能性越大;而且使用設(shè)置閾值等方法,為了獲得最好的閾值,通常會有非常昂貴的調(diào)試參數(shù)的代價(jià),而且每次遇到新任務(wù)時(shí)都需要重新調(diào)整閾值.

        為了解決文獻(xiàn)[28]的這個(gè)問題,本文通過反向驗(yàn)證偽標(biāo)簽,提高目標(biāo)域分類器在源域上的表現(xiàn),可以逐步提高偽標(biāo)簽的質(zhì)量和提高偽標(biāo)簽的可信程度,同時(shí),本文提出的方法將所有偽標(biāo)簽加入訓(xùn)練,去掉了手動設(shè)置閾值環(huán)節(jié),降低了成本.反向驗(yàn)證偽標(biāo)簽還可以在迭代中不斷驗(yàn)證知識的遷移水平、隱式的對齊特征,逐步提高偽標(biāo)簽正確率.

        本文考慮如果特征提取器提取到了域間不變特征,就使得知識可以從源域遷移到目標(biāo)域,即利用源域數(shù)據(jù)訓(xùn)練的源域分類器能夠在目標(biāo)域數(shù)據(jù)上有非常好的表現(xiàn).知識的遷移是雙向的,知識很容易從源域遷移到目標(biāo)域,那么自然也可以從目標(biāo)域遷移到源域.所以,能夠?qū)崿F(xiàn)源域到目標(biāo)域知識遷移的特征也能夠?qū)崿F(xiàn)目標(biāo)域到源域的知識遷移,導(dǎo)致利用目標(biāo)域偽標(biāo)簽數(shù)據(jù)訓(xùn)練的目標(biāo)域分類器也能在源域上有很好的表現(xiàn).驗(yàn)證源域到目標(biāo)域知識遷移情況不可行的主要原因是目標(biāo)域沒有真實(shí)標(biāo)簽,而反向驗(yàn)證目標(biāo)域到源域的知識遷移情況就解決了這個(gè)問題,因?yàn)樵从驍?shù)據(jù)是有標(biāo)簽的.

        為了實(shí)現(xiàn)反向驗(yàn)證偽標(biāo)簽,進(jìn)行隱式地域?qū)R,本文按照這個(gè)思路,在得到利用源域分類器在目標(biāo)域數(shù)據(jù)上標(biāo)注好的目標(biāo)域偽標(biāo)簽后,在特征提取器的基礎(chǔ)上訓(xùn)練一個(gè)目標(biāo)域分類器,使得在偽標(biāo)簽上的錯(cuò)誤率最?。?/p>

        遵從反向驗(yàn)證偽標(biāo)簽的思路,本文希望通過將目標(biāo)域分類器學(xué)習(xí)到的知識轉(zhuǎn)移到源域上來訓(xùn)練特征提取網(wǎng)絡(luò),從而縮小2個(gè)分布在特征空間的差異,使得φ提取到的特征能夠?qū)⒃从虻闹R轉(zhuǎn)移到目標(biāo)域上.由于源域有監(jiān)督信息,要使目標(biāo)域分類器θtar在源域上的經(jīng)驗(yàn)風(fēng)險(xiǎn)最?。?/p>

        其中,y是樣本i的真實(shí)標(biāo)簽,l()是交叉熵?fù)p失函數(shù).總的來說,首先要最小化源域分類器在源域上的損失,然后得到偽標(biāo)簽后再最小化目標(biāo)域分類器在源域上的損失,以此來調(diào)整特征提取器,從而實(shí)現(xiàn)反向驗(yàn)證偽標(biāo)簽,進(jìn)行隱式地特征對齊,損失函數(shù)如式(9)所示.

        在每一次迭代中,都用源域數(shù)據(jù)再次訓(xùn)練源域分類器,用源域分類器去給目標(biāo)域數(shù)據(jù)標(biāo)注偽標(biāo)簽,用目標(biāo)域偽標(biāo)簽訓(xùn)練目標(biāo)域分類器;然后反向在源域數(shù)據(jù)上驗(yàn)證目標(biāo)域分類器的效果,從而驗(yàn)證知識從目標(biāo)域轉(zhuǎn)移到源域的能力.這個(gè)能力側(cè)面反映了在訓(xùn)練的過程中模型將知識從源域轉(zhuǎn)移到目標(biāo)域的能力,以此進(jìn)行特征提取器的調(diào)整,增強(qiáng)知識遷移的能力.

        2.5 Tsallis熵約束模型的不確定

        通過反向驗(yàn)證偽標(biāo)簽和最優(yōu)化特征-拓?fù)鋫鬏敺謩e隱式和顯式拉近源域和目標(biāo)域之間的距離后,為了使偽標(biāo)簽訓(xùn)練過程更加合理,便于模型調(diào)整錯(cuò)誤的偽標(biāo)簽,相比于直接使用吉布斯熵,本文引入了Tsallis熵[45]來對目標(biāo)域偽標(biāo)簽的自信程度進(jìn)行約束.

        首先介紹Tsallis熵,其定義為:

        其中y∈RK是模型經(jīng)過softmax層后的輸出,α是熵指數(shù),當(dāng)α趨近于1時(shí),Tsallis熵退化為吉布斯熵,當(dāng)α =2時(shí),Tsallis退化為基尼不純度.由式(10)可見,較小的α對模型、對目標(biāo)域數(shù)據(jù)的不確定性的懲罰程度更高,而較大的α則會允許模型對多個(gè)類的預(yù)測概率相似,也就是懲罰力度低.這種可變的懲罰力度在模型的訓(xùn)練過程中可以發(fā)揮很好的調(diào)整作用.如果在訓(xùn)練初期α就近似等于1,那么模型做出的錯(cuò)誤分類可能永遠(yuǎn)也得不到改正,所以要在訓(xùn)練的過程中動態(tài)調(diào)整α的大小.在訓(xùn)練初期的時(shí)候,α設(shè)置得比較大,使模型可以容易改正錯(cuò)誤的偽標(biāo)簽,在訓(xùn)練后期α?xí)O(shè)置得比較小,使模型可以做出明確而不是模糊的預(yù)測.

        對于如何動態(tài)選取最好的α,同樣選擇通過反向在源域驗(yàn)證的方法來尋找最合適的α,首先在訓(xùn)練源域分類器θsou時(shí)加入Tsallis熵來限制模型對目標(biāo)域數(shù)據(jù)的不確定性:

        其中,l(θ)是Tsallis熵?fù)p失,也就是式(10)中的Sα.約束的是θsou在目標(biāo)域數(shù)據(jù)上的熵.用訓(xùn)練好的源域分類器θ?sou,α來給目標(biāo)域的數(shù)據(jù)標(biāo)注偽標(biāo)簽,方法仍然是選取置信度最高的預(yù)測類別作為樣本的偽標(biāo)簽,繼續(xù)用目標(biāo)域偽標(biāo)簽訓(xùn)練一個(gè)目標(biāo)域分類器,為了找到當(dāng)前最合適的α,將目標(biāo)域分類器根據(jù)不同的α大小在源域驗(yàn)證:

        將α等距地分成11份[1.0,1.1,1.2,…,2.0],在其中選擇出在源域損失最小的α作為接下來一段時(shí)間的訓(xùn)練所用的α,為了保證模型的訓(xùn)練效率,而且考慮到每次都重新計(jì)算α?xí)τ?jì)算資源造成浪費(fèi),本文每隔幾個(gè)epoch重新選擇α,既保證了模型訓(xùn)練的效率,又保證了最合適的對模型不確定性的懲罰力度.

        綜上所述,本文的模型結(jié)合反向驗(yàn)證偽標(biāo)簽和最優(yōu)化傳輸度量分布差異這2種方式,加以Tsallis熵正則項(xiàng)動態(tài)懲罰模型的不確定性.反向驗(yàn)證偽標(biāo)簽使得在分布偏移下不可信的偽標(biāo)簽得到了更好的利用,可以衡量模型知識遷移的能力,也能夠顯式計(jì)算2個(gè)分布之間的距離時(shí)同時(shí)考慮特征相似度和拓?fù)湎嗨贫龋玫囟攘苛朔植贾g的相似的程度; 同時(shí)也動態(tài)調(diào)整模型信心的懲罰力度,既可以糾正錯(cuò)誤偽標(biāo)簽,又可以提高最終模型的預(yù)測信心.最終的優(yōu)化目標(biāo)如式(13)所示.總算法流程如算法3所示.

        3 實(shí)驗(yàn)研究

        為了驗(yàn)證本文提出的BPLOT方法的效果,本文在Office-31,Office-Home,VisDA-2017等數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),將BPLOT與現(xiàn)有的域自適應(yīng)方法進(jìn)行比較,并通過消融實(shí)驗(yàn)深入分析了BPLOT中每一部分的作用.

        3.1 實(shí)驗(yàn)設(shè)置

        3.1.1 數(shù)據(jù)集

        1)Office-31數(shù)據(jù)集包含了31個(gè)類的數(shù)據(jù),根據(jù)數(shù)據(jù)來源不同分為了3個(gè)域,Amazon(A)、DSLR(D)和Webcam(W).這3個(gè)域可以組成6種源域-目標(biāo)域組合.Amazon中每個(gè)類平均包含了90張圖片,共計(jì)2 817張圖片.這些圖片是從網(wǎng)上商家的網(wǎng)站上獲取的,是在干凈的背景下以統(tǒng)一的比例拍攝的.DSLR包含498幅低噪聲高分辨率(4 288×2 848)圖像,每個(gè)類別有5個(gè)物品,每個(gè)物體平均從不同的視角拍攝3次.Webcam包含了795張顯示出明顯的噪聲和顏色以及白平衡偽影的低分辨率(640×480)圖像[46].

        2)Office-Home數(shù)據(jù)集包含4個(gè)域,每個(gè)域由65個(gè)類別組成,可以組成12種遷移場景.這4個(gè)領(lǐng)域分別是:素描、繪畫等形式的藝術(shù)形象Art(A-r);剪貼畫圖像Clipart(Cl);沒有背景的物品圖像Product(Pr);常規(guī)相機(jī)拍攝的現(xiàn)實(shí)世界中的物體圖像Real-World(Rw).該數(shù)據(jù)集共包含15 500張圖片[47].

        3)VisDA-2017數(shù)據(jù)集是一個(gè)大型的無監(jiān)督域自適應(yīng)的數(shù)據(jù)集,包含2個(gè)域Synthetic和Real,分別是3D建模合成的圖片和現(xiàn)實(shí)生活中的圖片.該數(shù)據(jù)集包含了12個(gè)類別的超過20萬張圖片[48].

        3.1.2 基準(zhǔn)方法

        本文比較了無監(jiān)督域自適應(yīng)中比較成功的工作:對比的基于特征對齊的方法:DAN[15]、DANN[29](對抗學(xué)習(xí))、CDAN[28](考慮偽標(biāo)簽的信息)、MDD[20](利用Margin Theory來設(shè)計(jì)損失)、DSAN[49](基于LMMD在不同域上對齊域特定層激活的相關(guān)子域分布來學(xué)習(xí)傳輸網(wǎng)絡(luò)).

        對比的基于自訓(xùn)練的方法:使用了半監(jiān)督學(xué)習(xí)中的FixMatch[50]并加入跨域?qū)R手段來減少分布偏移造成的偽標(biāo)簽準(zhǔn)確率下降的問題.本文還測試了CST[3]作為單純使用循環(huán)自訓(xùn)練方法進(jìn)行對比,以及最新的利用類原型的工作PGLS[51]、利用可遷移的正則化和歸一化的TRN[52].

        3.1.3 實(shí)現(xiàn)條件

        本文使用預(yù)訓(xùn)練好的ResNet-50作為特征提取器,使用交叉熵?fù)p失作為分類的損失函數(shù).每個(gè)任務(wù)都會運(yùn)行3次,并取正確率的平均值作為評價(jià)指標(biāo).本文在訓(xùn)練的工程中使用了SAM (sharpness-aware minimization)技巧[53]來幫助提高效果.部分實(shí)驗(yàn)結(jié)果采用其原論文中的結(jié)果.

        3.2 實(shí)驗(yàn)結(jié)果

        表1報(bào)告了在Office-31數(shù)據(jù)集上的結(jié)果,本文提出的BPLOT方法在多個(gè)任務(wù)上都表現(xiàn)出了最好的效果,對一些比較困難的任務(wù),如D-A,有了最高的提升.和距離度量中的方法對比,相比于基于MKMDD進(jìn)行域特征對齊的DAN方法報(bào)告的平均80.4%的正確率,本文提出的BPLOT提高了9.3%的正確率,說明BPLOT中的反向驗(yàn)證偽標(biāo)簽和最優(yōu)化理論衡量分布距離是成功的;和對抗學(xué)習(xí)中的方法相比,DANN[29]表現(xiàn)出了82.2%的正確率,BPLOT與之相比提高了7.5%的正確率,表明相比于對抗學(xué)習(xí)混淆域判別器,BPLOT中直接驗(yàn)證知識遷移能力的反向驗(yàn)證偽標(biāo)簽方法有更明顯的作用,達(dá)到了更好的效果;和基于循環(huán)自訓(xùn)練的CST方法表現(xiàn)出的89.1%的正確率相比,BPLOT仍然提高了0.6%,表明盡管CST達(dá)到了很好的效果,但是BPLOT通過最優(yōu)化傳輸理論實(shí)現(xiàn)了更準(zhǔn)確地度量2個(gè)分布的距離并縮小了這個(gè)距離,使得最終的效果仍然有所提高.模型效果即使是與最新的工作TRN和PGLS相比,也同樣有優(yōu)勢.

        Table 1 Accurancy of Each Method Tested on All 6 Tasks in Office-31 Dataset表1 測試的各個(gè)方法在Office-31數(shù)據(jù)集上全部6個(gè)任務(wù)上的準(zhǔn)確率%

        表2報(bào)告了各個(gè)方法在Office-Home中12個(gè)任務(wù)上的結(jié)果.DAN等度量分布距離的方法由于沒有考慮分布之間的拓?fù)洳町?,?dǎo)致模型在目標(biāo)域驗(yàn)證時(shí)準(zhǔn)確率大幅度下降.DANN等基于對抗學(xué)習(xí)的方法在對抗訓(xùn)練的過程中為了混淆域判別器,會導(dǎo)致特征提取器提取的特征舍棄了部分目標(biāo)域樣本的類別信息,從而使模型在目標(biāo)域樣本上的分類準(zhǔn)確率有所下降.FixMatch和CDAN+VAT+Entropy等方法沒有明確的手段在訓(xùn)練的過程中測試偽標(biāo)簽的質(zhì)量,導(dǎo)致最終效果不理想.CST方法使用循環(huán)自訓(xùn)練的方法來增強(qiáng)偽標(biāo)簽的質(zhì)量,但缺少顯式度量分布差異的方法,沒有明確縮小2個(gè)分布之間距離,本文提出的BPLOT網(wǎng)絡(luò)通過解決這2個(gè)問題,在12個(gè)任務(wù)中都表現(xiàn)出了更好的效果,并且平均準(zhǔn)確率超過了所有對比的方法:相比于DANN報(bào)告的平均57.6%的準(zhǔn)確率,BPLOT提高了15.4%的準(zhǔn)確率,說明BPLOT對于偽標(biāo)簽的輔助性利用非常有效;相比于FixMatch報(bào)告的67.7%的準(zhǔn)確率,BPLOT提高了6%的準(zhǔn)確率,說明反向驗(yàn)證偽標(biāo)簽的方法比傳統(tǒng)的偽標(biāo)簽利用方法更加出色,驗(yàn)證偽標(biāo)簽質(zhì)量是成功的;相比于CST報(bào)告的73.0%的準(zhǔn)確率,BPLOT提高了0.7%的準(zhǔn)確率,達(dá)到了最高的準(zhǔn)確率,說明同時(shí)度量特征距離和拓?fù)洳町愒陲@式地減小2個(gè)分布之間的距離方面發(fā)揮了作用,進(jìn)一步提高了偽標(biāo)簽的準(zhǔn)確率;而相比于最新的工作TRN和PGLS,更有4.2%和3.9%的提升.

        Table 2 Accurancy of Each Method Tested on All Tasks in Office-Home Dataset表2 測試的各個(gè)方法在Office-Home數(shù)據(jù)集上全部任務(wù)上的準(zhǔn)確率%

        表3報(bào)告了本文測試的方法在VisDa-2017數(shù)據(jù)集上的結(jié)果.本文同樣測試了傳統(tǒng)的特征對齊方法,DANN,CDAN在遇到分布偏移時(shí)出現(xiàn)了不同程度的準(zhǔn)確率下降;同樣,本文對傳統(tǒng)偽標(biāo)簽方法和偽標(biāo)簽加特征對齊的方法進(jìn)行了對比測試,加入特征對齊的效果要優(yōu)于加入偽標(biāo)簽的方法,證明了顯式縮小域差異的合理性.本文提出的BPLOT進(jìn)一步通過反向驗(yàn)證偽標(biāo)簽結(jié)合同時(shí)縮小2個(gè)分布的特征距離和拓?fù)洳町惖姆椒?,達(dá)到了最好的效果.在ResNet-101的基礎(chǔ)上和基于對抗學(xué)習(xí)的方法進(jìn)行對比,DANN報(bào)告的準(zhǔn)確率是79.5%,BPLOT提高了7.9個(gè)百分點(diǎn),說明反向驗(yàn)證偽標(biāo)簽方法在存在合成圖片和現(xiàn)實(shí)圖片的分布偏移下仍然發(fā)揮作用,并表現(xiàn)出了比域判別器更好的效果,展示了BPLOT在現(xiàn)實(shí)中的實(shí)用價(jià)值;FixMatch等基于傳統(tǒng)偽標(biāo)簽方法的準(zhǔn)確率達(dá)到了79.5%,BPLOT與之相比仍提高了7.9個(gè)百分點(diǎn),不僅少了手動調(diào)整閾值超參數(shù)的復(fù)雜,而且達(dá)到了更好的效果;MDD+FixMatch作為特征對齊與傳統(tǒng)偽標(biāo)簽結(jié)合的方法,將準(zhǔn)確率提高到了82.4%,而BPLOT通過反向驗(yàn)證偽標(biāo)簽和最優(yōu)化傳輸理論來提純偽標(biāo)簽并縮小2個(gè)分布之間的距離的方法更有效,實(shí)現(xiàn)了對偽標(biāo)簽更有效地利用和對2個(gè)分布之間的距離更好地度量,相比之將結(jié)果提高了5個(gè)百分點(diǎn);CST基于循環(huán)自訓(xùn)練進(jìn)行偽標(biāo)簽提純,達(dá)到了86.5%的準(zhǔn)確率,BPLOT通過最優(yōu)化傳輸理論顯式度量并縮小2個(gè)分布之間的特征距離和拓?fù)洳町?,將結(jié)果提高了0.9個(gè)百分點(diǎn),證明BPLOT顯式縮小2個(gè)分布的距離的有效性.

        Table 3 Accurancy of Each Method Tested on VisDA-2017 Dataset表3 測試的各個(gè)方法在VisDA-2017數(shù)據(jù)集上的準(zhǔn)確率

        3.3 消融實(shí)驗(yàn)

        本文通過消融實(shí)驗(yàn)對BPLOT的每個(gè)部分單獨(dú)進(jìn)行分析,包括去掉反向驗(yàn)證偽標(biāo)簽部分、去掉最優(yōu)化傳輸顯式縮小域距離部分和去掉Tsallis熵部分.

        3.3.1 去掉反向驗(yàn)證偽標(biāo)簽

        以O(shè)ffice-Home中的Rw-Cl任務(wù)為例,可以從圖2中看到,存在反向驗(yàn)證偽標(biāo)簽時(shí),當(dāng)超參數(shù)β在0.5~2.0之間變化時(shí),模型在目標(biāo)域上的準(zhǔn)確率變化只有0.2%,即在β變化的過程中,模型效果表現(xiàn)穩(wěn)定,反向驗(yàn)證偽標(biāo)簽部分對β不敏感,具有魯棒性;而去掉反向驗(yàn)證偽標(biāo)簽,β= 0時(shí),模型在目標(biāo)域上的準(zhǔn)確率只有61.4%,下降了1.3個(gè)百分點(diǎn),證明了本文提出的反向驗(yàn)證偽標(biāo)簽的合理性和有效性,即該模塊更有效地利用了偽標(biāo)簽,通過反向驗(yàn)證偽標(biāo)簽的方式,在訓(xùn)練的過程中可以度量偽標(biāo)簽質(zhì)量、衡量模型知識遷移能力,以此指導(dǎo)模型訓(xùn)練,達(dá)到了更好的效果.

        Fig.2 Accuracy for different β on Rw-Cl task in Office-Home dataset圖2 在Office-Home數(shù)據(jù)集中Rw-Cl任務(wù)上對不同β的準(zhǔn)確率

        3.3.2 去掉瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離

        針對瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離的消融實(shí)驗(yàn),本文驗(yàn)證了2個(gè)部分.第1部分驗(yàn)證瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離,衡量2個(gè)分布之間差異的有效性是否能夠有效顯式地度量2個(gè)分布之間的距離,從而指導(dǎo)模型在訓(xùn)練過程中調(diào)整特征提取網(wǎng)絡(luò),縮小2個(gè)分布之間的距離,實(shí)現(xiàn)更好的特征對齊;2)驗(yàn)證瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離在共同發(fā)揮作用時(shí)各自的重要程度,即探究度量分布差異時(shí),特征差異和拓?fù)洳町惖闹匾潭?具體的實(shí)現(xiàn)方式是通過調(diào)整瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離之間的權(quán)重參數(shù),控制它們分別指導(dǎo)模型學(xué)習(xí)的能力,然后通過對比最終模型在目標(biāo)域上的準(zhǔn)確率來比較不同距離在縮小2個(gè)分布差異時(shí)的作用.

        結(jié)果如表4所示,表4中最后一列表示BPLOT去掉了最優(yōu)化特征-拓?fù)鋫鬏敳糠值慕Y(jié)果.可以看到,在所有的遷移任務(wù)上,引入同時(shí)考慮特征距離和拓?fù)洳町惖淖顑?yōu)化傳輸,模型的準(zhǔn)確率均有所提高.在Office-Home的Ar-Pr任務(wù)上提高程度最大,提高了2個(gè)百分點(diǎn)的準(zhǔn)確率.通過實(shí)驗(yàn)分析可以清楚地了解,引入瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離顯式計(jì)算源域和目標(biāo)域的差異程度,并調(diào)整特征網(wǎng)絡(luò)減小距離,模型能夠更有效地進(jìn)行特征對齊,從而學(xué)習(xí)到更魯棒的域不變特征,最終提升模型在目標(biāo)域上的效果.去掉瓦瑟斯坦距離+格羅莫夫-瓦瑟斯坦距離這一部分后,僅依靠反向驗(yàn)證偽標(biāo)簽和Tsallis熵的方法,模型只能隱式地進(jìn)行特征對齊,而沒有顯式距離計(jì)算來明確分布差異大小,導(dǎo)致模型的準(zhǔn)確率下降.由此可見,BPLOT中的瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離同時(shí)把握特征距離和拓?fù)洳町愂呛侠淼?、有效?

        Table 4 Ablation Study Results on Optimal Feature-Topological Transport表4 關(guān)于最優(yōu)化特征-拓?fù)鋫鬏數(shù)南趯?shí)驗(yàn)結(jié)果%

        第2部分的結(jié)果如圖3所示,λ是公式DisFGW=λDisW+(1-λ)DisGW中2個(gè)距離的權(quán)重參數(shù).λ越大,代表衡量2個(gè)分布之間的特征距離的瓦瑟斯坦距離占比越高,即模型對2個(gè)分布之間的特征距離更感興趣;λ越小,說明格羅莫夫-瓦瑟斯坦距離占比越高,模型對2個(gè)分布之間的拓?fù)湎嗨瞥潭雀信d趣.結(jié)果表明,λ在0.6~0.9變化時(shí),模型的準(zhǔn)確率隨著λ的增大而上升:在Office-31數(shù)據(jù)集中A-W任務(wù)上,準(zhǔn)確率從λ= 0.6時(shí)的92.3%上升到λ = 0.9時(shí)的94.8%;在VisDa-2017數(shù)據(jù)集上,準(zhǔn)確率從λ= 0.6時(shí)的85.8%,上升到λ = 0.9時(shí)的87.4%.這符合本文的分析,之前度量分布之間的距離如MMD都只考慮了特征距離,對抗學(xué)習(xí)訓(xùn)練的域判別器依據(jù)的也只是樣本在特征空間中的映射,說明特征相似程度在度量2個(gè)分布差異時(shí)起到至關(guān)重要的作用,如果在度量分布距離時(shí)特征距離占比太少,會導(dǎo)致無法成功進(jìn)行特征對齊,模型也就很難學(xué)習(xí)到域不變的特征,導(dǎo)致模型的知識遷移能力下降.λ在0.9~0.99變化時(shí),準(zhǔn)確率隨著λ的上升反而下降了,這同樣符合本文的分析,當(dāng)λ =0.9時(shí)特征距離對于度量2個(gè)分布的差異起到的效果已經(jīng)到達(dá)了飽和,而分布差異是包括拓?fù)洳町惖?這時(shí)候隨著λ的增大,模型繼續(xù)增大對2個(gè)分布特征距離的關(guān)注程度,忽視2個(gè)分布之間的拓?fù)湫畔⒌牟町?,損失了2個(gè)分布之間部分的度量信息,導(dǎo)致無法更準(zhǔn)確地進(jìn)行特征對齊,模型的效果也會有所降低.當(dāng)λ = 0.99時(shí),在Office-31中A-W任務(wù)上準(zhǔn)確率反而降低到了92.8%;而在VisDa-2017任務(wù)上模型的準(zhǔn)確率同樣下降了0.2個(gè)百分點(diǎn),只有87.2%.

        Fig.3 Accuracy of the BPLOT model with different λ values圖3 不同λ值時(shí)BPLOT模型的準(zhǔn)確率

        通過在A-W和VisDA-2017這2個(gè)任務(wù)上的分析實(shí)驗(yàn),證明了在度量2個(gè)分布之間的差異程度時(shí),特征距離發(fā)揮至關(guān)重要的作用,在度量分布差異中起到了大部分的影響,但是只考慮特征距離是不夠的.2個(gè)分布之間的差異程度應(yīng)該也包括拓?fù)湫畔⒌牟町?,拓?fù)渚嚯x作為特征距離的補(bǔ)充,占比不高,但同樣發(fā)揮著重要的作用,特征距離和拓?fù)洳町惖慕Y(jié)合,才能夠更好地度量分布的不同.

        3.3.3 去掉Tsallis 熵

        為了驗(yàn)證BPLOT中Tsallis熵的作用,本文通過在Office-Home數(shù)據(jù)集中Rw-Cl任務(wù)上設(shè)置Tsallis熵不同的權(quán)重來觀察模型的結(jié)果.如圖4所示可以看到,當(dāng)權(quán)重WTsallis設(shè)置為0,去掉Tsallis熵后,模型出現(xiàn)了大幅度的準(zhǔn)確率的下降.WTsallis不為0時(shí),模型對參數(shù)不敏感,可以保持魯棒性.這是因?yàn)槿サ鬞sallis熵后,去掉了模型在目標(biāo)域的熵正則化,而Tsallis熵正則化對于偽標(biāo)簽的挑選起到了格外重要的作用.去掉了Tsallis熵正則化,導(dǎo)致模型對輸出失去信心,類別的區(qū)分度較小.從區(qū)分度低的幾個(gè)類別中選擇概率略大的類別作為偽標(biāo)簽,出錯(cuò)的可能性大大增加,偽標(biāo)簽一旦錯(cuò)誤,對模型會造成很大的負(fù)面影響.目標(biāo)域分類器在源域上的表現(xiàn)和特征對齊的程度會失去相關(guān)性,從而無法以目標(biāo)域分類器在源域樣本的效果作為模型遷移知識能力的證明,導(dǎo)致錯(cuò)誤地指引模型的訓(xùn)練方向,使得模型難以收斂至很好的效果.而加入Tsallis熵后,在訓(xùn)練初期,Tsallis熵對于softmax輸出后的調(diào)整是溫和的,允許2個(gè)類結(jié)果是相似的,保留出錯(cuò)后調(diào)整的可能,使模型在特征不斷對齊的過程中能夠?qū)?biāo)注錯(cuò)誤的偽標(biāo)簽進(jìn)行調(diào)整.在訓(xùn)練后期,特征對齊的效果比較成熟,Tsallis熵對softmax的調(diào)整逐漸嚴(yán)格,使得模型對自己的輸出有信心,降低由于模型搖擺不定的預(yù)測而導(dǎo)致的概率略低的類也很可能是正確的類,提高模型最終的效果.

        Fig.4 Accuracy with different Tsallis entropy weights on Rw-Cl task in Office-Home圖4 Office-Home中Rw-Cl上不同Tsallis熵權(quán)重下的準(zhǔn)確率

        通過本節(jié)的消融實(shí)驗(yàn)驗(yàn)證了BPLOT中反向驗(yàn)證偽標(biāo)簽部分、瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離、Tsallis熵的有效性和合理性,分析了其存在的原因,并以多個(gè)實(shí)驗(yàn)結(jié)果來支撐本文的分析,說明了這3個(gè)部分均對模型解決無監(jiān)督域自適應(yīng)問題起到了正面、積極的作用.

        3.4 擴(kuò)展實(shí)驗(yàn)

        本節(jié)比較了BPLOT的計(jì)算效率.我們在Office-31數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并比較了BPLOT和CST的運(yùn)行時(shí)間的差異,實(shí)驗(yàn)結(jié)果如表5所示.結(jié)果表明,雖然本文的方法技術(shù)較為復(fù)雜、優(yōu)化目標(biāo)較多,但各部分計(jì)算量并不多,完全可以承擔(dān)實(shí)際運(yùn)行中的計(jì)算.

        Table 5 Running Time for Each Task on Office-31表5 Office-31上每個(gè)任務(wù)的運(yùn)行時(shí)間

        4 結(jié)論與展望

        本文提出了一個(gè)解決無監(jiān)督域自適應(yīng)問題的基于反向驗(yàn)證偽標(biāo)簽和最優(yōu)化傳輸網(wǎng)絡(luò)BPLOT,同時(shí)從2個(gè)方面改進(jìn)了無監(jiān)督域自適應(yīng)存在的不足:1)如何更有效利用偽標(biāo)簽,驗(yàn)證知識遷移的效果并指導(dǎo)訓(xùn)練.2)如何更準(zhǔn)確度量2個(gè)分布之間的距離,同時(shí)考慮特征信息和拓?fù)湫畔?針對第1個(gè)方面,本文提出的BPLOT通過反向在源域數(shù)據(jù)上驗(yàn)證目標(biāo)域偽標(biāo)簽訓(xùn)練的分類器,實(shí)現(xiàn)驗(yàn)證知識從目標(biāo)域向源域的轉(zhuǎn)遷能力,從側(cè)面展示模型將知識從源域遷移到目標(biāo)域的能力,解決目標(biāo)域沒有標(biāo)簽而沒有辦法驗(yàn)證源域到目標(biāo)域的知識遷移的困難.針對第2個(gè)方面,本文提出的BPLOT通過同時(shí)利用瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離同步計(jì)算2個(gè)分布的特征距離和拓?fù)洳町?,從而更好地度?個(gè)分布之間的差異程度.在3個(gè)公開的數(shù)據(jù)集Office-31,Office-Home和VisDA-2017上的實(shí)驗(yàn)結(jié)果驗(yàn)證了BPLOT的合理性和有效性,并通過對BPLOT多個(gè)部分進(jìn)行消融實(shí)驗(yàn)驗(yàn)證了反向驗(yàn)證偽標(biāo)簽、最優(yōu)化傳輸理論對齊分布的特征信息和拓?fù)湫畔?、Tsallis熵的有效性.

        本文提出的BPLOT中,選擇通過瓦瑟斯坦距離和格羅莫夫-瓦瑟斯坦距離進(jìn)行特征和拓?fù)湫畔⒌膶R,但在如何更好地度量2個(gè)分布之間的距離方面仍然有可探索的價(jià)值.僅從拓?fù)湫畔⒌慕嵌瓤紤],格羅莫夫-瓦瑟斯坦距離從邊相似度的角度衡量了2個(gè)分布之間的拓?fù)湎嗨瞥潭?,但是拓?fù)湫畔⒉粦?yīng)該只包含邊的相似程度信息,還包括邊與邊之間夾角的信息.在進(jìn)行拓?fù)湫畔⒌牟町惗攘窟^程中,同時(shí)考慮邊的角度和邊的長度差異可以更詳細(xì)地對分布拓?fù)湫畔⑦M(jìn)行度量,這將是我們未來關(guān)注的一個(gè)方向.

        同時(shí),本文發(fā)現(xiàn)不管是在度量分布差異還是在驗(yàn)證偽標(biāo)簽質(zhì)量方面,分布內(nèi)樣本的數(shù)量和質(zhì)量起到了很關(guān)鍵的作用.如何獲得更多更高質(zhì)量的源域分布和目標(biāo)域分布數(shù)據(jù),也是進(jìn)一步提高模型進(jìn)行特征對齊效果、學(xué)習(xí)域不變特征的能力的關(guān)鍵.因此,數(shù)據(jù)增強(qiáng)也是值得探索的方向.在目標(biāo)域分布和源域分布都是從整體的真實(shí)分布下采樣得到的分布的假設(shè)下,通過數(shù)據(jù)增強(qiáng)可以還原數(shù)據(jù)的真實(shí)分布,模型可以直接在真實(shí)分布上進(jìn)行訓(xùn)練,使得模型在目標(biāo)域上有很好的表現(xiàn),從而更好地解決無監(jiān)督域自適應(yīng)問題.

        作者貢獻(xiàn)聲明:孫昊提出了算法思路并進(jìn)行了實(shí)驗(yàn);韓忠義負(fù)責(zé)改進(jìn)方案并修改論文;王帆負(fù)責(zé)改進(jìn)方案;尹義龍?zhí)岢鲋笇?dǎo)意見并修改論文.

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲色www成人永久网址| 国产69精品麻豆久久| 在线观看午夜视频一区二区| 午夜福利理论片高清在线观看| 无限看片在线版免费视频大全| 国产毛片A啊久久久久| 今井夏帆在线中文字幕| 欧美成人秋霞久久aa片| 97伦伦午夜电影理伦片| 欧美激情中文字幕在线一区二区| 国产精品亚洲av无人区一区蜜桃| 人妖av手机在线观看| 激情影院内射美女| 一本一道波多野结衣av中文| 亚洲在线一区二区三区| 国产精品一区二区性色| 丰满老熟女性生活视频| 含紧一点h边做边走动免费视频| 内射精品无码中文字幕| 澳门精品无码一区二区三区| 中文字幕无线精品亚洲乱码一区| 99久久精品人妻一区| 粉嫩小泬无遮挡久久久久久| 欧美人与动人物姣配xxxx| 欧洲国产成人精品91铁牛tv| 国产免费成人自拍视频| 巨爆中文字幕巨爆区爆乳| 亚洲综合区图片小说区| 欧美中文字幕在线看| 国产一区二区三区护士| 久久精品国产av一级二级三级| 人人摸人人操| 无码不卡免费一级毛片视频| 一区二区三区四区国产亚洲| 日韩人妻熟女中文字幕a美景之屋| 天天看片视频免费观看| 99免费视频精品| 青青草视频网站在线观看| 最新国产毛2卡3卡4卡| 欧美亚洲精品一区二区| 亚洲天堂免费av在线观看|