亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分類差異與信息熵對(duì)抗的無(wú)監(jiān)督域適應(yīng)算法

        2021-11-27 00:48:20李慶勇何軍張春曉
        智能系統(tǒng)學(xué)報(bào) 2021年6期
        關(guān)鍵詞:分類特征模型

        李慶勇,何軍,2,張春曉

        (1.南京信息工程大學(xué) 電子與信息工程學(xué)院,江蘇 南京 210044;2.南京信息工程大學(xué) 人工智能學(xué)院,江蘇 南京 210044)

        在大數(shù)據(jù)時(shí)代的背景下,數(shù)據(jù)呈爆炸式增長(zhǎng),但大部分?jǐn)?shù)據(jù)缺失有效的標(biāo)注信息。由于數(shù)據(jù)標(biāo)注任務(wù)的成本較高,通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方式進(jìn)行模型訓(xùn)練可以大大減少投入的人力、物力和時(shí)間成本,所以無(wú)監(jiān)督學(xué)習(xí)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)重要的研究方向[1-2]。其次,傳統(tǒng)機(jī)器學(xué)習(xí)算法中存在用訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型無(wú)法適應(yīng)現(xiàn)實(shí)場(chǎng)景的問(wèn)題,這是由訓(xùn)練集數(shù)據(jù)與實(shí)際測(cè)試數(shù)據(jù)的特征分布不同導(dǎo)致的[3]。

        針對(duì)以上問(wèn)題,遷移學(xué)習(xí)(transfer learning,TL)方法被提出[4],域適應(yīng)學(xué)習(xí)(domain adaptation learning,DAL)作為一種同構(gòu)遷移學(xué)習(xí)方法[5],在源域與目標(biāo)域樣本特征分布不同但相似的前提下,將源域樣本分類模型遷移到目標(biāo)域,使模型適應(yīng)目標(biāo)域數(shù)據(jù)。無(wú)監(jiān)督域適應(yīng)模型通過(guò)帶標(biāo)簽源域數(shù)據(jù)和無(wú)標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)進(jìn)行訓(xùn)練,即使訓(xùn)練過(guò)程中不包含目標(biāo)域標(biāo)注信息,也可以在目標(biāo)域數(shù)據(jù)中實(shí)現(xiàn)很好的識(shí)別效果。

        Ghifary 等[6]利用傳統(tǒng)DAL 思想,使用自編碼器學(xué)習(xí)共享編碼以獲得域不變特征,實(shí)現(xiàn)在特征向量空間中,不同域樣本特征之間的距離減小的目的,從而使無(wú)標(biāo)簽?zāi)繕?biāo)域樣本得到正確分類。Sener 等[7]提出利用聚類和偽標(biāo)簽的方法來(lái)獲取分類特征,從而實(shí)現(xiàn)在無(wú)標(biāo)簽?zāi)繕?biāo)域上的分類。卷積神經(jīng)網(wǎng)絡(luò)中間特征的分布匹配被認(rèn)為是實(shí)現(xiàn)域適應(yīng)的有效方法[8]。最大均值差異(maximum mean discrepancy,MMD)[9]使用核函數(shù)映射特征來(lái)度量?jī)刹煌植贾g的距離,通過(guò)最小化源域與目標(biāo)域之間的距離得到域共享特征。Tzeng 等[10]在分類損失的基礎(chǔ)上加了一層適配層,通過(guò)在適配層上引入MMD 距離來(lái)度量最小化兩個(gè)領(lǐng)域的分布差異。Long 等[11-12]在MMD 方法的基礎(chǔ)上改進(jìn),采用多層適配和多核MMD 使域差異最小化,實(shí)現(xiàn)源域和目標(biāo)域特征具有相似的特征分布。借鑒生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[13]獨(dú)特的對(duì)抗訓(xùn)練方式,Ganin 等[14]提出包含特征生成器和域分類器結(jié)構(gòu)的模型DANN,利用特征生成器生成欺騙域分類器的特征,從而將源域和目標(biāo)域數(shù)據(jù)映射到相似的概率分布上。王格格等[15]通過(guò)聯(lián)合使用生成對(duì)抗網(wǎng)絡(luò)和多核最大均值差異度量準(zhǔn)則優(yōu)化域間差異,以學(xué)習(xí)源域分布和目標(biāo)域分布之間的共享特征。Sankaranarayanan 等[16]提出了一個(gè)能夠直接學(xué)習(xí)聯(lián)合特征空間的對(duì)抗圖像生成的無(wú)監(jiān)督域適應(yīng)方法GTA,利用圖像生成的對(duì)抗過(guò)程學(xué)習(xí)一個(gè)源域和目標(biāo)域特征分布最小化的特征空間。但由于上述使用GAN或MMD 的分布對(duì)齊方法僅將不同域之間的距離拉近,沒(méi)有考慮目標(biāo)樣本與決策邊界之間的關(guān)系,因此無(wú)法優(yōu)化域內(nèi)類間差異,從而影響域適應(yīng)分類效果。Saito 等[17]通過(guò)訓(xùn)練兩個(gè)分類器以最大化分類差異,但其方法只是減少源域和目標(biāo)域之間的距離,而未增大目標(biāo)域不同類之間的距離,這會(huì)使目標(biāo)域樣本靠近決策邊界,使分類不確定性增加。

        為此,本文提出一種基于分類差異和信息熵對(duì)抗的無(wú)監(jiān)督域適應(yīng)模型。利用兩個(gè)分類器之間的不一致性對(duì)齊域間差異,使源域和目標(biāo)域數(shù)據(jù)之間的距離最小,同時(shí)利用最小化熵的方式降低不確定性,使目標(biāo)域特征遠(yuǎn)離決策邊界,提高了目標(biāo)域樣本的類間差異。

        1 分類差異和信息熵對(duì)抗

        假設(shè)給定帶標(biāo)簽的源域數(shù)據(jù)集Ds={Xs,Ys},源域圖像xs對(duì)應(yīng)標(biāo)簽為ys,同時(shí)給定無(wú)標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)集Dt={Xt},目標(biāo)域圖像為xt。本文模型包括特征生成網(wǎng)絡(luò) G 和分類器網(wǎng)絡(luò) F1、F2,G 網(wǎng)絡(luò)接收?qǐng)D像xs或xt的輸入,經(jīng)過(guò)特征提取輸出特征向量f,分類器 F1和 F2將特征向量分為K類,即輸出K維向量,對(duì)向量應(yīng)用Softmax 函數(shù)得到類別概率。本文使用符號(hào)p1(y|x)、p2(y|x) 來(lái)分別表示由 F1和 F2獲得的輸入圖像x的K維概率輸出。

        相比于其他域適應(yīng)算法,本文算法在最小化域間差異的同時(shí),可以使目標(biāo)域內(nèi)不同類別樣本之間的差異最大化。如圖1 所示,對(duì)于目標(biāo)域數(shù)據(jù),其他方法因?yàn)閮H對(duì)齊域間差異,縮小源域和目標(biāo)域數(shù)據(jù)之間的距離,所以特征生成器會(huì)在分類邊界附近生成模糊特征。本文模型方法利用對(duì)抗訓(xùn)練思想,最小化源域與目標(biāo)域數(shù)據(jù)之間的距離,同時(shí)使目標(biāo)域不同類別遠(yuǎn)離分類邊界,獲得更加具有區(qū)分性的特征,從而提高域適應(yīng)分類的準(zhǔn)確率。

        圖1 不同方法特征分布對(duì)比Fig.1 Comparison of the feature distribution of different methods

        1.1 信息熵對(duì)抗

        分類器的輸出為經(jīng)過(guò)Softmax 函數(shù)得到的不同類別概率,根據(jù)信息熵的定義,可以得到該分類器結(jié)果的信息熵大小,信息熵越大表示不同類別的概率值越接近,表明分類邊界越模糊,反之,信息熵越小,表明分類邊界越清晰。如圖2 所示,借鑒對(duì)抗訓(xùn)練思想、特征生成器最小化信息熵、分類器最大化信息熵,實(shí)現(xiàn)使生成的特征向量f遠(yuǎn)離分類邊界的目的,其中不同形狀的標(biāo)志點(diǎn)代表不同類別的樣本。

        圖2 信息熵對(duì)抗過(guò)程Fig.2 Information entropy confrontation process

        1.2 算法分析

        本文算法的目標(biāo)是利用特定任務(wù)的分類器作為判別器來(lái)減小源域和目標(biāo)域特征的距離,以考慮類邊界和目標(biāo)樣本之間的關(guān)系。為實(shí)現(xiàn)這個(gè)目標(biāo),必須檢測(cè)到靠近分類邊界的目標(biāo)域樣本,本文算法利用了兩種分類器在目標(biāo)樣本預(yù)測(cè)上的不一致性。由于源域數(shù)據(jù)帶標(biāo)簽,所以分類器可以對(duì)源域樣本正確分類,兩分類器 F1和 F2的初始化不同必然使決策邊界不同。如圖3 所示,處于陰影處的目標(biāo)域樣本會(huì)被錯(cuò)誤分類,如果能夠測(cè)量?jī)蓚€(gè)分類器分類結(jié)果之間的不一致,并訓(xùn)練生成器使之最小化,則生成器將避免生成錯(cuò)誤分類的目標(biāo)域特征。同時(shí)分類器輸出結(jié)果p1(y|x) 和p2(y|x) 的信息熵越小,表示預(yù)測(cè)結(jié)果越具有確定性,所以訓(xùn)練生成器使分類結(jié)果信息熵最小化,則特征生成器將生成遠(yuǎn)離分類器決策邊界的更加具有區(qū)分性的特征。

        圖3 本文算法特征分布對(duì)齊過(guò)程Fig.3 Alignment process of the feature distribution is presented in this paper

        使用距離d(p1(y|xt),p2(y|xt))度量分類器 F1和F2之間的差異,其中d表示計(jì)算兩概率分布散度的函數(shù)。根據(jù)Ben-David 等[18]提出的目標(biāo)域樣本誤差限的計(jì)算理論,目標(biāo)域樣本的誤差限RT(h)與3 個(gè)因素有關(guān),包括源域樣本誤差限RS(h)、度量分類器差異的H 距離和常數(shù) λ,其中 H 距離用來(lái)度量區(qū)分不同域分類器的差異,λ 表示理想假設(shè)的共享誤差,通常被認(rèn)為是一個(gè)極小的值。使用H表示分類器假設(shè)空間,對(duì)于給定的源域S和目標(biāo)域T,則:

        式中:I[a]是一個(gè)二值函數(shù),當(dāng)預(yù)測(cè)a正確時(shí)函數(shù)值為1,否則為0。對(duì)于dH(S,T),通過(guò)對(duì)帶標(biāo)簽的源域數(shù)據(jù)的監(jiān)督學(xué)習(xí),可以認(rèn)為預(yù)測(cè)函數(shù)h和h′可以對(duì)源域數(shù)據(jù)實(shí)現(xiàn)很好地分類,所以xE~S I[h(x)≠h′(x)] 部分值極小,因此可以近似認(rèn)為:

        式(4)表示兩個(gè)分類器對(duì)目標(biāo)域樣本預(yù)測(cè)差異的極限值。將h用特征提取器 G的函數(shù)G(x)和分類器 F1的函數(shù)F1表示,h′用特征提取器 G 的函數(shù)G(x)和分類器 F2的函數(shù)F2表示,用符號(hào)“ ?”表示不同網(wǎng)絡(luò)結(jié)構(gòu)之間輸入輸出的連接,則可以得到

        引入對(duì)抗訓(xùn)練的方式,實(shí)現(xiàn)對(duì)特征提取器 G的優(yōu)化:

        本文算法的目標(biāo)是獲得一個(gè)特征生成器,這個(gè)特征生成器可以將目標(biāo)樣本的分類不確定性最小化,并且可以使目標(biāo)域樣本與源域樣本的距離最小化。

        1.3 Softmax 交叉熵?fù)p失

        本文使用Softmax 交叉熵?fù)p失來(lái)優(yōu)化有標(biāo)注源域數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)分類任務(wù),通過(guò)對(duì)源域數(shù)據(jù)的監(jiān)督學(xué)習(xí)可以保證特征生成器在先驗(yàn)特征空間上有合理的構(gòu)造。Softmax 交叉熵?fù)p失定義為

        1.4 分類差異損失

        將兩個(gè)分類器的概率輸出之差的絕對(duì)值之和定義為分類距離損失:

        式中p1k和p2k分別表示第k類p1和p2的概率輸出。

        1.5 信息熵?fù)p失

        在目標(biāo)域中,一個(gè)理想的特征向量f輸入分類器得到的概率輸出應(yīng)該集中于某一類上。由于目標(biāo)域數(shù)據(jù)沒(méi)有標(biāo)注信息,無(wú)法知道樣本的類別,因此本文通過(guò)最小化信息熵的方法來(lái)促使目標(biāo)域樣本分類概率集中于某一類上,使得到的分類結(jié)果更加具有確定性。定義熵?fù)p失如下:

        源域由于有標(biāo)注信息,其樣本的分類概率往往集中在所標(biāo)注的類別上;而目標(biāo)域由于存在域間差異,其在分類概率上往往不夠集中。訓(xùn)練特征提取器最小化信息熵可以在特征向量層減小源域和目標(biāo)域的域間差異,即使特征提取器具有更強(qiáng)的泛化能力。

        1.6 算法流程

        Lcl1和Lcl2分別表示分類器 F1和 F2的Softmax交叉熵?fù)p失,Lent1和Lent2分別表示分類器 F1和 F2的信息熵?fù)p失。輸入源域數(shù)據(jù)集Ds={Xs,Ys},目標(biāo)域數(shù)據(jù)集Dt={Xt},批次大小為m,特征提取器訓(xùn)練次數(shù)為n。ACDIE 模型訓(xùn)練的整體算法流程為:

        1)從Ds中采樣m個(gè)有標(biāo)注數(shù)據(jù),記為{Xsm,Ysm};從Dt中采樣m個(gè)無(wú)標(biāo)注數(shù)據(jù),記為 {Xtm};

        2)通過(guò)有標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練;

        3)計(jì)算損失函數(shù)L1=Lcl1+Lcl2;

        4)反向傳播梯度信號(hào),更新 G、F1和 F2中的參數(shù);

        5)通過(guò)無(wú)標(biāo)注數(shù)據(jù)進(jìn)行域適應(yīng)訓(xùn)練;

        6)計(jì)算損失函數(shù)L2=Lcl1+Lcl2?Ld(Xtm)?Lent1(Xtm)?Lent2(Xtm) ;

        7)計(jì)算損失函數(shù)L3=Ld(Xtm)+Lent1(Xtm)+Lent2(Xtm);

        8)反向傳播梯度信號(hào),更新 G 中的參數(shù);

        9)重復(fù)訓(xùn)練步驟7)~8)n次。

        2 訓(xùn)練步驟

        分類器 F1和 F2接收特征生成器 G 生成的特征向量作為輸入,F(xiàn)1和 F2需要最大化分類距離差異d(p1(y|xt),p2(y|xt))和信息熵H(xt),而特征生成器最小化分類距離和信息熵。由此形成特征生成器G 與分類器 F 的關(guān)于分類距離和信息熵的對(duì)抗訓(xùn)練。ACDIE 模型訓(xùn)練流程如圖4 所示,ACDIE 模型的訓(xùn)練可以分為以下3 步。

        圖4 ACDIE 模型流程Fig.4 ACDIE model flow

        1)模型預(yù)訓(xùn)練

        為了使特征生成器獲得特定任務(wù)的區(qū)分特征,首先通過(guò)監(jiān)督學(xué)習(xí)的方式訓(xùn)練特征生成器和分類器以正確地對(duì)源域樣本進(jìn)行分類。訓(xùn)練網(wǎng)絡(luò)G、F1和 F2,以最小化Softmax 交叉熵優(yōu)化目標(biāo),如式(10)所示:

        2)訓(xùn)練分類器

        固定特征生成器 G 的參數(shù),利用目標(biāo)域數(shù)據(jù)訓(xùn)練分類器 F1和 F2,使分類概率輸出的差異增大,同時(shí)最大化分類輸出的信息熵,優(yōu)化目標(biāo),如式(11)所示:

        3)訓(xùn)練特征生成器

        固定分類器 F1和 F2的參數(shù),利用目標(biāo)域數(shù)據(jù)訓(xùn)練特征生成器 G,最小化分類差異和分類概率信息熵,使目標(biāo)域特征靠近相似類別的源域特征,同時(shí)遠(yuǎn)離決策邊界,使特征更加具有區(qū)分性。優(yōu)化目標(biāo)如式(12)所示:

        在訓(xùn)練過(guò)程中,將不斷重復(fù)上述3 個(gè)步驟,以實(shí)現(xiàn)特征生成器和分類器關(guān)于分類距離和信息熵的對(duì)抗訓(xùn)練。

        3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        為了評(píng)價(jià)ACDIE 算法的性能和效果,本文設(shè)計(jì)了4 種實(shí)驗(yàn):數(shù)字標(biāo)識(shí)域適應(yīng)實(shí)驗(yàn)、實(shí)物域適應(yīng)實(shí)驗(yàn)、t-SNE 圖可視化實(shí)驗(yàn)、信息熵?fù)p失對(duì)比實(shí)驗(yàn)。特征生成器 G 采用包括卷積層、池化層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,分類器 F1和 F2采用具有相同網(wǎng)絡(luò)結(jié)構(gòu)的全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。在 G、F1、F2網(wǎng)絡(luò)中加入批次歸一化(batch normalization,BN)層來(lái)提高網(wǎng)絡(luò)的訓(xùn)練和收斂的速度,防止梯度爆炸和梯度消失的發(fā)生,同時(shí)通過(guò)Dropout 層來(lái)防止模型過(guò)擬合。本文實(shí)驗(yàn)基于pytorch 深度學(xué)習(xí)框架,Ubuntu16.04 操作系統(tǒng),采用E5-2670 處理器,GPU 為GeForce GTX1080Ti,內(nèi)存32 GB。

        3.1 數(shù)字標(biāo)識(shí)域適應(yīng)實(shí)驗(yàn)

        3.1.1 數(shù)據(jù)集

        選擇機(jī)器學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集進(jìn)行域適應(yīng)實(shí)驗(yàn),包括MNIST[19]、USPS[20]、SVHN[21]、SYN SIG[22]和GTSRB[23],示例圖片如圖5 所示。SVHN是現(xiàn)實(shí)生活中的街道門牌號(hào)數(shù)字?jǐn)?shù)據(jù)集,包含99289張32 像素×32 像素的彩色圖片;MNIST 為手寫數(shù)字識(shí)別數(shù)據(jù)集,包含65000 張32 像素×32 像素的灰度圖片;USPS 為美國(guó)郵政服務(wù)手寫數(shù)字識(shí)別數(shù)據(jù)集,包含6562 張28 像素×28 像素的灰度圖像,這些數(shù)據(jù)集共計(jì)10 個(gè)類別的圖像;SYN SIG是合成的交通標(biāo)志數(shù)據(jù)集;GTSRB 是真實(shí)世界的標(biāo)志數(shù)據(jù)集,共計(jì)43 個(gè)類別的圖像。

        圖5 數(shù)字標(biāo)識(shí)數(shù)據(jù)集示例Fig.5 Digital ID dataset example

        對(duì)于這5 個(gè)域的數(shù)據(jù)樣本,設(shè)置5 種不同的域適應(yīng)情況:SVHN→MNIST、SYN SIG→GTSRB、MNIST→USPS、MNIST→USPS?和 USPS→MNIST。在本文實(shí)驗(yàn)中,USPS 表示使用1800 張USPS 數(shù)據(jù)集樣本,USPS*表示使用全部的USPS 數(shù)據(jù)集樣本來(lái)訓(xùn)練模型,數(shù)據(jù)集樣本數(shù)量設(shè)置與文獻(xiàn)[17]相同。

        3.1.2 實(shí)驗(yàn)超參數(shù)

        使用mini-batch 隨機(jī)梯度下降的優(yōu)化器算法,batch size 設(shè)置為128,隨機(jī)種子值設(shè)置為1,Learning rate 設(shè)置為0.0002,通過(guò)Adam 優(yōu)化器實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)更新,weight decay 設(shè)置為0.0005。

        3.1.3 對(duì)比實(shí)驗(yàn)結(jié)果

        將本文算法與其他在域適應(yīng)領(lǐng)域有代表性的方法進(jìn)行比較,包括MMD[9]、DANN[14]、分離域共享特征和域獨(dú)有特征的DSN[24]、基于域鑒別器對(duì)抗訓(xùn)練的ADDA[25]、學(xué)習(xí)多域聯(lián)合分布的CoGAN[26]、利用圖像生成的對(duì)抗過(guò)程學(xué)習(xí)源域和目標(biāo)域特征分布差異最小化的GTA[16],以及最大化決策分類器差異的MCD[17]。表1 展示了不同方法在5 種實(shí)驗(yàn)設(shè)置情況下的域適應(yīng)準(zhǔn)確率,其中:Source Only表示只使用源域數(shù)據(jù)進(jìn)行訓(xùn)練而不進(jìn)行域適應(yīng);分類精度最高的值用粗體表示。根據(jù)實(shí)驗(yàn)結(jié)果,對(duì)于5 種不同的域適應(yīng)情況,ACDIE 算法的準(zhǔn)確率都為最高值。特別是,在MNIST→USPS 的實(shí)驗(yàn)中,ACDIE 模型的域適應(yīng)分類準(zhǔn)確率可以達(dá)到97.4%,相較于MCD 的分類準(zhǔn)確率提高了3.2%。另外,在其他4 種域適應(yīng)情況下,相較于其他最好的域適應(yīng)算法,ACDIE 模型的分類準(zhǔn)確率也提高了2.1%~2.6%。對(duì)比MNIST→USPS 和MNIST→USPS*的準(zhǔn)確率結(jié)果,可以發(fā)現(xiàn)通過(guò)更多的目標(biāo)域數(shù)據(jù)可以進(jìn)一步提高域適應(yīng)效果。

        表1 數(shù)字標(biāo)識(shí)數(shù)據(jù)集域適應(yīng)準(zhǔn)確率對(duì)比Table 1 Comparison of the domain adaptation accuracies of digital ID datasets %

        3.2 實(shí)物域適應(yīng)實(shí)驗(yàn)

        3.2.1 Office-31 數(shù)據(jù)集

        為了測(cè)試模型對(duì)于實(shí)際物體圖片的域適應(yīng)效果,設(shè)計(jì)在Ofiice-31 數(shù)據(jù)集的域適應(yīng)實(shí)驗(yàn)。Ofiice-31數(shù)據(jù)集含有31 類不同物品的圖片,共計(jì)4652 張,是測(cè)試域適應(yīng)算法的通用數(shù)據(jù)集。該數(shù)據(jù)集的圖片分別來(lái)自3 種不同的數(shù)據(jù)域,包括在亞馬遜網(wǎng)站收集的樣本數(shù)據(jù)Amazon(A)、通過(guò)電腦攝像頭拍攝得到的樣本數(shù)據(jù)Webcam(W)、利用單反相機(jī)拍攝得到的樣本數(shù)據(jù)DSLR(D)。圖6 分別為A、D、W 這3 個(gè)不同域的圖片數(shù)據(jù)。對(duì)于這3 個(gè)域的數(shù)據(jù)樣本,設(shè)置6 種不同的域適應(yīng)情況:A→D、A→W、D→A、D→W、W→A、W→D。

        圖6 Office-31 數(shù)據(jù)集示例Fig.6 Office-31 dataset example

        3.2.2 實(shí)驗(yàn)超參數(shù)

        使用mini-batch 隨機(jī)梯度下降的優(yōu)化器算法,batch size 設(shè)置為32,隨機(jī)種子值設(shè)置為2 020。特征提取器 G 采用預(yù)訓(xùn)練的ResNet-50 網(wǎng)絡(luò),使用SGD 優(yōu)化器進(jìn)行梯度更新,學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減參數(shù)為0.0005。分類器 F 采用兩層全連接的網(wǎng)絡(luò)結(jié)構(gòu),使用SGD 優(yōu)化器進(jìn)行梯度更新,學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減參數(shù)為0.0005,momentum 值設(shè)置為0.9。

        3.2.3 對(duì)比實(shí)驗(yàn)結(jié)果

        為了對(duì)比實(shí)驗(yàn)的合理性,所有方法在同等條件下進(jìn)行對(duì)比實(shí)驗(yàn),選取ResNet-50 網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),對(duì)比方法包括DANN[14]、GTA[16]和使用條件對(duì)抗域適應(yīng)的CDAN[27]。表2 展示了不同方法在6 種實(shí)驗(yàn)設(shè)置情況下的域適應(yīng)準(zhǔn)確率,其中ResNet-50 表示使用ResNet-50 作為特征提取器對(duì)源域數(shù)據(jù)進(jìn)行訓(xùn)練而不進(jìn)行域適應(yīng)。

        表2 Office-31 數(shù)據(jù)集域適應(yīng)準(zhǔn)確率對(duì)比Table 2 Comparison of the domain adaptation accuracies of Office-31 dataset %

        從實(shí)驗(yàn)結(jié)果可以看出,相較于現(xiàn)有的算法模型,本文所提出的ACDIE 模型在不同域適應(yīng)情況下的分類準(zhǔn)確率都有不同程度的提高。在D→W和W→D 的情況下的域適應(yīng)結(jié)果分別達(dá)到98.6%和100%,因?yàn)镈 與W 兩個(gè)域之間的圖片差異較小,所以可以達(dá)到一個(gè)很高的分類準(zhǔn)確率。在A→D和A→W 的情況下準(zhǔn)確率較GTA 算法分別提高了1.5%和3.6%,說(shuō)明ACDIE模型在兩個(gè)域之間的差異較大的情況下仍能達(dá)到較好的域適應(yīng)效果。ACDIE 模型在Office-31 數(shù)據(jù)集上的平均域適應(yīng)準(zhǔn)確率達(dá)到87.6%。

        3.3 t-SNE 圖可視化實(shí)驗(yàn)

        為了更加直觀地看到經(jīng)過(guò)域適應(yīng)后特征向量的變化,本文采用t-SNE[28]方法將高維特征向量映射到適合觀察的二維向量,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的可視化。

        圖7 和圖8 分別是在SVHN→MNIST 和USPS→MNIST 兩種域適應(yīng)情況下,目標(biāo)域樣本特征分布的變化情況。每種顏色代表一個(gè)類別,左邊為進(jìn)行域適應(yīng)前不同類別樣本的可視化,右邊為進(jìn)行域適應(yīng)后不同樣本的可視化。通過(guò)t-SNE圖發(fā)現(xiàn),在域適應(yīng)前目標(biāo)域數(shù)據(jù)不同類別之間的距離較小,且決策邊界較為模糊。通過(guò)ACDIE 模型的域適應(yīng)后,目標(biāo)域相同種類的數(shù)據(jù)更加集中,不同種類的數(shù)據(jù)之間的距離增大,這使得分類器更加容易實(shí)現(xiàn)對(duì)目標(biāo)域數(shù)據(jù)的分類。

        圖7 SVHN→ MNIST 的t-SNE 圖Fig.7 t-SNE diagram of SVHN→ MNIST

        圖8 USPS→ MNIST 的t-SNE 圖Fig.8 t-SNE diagram of USPS→ MNIST

        3.4 信息熵?fù)p失對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證將信息熵?fù)p失加入對(duì)抗訓(xùn)練的有效性,以基于分類差異的域適應(yīng)模型為基礎(chǔ),設(shè)置4 組對(duì)比實(shí)驗(yàn):1)不加入信息熵?fù)p失;2) 僅在優(yōu)化F 時(shí)加入信息熵?fù)p失;3) 僅在優(yōu)化 G 時(shí)加入信息熵?fù)p失;4)信息熵?fù)p失對(duì)抗訓(xùn)練,即ACDIE 模型。

        從表3 的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,在實(shí)驗(yàn)3 的情況下,通過(guò)在優(yōu)化特征生成器 G 時(shí)加入信息熵?fù)p失,使信息熵?fù)p失減小,可以使生成的特征遠(yuǎn)離決策邊界,從而達(dá)到更高的域適應(yīng)準(zhǔn)確率,證明引入信息熵?fù)p失的有效性。在實(shí)驗(yàn)2 的情況下,通過(guò)在優(yōu)化分類器 F 時(shí)加入信息熵?fù)p失,使信息熵?fù)p失增大,實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)1 大致相同,在MNIST→USPS(p)和USPS→MNIST 下準(zhǔn)確率有所下降,因?yàn)榉诸惼?F 信息熵增加,決策邊界更加模糊,一部分靠近邊界的樣本數(shù)據(jù)會(huì)被錯(cuò)誤分類。在實(shí)驗(yàn)4 中,即ACDIE 模型,通過(guò)對(duì)抗訓(xùn)練的方式實(shí)現(xiàn)特征生成器 G 的信息熵?fù)p失最小化,域適應(yīng)準(zhǔn)確率相較于實(shí)驗(yàn)3 進(jìn)一步提高,證明了將信息熵?fù)p失加入對(duì)抗訓(xùn)練的有效性。

        表3 信息熵?fù)p失對(duì)比實(shí)驗(yàn)Table 3 Comparative experiment of information entropy loss %

        4 結(jié)束語(yǔ)

        現(xiàn)有無(wú)監(jiān)督域適應(yīng)算法僅將不同域之間的距離拉近,沒(méi)有考慮目標(biāo)樣本與決策邊界之間的關(guān)系,沒(méi)有擴(kuò)大目標(biāo)域內(nèi)不同類別樣本之間的距離。針對(duì)上述問(wèn)題,本文提出利用兩個(gè)分類器之間的不一致性對(duì)齊域間差異,減小源域和目標(biāo)域之間的距離,同時(shí)通過(guò)最小化信息熵來(lái)降低分類不確定性的ACDIE 模型。最小化信息熵能使相同類別的數(shù)據(jù)更加聚集,不同類別數(shù)據(jù)之間的距離更大,而且可以使目標(biāo)域樣本與源域樣本在語(yǔ)義空間上分布更加對(duì)齊。大量的實(shí)驗(yàn)表明,本文提出的的模型相比于領(lǐng)域內(nèi)其他模型取得了更優(yōu)的性能,驗(yàn)證了所提改進(jìn)算法的有效性。

        盡管ACDIE 模型在多個(gè)數(shù)據(jù)集中都有不錯(cuò)的表現(xiàn),但它仍存在一些提升空間。在今后的工作中,將進(jìn)一步從信息論的角度思考,考慮互信息等因素對(duì)模型的影響,以提升模型的準(zhǔn)確率和魯棒性。同時(shí)將進(jìn)一步探究不同距離分布度量對(duì)域適應(yīng)結(jié)果的影響。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        青青草视频网站免费观看| 国产精品精品自在线拍| 国产精品一区二区无线| 香蕉视频在线观看国产| 一二三四中文字幕日韩乱码| 漂亮人妻出轨中文字幕| 激情综合色五月丁香六月欧美 | 精品欧洲av无码一区二区| 亚洲天堂在线视频播放| 亚洲又黄又大又爽毛片 | 国外亚洲成av人片在线观看| 精品国产三级a| 91亚洲精品久久久中文字幕| 性欧美丰满熟妇xxxx性久久久| 人妻av无码系列一区二区三区| 97中文字幕在线观看| 亚洲专区一区二区三区四区五区| 亚洲男女内射在线播放| 天堂草原电视剧在线观看图片高清| 国产精品亚洲片夜色在线| 国产国语一级免费黄片| 风韵丰满熟妇啪啪区老老熟妇| 精品麻豆国产色欲色欲色欲www| 91爱爱视频| 中国黄色偷拍视频二区| 国产一区二区三区四区三区| 九九99无码精品视频在线观看| av手机天堂| 久久综合久久综合久久| 免费视频爱爱太爽了| 亚洲人成网站在线播放观看| 亚洲国产免费一区二区| 四虎永久在线精品免费网址| 色婷婷久久综合中文久久蜜桃av | 中文字幕本久久精品一区| 国产98在线 | 日韩| 亚洲VA欧美VA国产VA综合| 日本一区二区三区在线视频播放| 亚洲av国产av综合av卡| 大地资源网最新在线播放| 日本女优中文字幕在线观看|