許 浩,李宗印,郭衛(wèi)斌
1(華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)2(華東理工大學(xué) 科學(xué)技術(shù)發(fā)展研究院,上海 200237) E-mail:gweibin@ecust.edu.cn
得益于大量用于訓(xùn)練的帶標(biāo)簽數(shù)據(jù)集,有監(jiān)督深度學(xué)習(xí)算法在圖像識別和語義分割等不同的應(yīng)用中表現(xiàn)優(yōu)越[1].然而,在實際場景中收集大量且良好標(biāo)注的數(shù)據(jù)是一件非常耗時且代價昂貴的工作.幸運的是,不同但相關(guān)的領(lǐng)域中擁有現(xiàn)成的大規(guī)模標(biāo)注數(shù)據(jù)集,嘗試使用這些數(shù)據(jù)的強烈愿望也驅(qū)動著無監(jiān)督領(lǐng)域適應(yīng)(Unsupervised Domain Adaptation,UDA)的快速發(fā)展,無監(jiān)督領(lǐng)域適應(yīng)使用帶有標(biāo)注信息的源領(lǐng)域數(shù)據(jù)訓(xùn)練分類器或其他預(yù)測器,應(yīng)用到相關(guān)的無標(biāo)注目標(biāo)領(lǐng)域中去[2].
一般而言,解決領(lǐng)域適應(yīng)性問題的基本著眼點是通過減少兩個域之間的數(shù)據(jù)集偏置(dataset bias)[3],達到使源領(lǐng)域的標(biāo)簽預(yù)測器適用于目標(biāo)領(lǐng)域樣本的目的.正如最近的研究所示,通過對抗性領(lǐng)域適應(yīng)框架訓(xùn)練深度共享特征提取層的方法已經(jīng)在眾多領(lǐng)域適應(yīng)任務(wù)上實現(xiàn)了優(yōu)異的性能.文獻[4](Adversarial Discriminative Domain Adaptation,ADDA)通過基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)[5]的領(lǐng)域判別器學(xué)習(xí)域不變表征,相比文獻[6](Domain-Adversarial Training of Neural Networks,DANN)融合共享特征提取器和標(biāo)簽預(yù)測器在單個訓(xùn)練進程中的做法,ADDA將它們分成了兩個獨立的步驟,與本文算法流程的前半部分相貼合.
與傳統(tǒng)的領(lǐng)域適應(yīng)方法相似,在特征層面,分步領(lǐng)域適應(yīng)首先使用帶標(biāo)簽的源領(lǐng)域數(shù)據(jù)訓(xùn)練源特征提取器和標(biāo)簽預(yù)測器,然后通過逼近固定的源特征空間,從未標(biāo)注目標(biāo)領(lǐng)域中提取到域不變表征,達到使兩個域的提取特征不可分的目的.但除此之外,本文方法并沒有直接使用源領(lǐng)域中已訓(xùn)練的標(biāo)簽預(yù)測器分類目標(biāo)樣本,而是進一步利用目標(biāo)領(lǐng)域中易適應(yīng)的帶有預(yù)測標(biāo)簽的樣本對模型進行了再次針對性的訓(xùn)練,如圖1所示.受啟發(fā)于一些旨在利用標(biāo)簽層面輔助效用的方法,例如類間關(guān)系[7,8]和偽多視角聯(lián)合訓(xùn)練(pseudo multi-view co-training)[9],文中將目標(biāo)領(lǐng)域中的樣本分為兩類,即易適應(yīng)和難適應(yīng),并利用可視化工具和最終實驗結(jié)果進行驗證.易適應(yīng)樣本將被用于再訓(xùn)練標(biāo)簽預(yù)測器以學(xué)習(xí)到目標(biāo)領(lǐng)域的特異性特征,對常用UDA數(shù)據(jù)集的測試實驗證實了其有效性.
圖1 多層面的分步領(lǐng)域適應(yīng)算法結(jié)構(gòu)圖Fig.1 Architecture of multi-level and step-by-step domain adaptation
本文的主要工作如下:
1)數(shù)據(jù)利用率最大化,從多個層面分步對數(shù)據(jù)進行處理,提出具有泛化性能的UDA框架.
2)高度可擴展性,可在標(biāo)簽或其他層面上進行改進,例如考慮像素層面的影響.
3)創(chuàng)新性與實用性,巧妙地將易適應(yīng)樣本和領(lǐng)域?qū)箵p失相結(jié)合,用以提高難適應(yīng)樣本的分類準(zhǔn)確率.
針對產(chǎn)生域推廣誤差的領(lǐng)域適應(yīng)性問題,系統(tǒng)性的理論研究工作[10]給出了源領(lǐng)域分類誤差和H-散度度量距離函數(shù)的約束定理,并且指出判斷一個好的領(lǐng)域適應(yīng)方法的標(biāo)準(zhǔn)是其是否擁有良好的特征表示,可以同時最小化領(lǐng)域間差異和源領(lǐng)域分類錯誤率.
遵循類似的處理流程,最大均值差異(Maximum Mean Discrepancy,MMD)[11]和基于GAN的領(lǐng)域?qū)箵p失作為新的距離度量準(zhǔn)則已被廣泛地使用.為了最小化邊緣和條件分布差異,聯(lián)合分布適應(yīng)[12,13]采用MMD距離度量函數(shù)與主成分分析(Principal Component Analysis,PCA)[14]相結(jié)合的方法.文獻[15]則將MMD擴展到了深度神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)可遷移特征.與此同時,隨著GAN在DANN中的成功應(yīng)用,領(lǐng)域?qū)箵p失在不同形式的對抗性領(lǐng)域適應(yīng)方法中[16,17]變得流行起來(1)https://arxiv.org/abs/1412.3474.
許多領(lǐng)域適應(yīng)方法不僅關(guān)注域不變表征,還關(guān)注目標(biāo)領(lǐng)域中的特有特征.其中,一種簡單直接的方式是使用目標(biāo)領(lǐng)域樣本進行訓(xùn)練.從算法流程的角度分析,兩階段領(lǐng)域適應(yīng)[18]與本文方法類似,它首先從源領(lǐng)域中提取一般特征,然后利用帶有預(yù)測標(biāo)簽的目標(biāo)領(lǐng)域數(shù)據(jù)對標(biāo)簽預(yù)測器進行精確化[19].但同時與本文方法也存在一些較大的差異.
在設(shè)計理念上,本文傾向于數(shù)據(jù)利用率最大化和具有高度的可擴展性,考慮到領(lǐng)域適應(yīng)方法在計算機視覺像素層面[20]的研究,我們將范圍約束在特征和標(biāo)簽層面.在提取域不變表征的過程中,兩階段使用固定的加權(quán)源特征,與傳遞遷移學(xué)習(xí)[21]概念的提出不合.標(biāo)簽層面上,它沒有考慮到類間關(guān)系的影響以及將最有可能標(biāo)簽作為實際標(biāo)簽的不真實性,即偽標(biāo)簽的使用問題,多層面的分步領(lǐng)域適應(yīng)結(jié)合領(lǐng)域?qū)箵p失對此進行了一一修正.此外,它應(yīng)用場景為文本處理,屬于傳統(tǒng)的淺層領(lǐng)域適應(yīng)方法,不過也一定程度上證明了本文模型的泛化性.
本文方法同時考慮了域不變表征和目標(biāo)領(lǐng)域的特異性特征的提取.為了最大化數(shù)據(jù)利用率,多層面的分步領(lǐng)域適應(yīng)將共享特征的提取分為兩個具有先后順序的步驟,由于已有ADDA方法的貼合性,遂將其用作模型的前半部分.相對于特征層面,與類間關(guān)系和偽標(biāo)簽等標(biāo)簽相關(guān)的應(yīng)用被劃分為標(biāo)簽層面,為保證目標(biāo)領(lǐng)域中數(shù)據(jù)的有效性,文中僅選擇易適應(yīng)的樣本進行利用.
作為模型的基本部分,ADDA克服了DANN的缺點.為了避免梯度消失問題,ADDA沒有采用梯度反向?qū)拥募记?而是逐步優(yōu)化目標(biāo)特征提取器.它首先利用已標(biāo)注源樣本學(xué)習(xí)源特有特征和標(biāo)簽預(yù)測器Cs,然后訓(xùn)練由源特征提取器Ms初始化的目標(biāo)特征提取器Mt進行共享特征的提取,如此能夠使更多有助于分類的源特征被保留下來,如圖2、圖3所示.
圖2 DANN算法結(jié)構(gòu)和信息流圖Fig.2 Network architecture and information flow for DANN
由于在單次循環(huán)中,有標(biāo)簽和無標(biāo)簽樣本都被用于訓(xùn)練共享特征提取器,DANN并不能訓(xùn)練出最佳的源標(biāo)簽預(yù)測器.
圖3 ADDA算法結(jié)構(gòu)和信息流圖(虛線表示參數(shù)值固定)Fig.3 Network architecture and information flow for ADDA(dashed lines indicate fixed network parameters)
但是,ADDA并沒有汲取DANN的優(yōu)點.對算法流程進一步分析發(fā)現(xiàn),梯度反向?qū)拥囊雽?biāo)簽預(yù)測器與共享特征提取器融合進了單個訓(xùn)練過程中,因此,隨著目標(biāo)領(lǐng)域特有特征的增加和標(biāo)簽預(yù)測器的不斷改進,DANN具備更好的靈活性和針對性.以上顯示ADDA并不完整.
(1)
并且基于算法流程的相似性,可以選用其他的距離度量函數(shù)以此推廣到其他領(lǐng)域適應(yīng)方法中去.模型的后半部分如圖4所示.
圖4 本文算法后半部分的結(jié)構(gòu)和信息流圖(虛線表示參數(shù)值固定)Fig.4 Network architecture and information flow for the second half of our algorithm(dashed lines indicate fixed network parameters)
本文使用常用的領(lǐng)域適應(yīng)數(shù)據(jù)集進行方法的評估.依照無監(jiān)督領(lǐng)域適應(yīng)的實驗設(shè)置,目標(biāo)領(lǐng)域?qū)⑷坑晌礃?biāo)注樣本組成.此外,文中若無特別說明,將統(tǒng)一使用全部訓(xùn)練集進行領(lǐng)域適應(yīng)任務(wù).根據(jù)顏色通道的數(shù)量,任務(wù)分為兩組,單通道(GRAY)適應(yīng)和三通道(RGB)適應(yīng),共計五個方向:MNIST→USPS,USPS→MNIST,SVHN→MNIST,Synthetic Signs→GTSRB和CIFAR-10→STL-10.
MNIST:遵循ADDA方法中USPS和MNIST之間的適應(yīng)規(guī)則,我們從流行的大小為28×28像素的MNIST數(shù)據(jù)集中隨機抽取2,000張圖片.完整的訓(xùn)練集則用于SVHN和MNIST之間的適應(yīng)任務(wù).
USPS:與MNIST類似,從大小為16×16像素的USPS中隨機抽取1,800張圖片.
SVHN:從現(xiàn)實場景中獲得的大小為32×32像素的裁剪數(shù)字數(shù)據(jù)集,包括73,257張訓(xùn)練圖片和26,032張測試圖片.
Synthetic Signs:用于解決使用合成數(shù)據(jù)訓(xùn)練的模型無法完全推廣到真實場景的問題,擁有43個不同的類別.
GTSRB:用于分類問題的大規(guī)模真實數(shù)據(jù)集,具有超過50,000張大小在15×15到250×250像素之間的交通標(biāo)志圖片.
CIFAR-10:為進行領(lǐng)域適應(yīng)任務(wù),實驗中將去除′frog′類別的樣本.
STL-10:將′monkey′類別的樣本去除,并依照CIFAR-10標(biāo)簽進行重新排序.
對比原始的ADDA方法,我們保持相同的實驗環(huán)境,所有參數(shù)值不變.在單通道適應(yīng)任務(wù)中,圖片大小被統(tǒng)一調(diào)整到28×28像素并轉(zhuǎn)換為灰度圖像.對于三通道適應(yīng),從Synthetic Signs到GTSRB,圖片尺寸統(tǒng)一調(diào)整為40×40像素.STL-10依照CIFAR-10將圖片大小調(diào)整為32×32像素.
此外,模型對于易適應(yīng)樣本的選擇和加權(quán)領(lǐng)域?qū)箵p失使用固定的系數(shù),最有可能標(biāo)簽的概率閾值設(shè)置為0.99,類間概率差值為0.97,權(quán)重為0.5.由于偽標(biāo)簽的非真實性,我們僅使用它來提升難適應(yīng)樣本的分類正確率.
當(dāng)領(lǐng)域?qū)箵p失的權(quán)重值設(shè)置為0時,實驗結(jié)果有時會優(yōu)于0.5.但由于偽標(biāo)簽的使用,它并不穩(wěn)定而且不合理.表1和表2顯示,多層面的分步領(lǐng)域適應(yīng)選擇的易適應(yīng)樣本具有比原始數(shù)據(jù)更高的準(zhǔn)確度,此外,難適應(yīng)樣本的再分類也獲得了良好的表現(xiàn).對比DANN,模型在每一層面獲得的效果提升都將對最終的實驗結(jié)果產(chǎn)生推動作用,也極好的詮釋了方法的設(shè)計理念.表3則進一步對概率閾值和差值的不同組合進行實驗,以MNIST→USPS為例,通過數(shù)據(jù)對比發(fā)現(xiàn),選用更高的組合值后,易適應(yīng)和難適應(yīng)樣本的初始精度在不斷提升,本文模型的效果也在同步改善.
表1 單通道適應(yīng)任務(wù)下的實驗結(jié)果(實際樣本數(shù)量)
Table 1 Experimental results of single channel adaptation task (the realistic number of samples)
Method SourceTargetMNISTUSPSUSPSMNISTSVHNMNISTSource only0.7540.5830.610DANN0.7710.7300.739DDC[16]0.7910.6650.681CoGAN[17]0.9120.891-ADDA0.8740.9140.785易適應(yīng)0.929(1562)0.965(1770)0.871(48344)難適應(yīng)0.546(238)0.522(230)0.427(11656)本文方法(w=0)0.6220.5960.426本文方法(w=0.5)0.6470.5740.442
表2 三通道適應(yīng)任務(wù)下的實驗結(jié)果(實際樣本數(shù)量)
Table 2 Experimental results of three channels adaptation task (the realistic number of samples)
Method SourceTargetSYN SignsGTSRBCIFAR-10STL-10Source only0.7960.491DANN0.8870.525ADDA0.8890.525易適應(yīng)0.944(34525)0.709(2549)難適應(yīng)0.487(4684)0.397(1951)本文方法(w=0)0.6140.385本文方法(w=0.5)0.6280.410
表3 不同的概率(閾值,差值)組合實驗結(jié)果
(實際樣本數(shù)量)
Table 3 Experimental results of different combinations (threshold,difference)about probability(the realistic
number of samples)
MNIST→USPS(0.95,0.95)(0.99,0.90)易適應(yīng)0.917(1632)0.932(1569)難適應(yīng)0.423(168)0.472(231)本文方法(w=0.5)0.5180.506(續(xù)上)(0.99,0.97)(0.998,0.995)易適應(yīng)0.929(1562)0.939(1504)難適應(yīng)0.546(238)0.514(296)本文方法(w=0.5)0.6470.581
在CIFAR-10→STL-10的適應(yīng)任務(wù)中,易適應(yīng)樣本并沒有獲得較高的準(zhǔn)確率,因此造成偽標(biāo)簽的不真實因素比重增加,對抗損失權(quán)重值設(shè)置為0的模型出現(xiàn)準(zhǔn)確率下降的現(xiàn)象.
將提取特征通過t-SNE工具進行可視化處理,可以幫助我們更直觀地理解和分析.在USPS→MNIST任務(wù)中,從每個域隨機采樣少量樣本. 圖5詳細顯示了多層面的分步領(lǐng)域適應(yīng)取得的階段性成果.圖6中對于模型選擇的數(shù)據(jù)集進行可視化,通過對比可以發(fā)現(xiàn)易適應(yīng)樣本在視覺上更加易于識別和分類,證實了方法的有效性.
圖5 本文方法主要部分的可視化記錄Fig.5 Visual record of main parts
圖6 易適應(yīng)和難適應(yīng)的對比圖Fig.6 Comparison of datasets selected by our algorithm
本文以新的視角提出了一種解決領(lǐng)域適應(yīng)性問題的框架結(jié)構(gòu).為了最大化數(shù)據(jù)利用率,多層面的分步領(lǐng)域適應(yīng)采用逐步提升的方式,不僅將源標(biāo)簽預(yù)測器和共享特征提取器的訓(xùn)練過程分開,而且巧妙地再利用域判別器并結(jié)合帶偽標(biāo)簽的易適應(yīng)樣本學(xué)習(xí)目標(biāo)領(lǐng)域的特有特征.前者保證了初期最佳分類模型的形成,而后者則直接提高目標(biāo)領(lǐng)域中樣本分類的準(zhǔn)確性.考慮后期對像素層面的處理,本文提出了多層面適應(yīng)的概念,并指定模型的范圍僅在特征和標(biāo)簽層面.最后,大量的實驗數(shù)據(jù)和可視化分析進一步驗證了模型的優(yōu)越性.