劉曉龍,王士同
1.江南大學 人工智能與計算機學院,江蘇 無錫214122
2.江南大學 江蘇省媒體設計與軟件技術(shù)重點實驗室,江蘇 無錫214122
目前國內(nèi)外大多數(shù)的域自適應的工作都假定目標域樣本必然屬于源域的已知類,兩者有相同的類別空間,樣本特征分布雖然不同但是相似。在實際的開放情況中,這種情況大多是不存在的,測試的目標域中大多還是有不同于源域的獨立類別樣本,把這些獨立類別稱為“未知類”,源域和目標域完全相同的類別,稱為“共享類”。但是如果源域和目標域除了包含共享類別之外還都有完全獨立的未知類別樣本,那么稱作這是一種開放集合領(lǐng)域場景。在此種開放的場景下,源域和目標域的共享已知類樣本特征分布相似,差異較??;但是由于未知類的多樣性,源域和目標域中未知類樣本與共享類樣本之間分布差異或大或小,簡單的線性分類器不能應用到此種開放集的場景下。源域和目標域在開放集場景下不再像在封閉集下那樣受限于共享相同的類別。圖1 展示了開放集和封閉集領(lǐng)域場景:圖(a)中源域和目標域只包含同一組共享類別的圖像;圖(b)中源域和目標域包含未知類別或存在其他領(lǐng)域的類別的樣本,即有共同的已知類別樣本之外,還有完全獨立的未知類別樣本。這種開放集合的領(lǐng)域是基于一種開放設置[1]的概念引申出來的。
Fig.1 Closed set domain and open set domain圖1 封閉集合域與開放集合域
為了解決源域中帶標簽的數(shù)據(jù)集與目標域中的非標簽數(shù)據(jù)之間的轉(zhuǎn)移問題,從標簽豐富的源域中訓練分類器應用到另一個目標域樣本,國內(nèi)外學者也提出了許多域自適應方法[2-6]。文獻[2]提出的對抗性區(qū)分域自適應方法學習一種對抗無監(jiān)督適應方法的通用框架,使用倒置標簽生成對抗網(wǎng)絡(generative adversarial network,GAN)損失將優(yōu)化分為兩個獨立的目標,一個用于生成器,一個用于判別器,考慮了獨立的源映射和目標映射(兩個流之間未共享的權(quán)重),從而可以學習領(lǐng)域特定的特征提取。文獻[3]提出了一種深度域自適應方法,該方法利用域損失最小化,同時最大化不同域和類的標記樣本之間的距離。文獻[4]利用了將實例分配給部分潛在的領(lǐng)域并通過優(yōu)化二進制來解決分類情況的思想,將實際的測試數(shù)據(jù)與已知領(lǐng)域內(nèi)的帶標記實例相關(guān)聯(lián),解決不平衡跨領(lǐng)域問題。文獻[6]基于對抗網(wǎng)絡方法提出了一種全新的度量源域和目標域數(shù)據(jù)分布差異的方法。通過梯度翻轉(zhuǎn)層訓練卷積網(wǎng)絡并結(jié)合損失將損失最小化用于域自適應分類任務。由于不同領(lǐng)域的樣本有不同的特征,會降低不同領(lǐng)域分類器的性能,因此盡可能地要使源域數(shù)據(jù)和目標數(shù)據(jù)之間有相似的分布且存在遷移的情況下訓練判別分類器。這種特殊直推式遷移學習,由于不需要高成本的標簽注釋器就可以進行源域和目標域之間的知識傳遞,可以更好地解決現(xiàn)實問題,因此這種優(yōu)勢技術(shù)受到了更多的關(guān)注。文獻[7]提出的遷移成分分析(transfer component analysis,TCA)和文獻[8]提出的轉(zhuǎn)移均衡的分布式適應(balanced distribution adaptation,BDA)都是基于邊緣分布的自適應方法。文獻[9-10]利用兩個域之間存在某些共享子空間提出了測地線流式核方法(geodesic flow kernel,GFK)。最小化了源域和目標域的二階統(tǒng)計特征的關(guān)聯(lián)對齊法(correlation alignment,CORAL)[11-12]形式簡單并且高效。這些域自適應算法的測試數(shù)據(jù)大多都來源于訓練數(shù)據(jù)。
然而要進行圖像分類和行為識別這種實際應用,現(xiàn)實由于目標域樣本示例沒有給定標簽,因此不能確定所屬類別一定是在源域已知類別范圍之內(nèi),例如從共享網(wǎng)站收集的數(shù)據(jù)集與應用程序需要處理的數(shù)據(jù)有很大差別。目前大多域自適應算法不能解決源域和目標域樣本類別不匹配的遷移問題。利用源域和目標域的共享子空間和“未知類”有效解決這個問題,并且進一步提出了一種基于開放集圖像分類的模糊域自適應方法。鑒于復雜的目標域樣本的復雜性和不同環(huán)境配置獲取的圖像樣本的特征相似性,利用歐式距離很難直接精確地判斷目標域樣本標簽問題,因此引進的是模糊系統(tǒng)中的不確定性模糊隸屬度[13-14]。在分配偽標記過程中,通過模糊聚類算法的思想獲得樣本模糊隸屬度,通過最小化分配的距離來學習從源域到目標域的模糊映射,使兩個域相關(guān)聯(lián)并且分布在同一個空間中。在下一個迭代中使用轉(zhuǎn)換后的源域樣本重新模糊分配并更新轉(zhuǎn)換映射,直到在目標域樣本上,學習的分類器達到最好的分類效果為止。通過是否預先給目標域樣本固定部分標簽,得到了無監(jiān)督模糊域自適應和半監(jiān)督模糊域自適應兩種情形。
對目標域樣本實例進行模糊分配偽標簽,利用源域的已知類別數(shù)據(jù)對每個目標樣本分配偽標簽。在開放數(shù)據(jù)集中,定義源域樣本包涵C個類別,包涵C-1 個已知樣本類別和一個額外的未知類別。利用模糊C 均值聚類算法(fuzzy C-means,F(xiàn)CM)的主要思想[13-14],計算目標域樣本到源域類別中心的距離來得到一個模糊隸屬矩陣來反映樣本點屬于某一類別的隸屬程度,判斷樣本點上屬于某一類。目標域n個樣本,則可以表示為T={t1,t2,…,tn},定義第k次迭代的源域所有樣本類別的均值為和V(k)由D維的樣本特征表示。表示第k次迭代中樣本tj屬于第i類的隸屬度,表示第k次迭代中樣本tj屬于奇異值的隸屬度。定義第k次迭代中樣本tj到第i個中心點的距離為:
利用拉格朗日乘子法求解式,得到隸屬度公式:
可以得到第k次迭代樣本對源域類別隸屬矩陣和樣本為奇異值的隸屬矩陣。相比直接二分類而言,模糊隸屬度更能符合現(xiàn)實情況和增加容錯率。通過隸屬度目標樣本得到一個帶隸屬度的偽標簽。
其他條件不變,當給目標樣本注少量標簽時,無監(jiān)督分配問題變成半監(jiān)督問題。在這種情況下,增加約束條件使帶注釋的目標樣本不再改變類別標簽。將τ表示樣本的先驗標簽集合,yrj=1 表示樣本tj帶r類標簽。并且是第k次迭代中樣本tj被分配的偽標簽,并且。
式(6)、式(7)利用最小化目標域樣本到源域類別中心的距離,完成對所有目標域樣本實例的標簽的初步分配,每個樣本得到一個偽標簽。
通過計算樣本類別均值,把定義各個類別均值之間的距離作為類別間的距離:第k次迭代源域中兩兩類別之間距離為:
目標域樣本實例tj標簽為i類的代價通過來表示,添加第二項在半監(jiān)督目標方程中。另外通過K近鄰算法得到tj的所有近鄰Nj,如果目標域中一個樣本實例tj的一個鄰居樣本被分配到tj所屬類別之外的另一個類別,添加源域中類別之間的距離作為額外的代價。定義分配標簽的距離代價目標函數(shù)為:
為了方便求解,把第k次迭代中樣本到已知類的距離和額外近鄰距離組合成新的距離損失:
利用拉格朗日乘子法求解式,得到隸屬度公式:
為將源域和目標域的樣本特征變換到相同的空間,需要學習一個映射函數(shù)W(k)∈?D×D來完成這個轉(zhuǎn)化。在學習這個映射過程中,選取每個樣本在隸屬矩陣U(k)和O(k)最大隸屬度,其設置為0,如果樣本的最大隸屬度出現(xiàn)在O中,那么實驗場景拒絕這個樣本參與學習映射函數(shù)W(k)。表示的是第k次迭代中樣本tj為第i類的最大模糊隸屬度。那么表示樣本tj沒有分配第i類別。在無監(jiān)督和半監(jiān)督兩種場景下,都是通過最小化損失函數(shù)來估計映射W(k):
表示第k次迭代中第i類樣本均值的轉(zhuǎn)置,用最小二乘法[15-16]求解這個凸目標函數(shù)的最優(yōu)解W(k),學習源域到目標域的模糊映射矩陣W(k)之后,將源樣本特征映射到與目標域相同的空間中。每一次迭代會得到新的映射。在轉(zhuǎn)換后的源域數(shù)據(jù)上訓練線性SVM分類器[17],更新分類器,獲得目標域樣本的分類結(jié)果。對于半監(jiān)督設置的數(shù)據(jù)集合,實驗還將帶注釋的目標樣本添加到訓練集中。
輸出:隸屬度矩陣U(k)、O(k),模糊映射函數(shù)W(k),分類精度。
步驟1初始化循環(huán)次數(shù)k=1。
步驟2分無監(jiān)督、半監(jiān)督兩種場景:
(1)無監(jiān)督場景下
根據(jù)式(2)得到φ(k);
根據(jù)式(4)、式(5)得到隸屬矩陣U(k)、O(k)。
(2)半監(jiān)督場景下
根據(jù)式(2)得到φ(k);
根據(jù)式(10)~(12)迭代更新得到隸屬矩陣U(k)、O(k)。
步驟3根據(jù)式(15)得到映射W(k)。
步驟4W(k)×S(k):將源域和目標域的樣本特征變換到相同的空間。
步驟5在轉(zhuǎn)換后的源域上訓練SVM 分類器,用于目標域分類,作為下次循環(huán)的源域。
步驟6判斷當前迭代是否是最優(yōu)精度,若是則返回步驟1,令k=k+1循環(huán)繼續(xù);若否,但超過最大迭代次數(shù)K,則循環(huán)停止,輸出前K次迭代中的最優(yōu)精度。
通過具體的實驗數(shù)據(jù)集驗證了提出的模糊域自適應方法的性能,在常用的Office數(shù)據(jù)集[18]上做了圖像的分類實驗。并且根據(jù)預先設定好的開放集協(xié)議[19]和是否為目標域樣本加標記的設定,實驗分為了無監(jiān)督下的開放集模糊域自適應和半監(jiān)督下的開放集模糊域自適應兩大部分內(nèi)容。相同的實驗參數(shù)環(huán)境下,在Office 數(shù)據(jù)集[18]上進行了圖像分類的實驗,并且與經(jīng)典的域自適應算法進行了對比。
在Office 數(shù)據(jù)集[18]上對本文方法進行了評估和比較。它提供了3 個不同的領(lǐng)域,即Amazon (A)、DSLR(D)和Webcam(W)。Amazon 數(shù)據(jù)集包含白色背景上的中心對象,其他兩個包含在辦公環(huán)境下拍攝的不同質(zhì)量級別的照片??偣灿?個源域-目標域的31個公共類的組合。有6個領(lǐng)域組合轉(zhuǎn)換(A→D,A→W,D→A,D→W,W→A,W→D)可以進行實驗的驗證,從AlexNet模型的全連通層(fc7)中提取特征向量[20-21]。通過將Caltech 數(shù)據(jù)集[9]與Office 數(shù)據(jù)集[18]的10 個相同類別作為共享類,本文為該數(shù)據(jù)集引入了一個開放集協(xié)議[19]。按照字母順序,在源域中使用第11~20個類作為未知樣本類,類21~31作為目標域中的未知樣本類,源和目標域中選擇出來的10 個類作為共享類,其他分配的未知類不被共享。實驗把獨立的未知類作為源域中單獨的一個類別,那么源域中就有共享的10個類別和另加一個未知類。同時設定了源域和目標域兩者僅包含10個共享類的樣本的封閉集合(Close)協(xié)議。本文在封閉和開放集合協(xié)議[19]上都做了大量實驗工作。
為確保每個域轉(zhuǎn)化實驗過程中有同樣參數(shù)配置環(huán)境,這樣訓練出來的分類器才能體現(xiàn)本文的模糊域自適應方法與無任何自適應結(jié)果的對比的公平性。選擇最大迭代次數(shù)K=10,對于正則參數(shù)α的調(diào)整,在實驗過程中,在[2-5,25]中以2 為步長尋找最優(yōu)值,直到達到最優(yōu)解。根據(jù)與文獻[11,16]中相似的分類任務實驗,使用線性核函數(shù)訓練SVM分類器,得到了比較好的軟間隔優(yōu)化,因此基于先前的懲罰因子系數(shù)的選擇,在實驗中取[10-5,100]范圍中以10為步長尋取本次實驗最優(yōu)的懲罰因子,選取多個域轉(zhuǎn)換的效果最好的系數(shù)。為了體現(xiàn)實驗的真實公平性,選取C=0.000 1 為本次所有基線算法和對比算法的懲罰因子系數(shù)。如果β設置為無窮大,那么這種情況就不考慮任何奇異值。若設置較低的參數(shù)值,那么幾乎拒絕所有已知類的分配標簽,即都分配為奇異值,顯然這樣無法實驗,更不符合邏輯與現(xiàn)實情況。4.2節(jié)實驗中分析了β取不同值帶來的實驗性能的影響,由實驗表明β=0.5時多半實驗會有最優(yōu)效果,因此選取β=0.5作為實驗的默認值。
同時報告了將數(shù)據(jù)轉(zhuǎn)換為普通低維子空間的方法結(jié)果,這些算法都是在域自適應問題上表現(xiàn)非常顯著的。在Office 數(shù)據(jù)集[18]上對以下幾個算法進行實驗,包括遷移成分分析法(TCA)[7],實驗中設定使用線性核函數(shù)進行映射,轉(zhuǎn)化后的維為d=2/D,D為樣本數(shù)據(jù)維度;構(gòu)建了一條測地線來使源域靠近目標域的測地線流核(GFK),實驗中利用子空間分歧度量(subspace disagreement measure,SDM)[9]和貪心算法求得這次實驗中的最優(yōu)子空間維度d*。此外,還有最小化源域和目標域的二階統(tǒng)計特征的CORAL[11],實驗用k近鄰分類器,設置近鄰k=1;在無監(jiān)督情況下的實驗,避免兩個域之間適配條件分布和邊緣分布被平衡對待而導致的實際問題中不平衡的問題,同樣也對比了轉(zhuǎn)移均衡的分布式適應算法(BDA),參考文獻[8]中的設置,實驗使用線性核,平衡因子μ=1,循環(huán)次數(shù)為10次。為了更好地分析本文方法FDA(fuzzy domain adaptation)算法不同形式的變換形式,F(xiàn)DA 是拒絕所有奇異值的表現(xiàn),源域中的類別對目標域所有樣本開放,即β=∞;FDAβ表示允許有奇異值的出現(xiàn),并且在參數(shù)β設置方面在實驗部分有精確說明。將單獨用源域數(shù)據(jù)訓練的SVM 分類器[17]作為比較對象,更好體現(xiàn)模糊域自適應的有效性。在使用開放集設置上[19],本文的實驗報告如表1 所示,明顯可以看到模糊映射自適應方法的優(yōu)越性,本文方法FDA 在開放集和封閉集協(xié)議設定上都有顯著的分類效果,比其他算法提升幅度更大。對于所有開放集合設定下的精度都小于封閉集合下的精度,但是本文方法在所有方法中仍然是表現(xiàn)最好的。
明顯得到,關(guān)于Amazon這種大數(shù)據(jù)集領(lǐng)域組合的轉(zhuǎn)換(A-D,A-W,D-A,W-A)改進的幅度更大。Amazon 到Dslr 的開放數(shù)據(jù)集上提升了8.74 個百分點,封閉數(shù)據(jù)集上提升了11.46個百分點。Amazon到Webcam數(shù)據(jù)開放集合和封閉集合上提升了16.31個百分點和11.55個百分點。從小樣本域到大樣本域的適應過程提升幅度也會有很明顯的提升,并且提升幅度很大。Dslr到Amazon的開放集和封閉集上分別提升了6.15 個百分點和11.8 個百分點。而小樣本域(D,W)之間的遷移時提升幅度不是特別顯著,但是也有不錯的效果。本文方法相比較沒有自適應學習的環(huán)境,幅度有明顯提升。在Office 數(shù)據(jù)集[18]上,開放集合協(xié)議和封閉集合協(xié)議整體平均提升了8.01個百分點和9.08個百分點。相對于實驗的其他域自適應學習算法,提升幅度最顯著。
參數(shù)β的影響:目標樣本是否被視為異常值由φ取值確定,φ由樣本到已知類之間的距離和參數(shù)β決定。為了分析參數(shù)β給實驗帶來的影響,取β=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]共9 個不同的值在轉(zhuǎn)化域中都做實驗。圖2 顯示了不同的β取值對實驗精度的影響。在Office數(shù)據(jù)集[18]的6個轉(zhuǎn)化域中多半在β=0.5 左右取得了最佳結(jié)果。當β接近0 時,由于丟棄了太多的樣本,精度大幅下降。因此選取β=0.5 作為所有實驗的默認值。
本文方法也在Office 數(shù)據(jù)集[18]上的半監(jiān)督設置中進行了評估。在目標域的已知類別樣本中,對每個已知類隨機抽取3 個樣本固定標簽。其余未標標記。把未進行域自適應時訓練支持向量機(SVM)分類器的準確性作為基線,這些支持向量機僅在帶注釋的目標樣本(a)和源域樣本和帶注釋樣本(a+s)上訓練。半監(jiān)督設定下的開放集和封閉集下6 個域轉(zhuǎn)換的實驗結(jié)果由表2所示,同時也對比了考慮奇異值和不考慮奇異值的情況,并且做了對比實驗。本文也在有1 個近鄰約束(FDA-N1)和有2 個近鄰約束(FDA-N2)兩個不同條件下進行了實驗對比,并且分別考慮了有無奇異值約束的兩種情況,實驗結(jié)果表明,差距不是很大。但是與預期一樣,在半監(jiān)督場景下,模糊域自適應效果比其余的都要好。
在半監(jiān)督場景下,每一個已知類隨機選取了3個樣本加固定標簽作為帶有先驗信息的樣本,這樣的樣本有普遍性,近鄰距離影響可能較小或者沒有,在目標函數(shù)中不具有能決定分配偽標簽的效果。具有特殊先驗信息的半監(jiān)督設定下6 個域轉(zhuǎn)化實驗精度的均值和方差如表3 所示。導致運行本次半監(jiān)督實驗結(jié)果的魯棒性很強??紤]現(xiàn)實情況,如果在特殊人為的先驗條件下,憑經(jīng)驗能確定部分具有代表性的和容易判斷錯誤的樣本標簽,那么這類樣本對整個分類判別分析的影響會很大,并且在選取少量固定標簽樣本情況下變化幅度也會很大,通過實驗來驗證本文的猜想。在這樣的假設條件下,優(yōu)先選擇具有代表性的或者容易分配為錯誤標簽的樣本,一個特殊的半監(jiān)督場景:在第一次通過目標域樣本到已知類中心的距離判斷偽標簽的時候,選擇出那些判斷錯誤的樣本,作為半監(jiān)督場景下加注釋的部分。在優(yōu)先選擇這些強注釋樣本條件下,同樣每個類別隨機抽取3個樣本加標簽注釋,形成特殊的半監(jiān)督環(huán)境。實驗驗證了本文的猜想,并且與先前驗證實驗效果一致。
Table 1 Accuracy comparison of 6 domain transformation experiments under unsupervised settings表1 無監(jiān)督設定下6個域轉(zhuǎn)化實驗的精度對比 %
Fig.2 Influence of different parameter β on accuracy of 6 domain transformation experiments圖2 不同的參數(shù)β 對6個域轉(zhuǎn)化實驗精度的影響
Table 2 Accuracy comparison of 6 domain transformation experiments under semi-supervised settings表2 半監(jiān)督設定下6個域轉(zhuǎn)化實驗的精度對比 %
Table 3 Mean and variance of 6 domain transformation experiments accuracy under semi-supervised settings with special prior information表3 具有特殊先驗信息的半監(jiān)督設定下6個域轉(zhuǎn)化實驗精度的均值和方差 %
為了保證實驗結(jié)果真實準確,對每個域轉(zhuǎn)化下的數(shù)據(jù)集都進行了3次實驗,然后取平均值作為最終結(jié)果并且用標準差來評估預測的離散程度。
現(xiàn)實場景更具有開放性,目標域與源域有完全獨立的類別樣本。鑒于獨立類別樣本的復雜性和重復性,本文提出的面向開放集合的模糊域自適應的方法基于源域和目標域的共享子空間對齊,通過計算目標樣本模糊隸屬度的方法得到帶有模糊隸屬度的偽標簽,迭代更新源域到目標域的模糊映射函數(shù),將源域和目標域的樣本特征變換到相同的空間。實驗結(jié)果證明,本文算法有效解決了傳統(tǒng)域自適應算法解決不了的開放性問題,并且在無監(jiān)督和半監(jiān)督場景下都能獲得比較顯著的結(jié)果。模糊域自適應的方法也可以應用于圖像分類的行為動作識別和視角檢測上等更廣泛的開放場景。