鄭濰雯,汪云云
(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院;2.江蘇省大數(shù)據(jù)安全與智能處理重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別、語(yǔ)義分割和自然語(yǔ)言處理等許多應(yīng)用中取得了顯著成果。然而,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,現(xiàn)代深度網(wǎng)絡(luò)更加依賴于大規(guī)模且高質(zhì)量的人工標(biāo)記數(shù)據(jù),但人為標(biāo)記大量樣本費(fèi)時(shí)費(fèi)力,對(duì)于特定的學(xué)習(xí)任務(wù)又需要相關(guān)的專業(yè)知識(shí)且存在人為主觀因素等,會(huì)導(dǎo)致標(biāo)簽上的誤差。如何利用少量有標(biāo)簽數(shù)據(jù),建立一個(gè)可靠的模型,幫助無(wú)標(biāo)記的數(shù)據(jù)進(jìn)行任務(wù)學(xué)習(xí),這便是最近備受關(guān)注的遷移學(xué)習(xí)。本文研究重點(diǎn)是遷移學(xué)習(xí)中的一個(gè)重要子問(wèn)題,即無(wú)監(jiān)督域適應(yīng)學(xué)習(xí)(Unsupervised Domain Adaptation,UDA)[1-2]。
UDA 旨在利用相關(guān)且有標(biāo)記的源域(Source Domain)的知識(shí)幫助無(wú)標(biāo)記的目標(biāo)域(Target Domain)學(xué)習(xí)。源域和目標(biāo)域數(shù)據(jù)雖然相關(guān)但仍存在明顯的分布差異,這會(huì)導(dǎo)致模型遷移性能不佳?,F(xiàn)階段大多數(shù)UDA 方法主要是學(xué)習(xí)域間不變知識(shí),從而減小域間分布差異以實(shí)現(xiàn)模型遷移,主要包括基于度量的方式[3-4]和基于對(duì)抗的方式[5-8]。基于度量的方式主要是利用不同的度量方式,例如最大均值差異(Maximum Mean Discrepancy,MMD)[4]或Wasserstein 距離[9]等以減小源域和目標(biāo)域之間的邊緣或條件分布差異?;趯?duì)抗的方式主要是通過(guò)特征提取器和域鑒別器之間[6]或是多分類器之間[3]的對(duì)抗學(xué)習(xí)提取出域不變特征以對(duì)齊源域和目標(biāo)域的特征分布,至此便能將源域中的類判別知識(shí)遷移應(yīng)用到目標(biāo)域中,幫助識(shí)別目標(biāo)域樣本完成分類任務(wù)。假定收集到的大量帶標(biāo)記的源域數(shù)據(jù)都完全正確,而這在真實(shí)的學(xué)習(xí)任務(wù)中常常難以滿足。
在真實(shí)場(chǎng)景的UDA 任務(wù)中,很難收集大量帶有干凈標(biāo)簽的源域樣本,從眾包平臺(tái)或互聯(lián)網(wǎng)媒體收集到的源域數(shù)據(jù)通常不可避免地帶有特征層面和標(biāo)簽層面上的噪聲。使用帶噪的源域數(shù)據(jù)會(huì)極大降低域適應(yīng)模型的泛化性能,特征噪聲會(huì)破壞原始數(shù)據(jù)分布,從而增加域?qū)R的難度;而標(biāo)簽噪聲會(huì)惡化分類的預(yù)期風(fēng)險(xiǎn),從而導(dǎo)致目標(biāo)域樣本的錯(cuò)誤分類,這使得以前的UDA 方法在帶噪環(huán)境中很容易失敗。最近,一些方法致力于研究噪聲域適應(yīng)學(xué)習(xí)(Noisy UDA)[10-13],主要可分為兩類:一類是采用Small Loss 準(zhǔn)則[10-11]將源域樣本分為干凈、有噪聲兩部分,然后僅利用干凈樣本將源域類判別知識(shí)遷移到目標(biāo)域;另一類主要是利用多個(gè)分類器的聯(lián)合學(xué)習(xí)策略[12-13]篩選出干凈樣本用于域適應(yīng)以減少標(biāo)簽噪聲在知識(shí)遷移過(guò)程中的影響,這也是本文所采取的策略。但這些工作往往只關(guān)注到樣本的標(biāo)簽噪聲而忽略了特征噪聲也會(huì)造成負(fù)遷移,并且大多數(shù)方法直接丟棄了噪聲樣本,僅使用干凈樣本進(jìn)行訓(xùn)練,因而樣本信息利用率低。Noisy UDA 方法在實(shí)際應(yīng)用場(chǎng)景中可以幫助醫(yī)療、金融等多個(gè)領(lǐng)域進(jìn)行相關(guān)性能提升,例如在醫(yī)學(xué)影像診斷中可應(yīng)對(duì)不同機(jī)器產(chǎn)生的噪聲或訓(xùn)練數(shù)據(jù)中的人工標(biāo)記誤差完成影像判斷,并可以學(xué)習(xí)不同臟器影像中的共性并完成跨域識(shí)別。
Noisy UDA 通常有域偏移和源域特征或標(biāo)簽被破壞這兩個(gè)問(wèn)題導(dǎo)致目標(biāo)域分類性能不佳,針對(duì)此學(xué)習(xí)場(chǎng)景,本文提出了基于多分類器差異的噪聲矯正域適應(yīng)學(xué)習(xí)模型(Noise Correction Domain Adaptation based on Classifiers Discrepancy,NCDA)。首先,利用多分類器之間輸出結(jié)果的差異性,結(jié)合本文提出的精確分類方式,可將源域數(shù)據(jù)分為干凈、帶有特征噪聲、帶有標(biāo)簽噪聲的樣本;其次,對(duì)兩種噪聲分別進(jìn)行矯正,之后結(jié)合干凈樣本一起投入到類判別知識(shí)的學(xué)習(xí)中,并先最大化多分類器之間的差異使得類別邊界清晰,再最小化多分類器損失約束其一致性;最后,采用隨機(jī)分類器的思想[14]優(yōu)化多分類器參數(shù),將其參數(shù)看作一個(gè)分布進(jìn)行優(yōu)化,避免網(wǎng)絡(luò)中的兩個(gè)分類器趨同,增加了多分類器對(duì)于樣本判別的多樣性,使得整個(gè)域適應(yīng)網(wǎng)絡(luò)更加具有魯棒性。NCDA 方法的主要貢獻(xiàn)點(diǎn)可總結(jié)如下:①提出對(duì)帶噪源域樣本進(jìn)行精確分類,區(qū)分特征噪聲與標(biāo)簽噪聲,并針對(duì)不同噪聲種類定制矯正方案,復(fù)用矯正后的樣本,以提高樣本利用率;②利用隨機(jī)分類器的思想優(yōu)化網(wǎng)絡(luò)參數(shù),將分類器的參數(shù)看作一個(gè)分布去優(yōu)化,可以增加分類器的多樣性以避免兩個(gè)分類器趨同而導(dǎo)致模型失效的問(wèn)題;③針對(duì)噪聲域適應(yīng)問(wèn)題,提出了NCDA,在Office-31、Office-Home、Bing-Caltech 數(shù)據(jù)集上與無(wú)監(jiān)督域適應(yīng)方法和噪聲域適應(yīng)方法進(jìn)行對(duì)比,實(shí)驗(yàn)證明了該方法的有效性和魯棒性。
無(wú)監(jiān)督域適應(yīng)學(xué)習(xí)主要是利用一個(gè)或多個(gè)不同但相關(guān)且有標(biāo)記的源域知識(shí)遷移到無(wú)標(biāo)記的目標(biāo)域。近年來(lái),UDA 正處于蓬勃發(fā)展的階段,其方法可大致可分為3 類:基于度量的方式、基于對(duì)抗網(wǎng)絡(luò)的方式、基于重構(gòu)的方法。在域適應(yīng)發(fā)展早期階段,大多采用基于度量的方式以減小源域和目標(biāo)域的數(shù)據(jù)分布差異。這類方法主要針對(duì)源域與目標(biāo)域數(shù)據(jù)的邊緣分布、條件分布以及聯(lián)合分布進(jìn)行對(duì)齊,以此減小域間偏移實(shí)現(xiàn)知識(shí)遷移。常用到的域間差異度量方法有最大均值差異(MMD)[4]、Wasserstein 距離[9]、相關(guān)性對(duì)齊[15]、KL 散度[16]、JS 散度[17]等。后來(lái),受對(duì)抗學(xué)習(xí)實(shí)踐啟發(fā),文獻(xiàn)[6]提出一種對(duì)抗性域適應(yīng)神經(jīng)網(wǎng)絡(luò),用特征提取器和域鑒別器之間的對(duì)抗學(xué)習(xí)提取出域不變特征并拉近源域和目標(biāo)域之間的特征分布。自此開(kāi)始,一系列關(guān)于對(duì)抗性學(xué)習(xí)的域適應(yīng)研究[42-43]被相繼提出。文獻(xiàn)[7]將條件分布信息融入對(duì)抗自適應(yīng)模型,文獻(xiàn)[18]從圖片的像素級(jí)別和特征級(jí)別分別執(zhí)行對(duì)抗與適應(yīng)學(xué)習(xí)以實(shí)現(xiàn)知識(shí)遷移,文獻(xiàn)[3]采用多個(gè)分類器實(shí)現(xiàn)對(duì)抗學(xué)習(xí),實(shí)現(xiàn)兩域數(shù)據(jù)在條件分布上對(duì)齊。最后一類基于重構(gòu)的方法主要是受到文獻(xiàn)[19]的啟發(fā),采用生成的方式,使得生成器學(xué)習(xí)并能輸出類源域樣本或類目標(biāo)域樣本,達(dá)到風(fēng)格遷移[20]或是數(shù)據(jù)分布平衡[21]的作用,學(xué)習(xí)域間不變特征,減小域間差異,從而實(shí)現(xiàn)知識(shí)遷移。
噪聲場(chǎng)景下的研究由于模糊的特征及錯(cuò)誤的標(biāo)簽信息會(huì)嚴(yán)重影響深度神經(jīng)網(wǎng)絡(luò)的泛化性能。先前處理噪聲的方法主要是通過(guò)設(shè)計(jì)魯棒的損失函數(shù)[22-25],或是在學(xué)習(xí)過(guò)程中過(guò)濾掉噪聲樣本[26-30]以解決噪聲。當(dāng)在域適應(yīng)學(xué)習(xí)中引入噪聲設(shè)定時(shí),學(xué)習(xí)問(wèn)題會(huì)變得更加復(fù)雜,因?yàn)槟繕?biāo)域樣本偽標(biāo)簽的不可靠性不僅會(huì)由于域偏移引起,還會(huì)由于源域噪聲引起。為了減小噪聲樣本的影響,目前對(duì)于噪聲域適應(yīng)問(wèn)題的學(xué)習(xí)策略主要分為兩類。一類策略是遵循Small Loss 準(zhǔn)則將分類器篩選出的低置信樣本標(biāo)記為標(biāo)簽噪聲樣本然后剔除掉,僅收集干凈的源域樣本進(jìn)行域適應(yīng)。例如:文獻(xiàn)[10]提出一種可遷移的課程學(xué)習(xí)方式,以增強(qiáng)干凈源域樣本的正遷移,從而減輕噪聲帶來(lái)的負(fù)遷移影響;文獻(xiàn)[11]選擇保留了特征損壞的數(shù)據(jù)并在對(duì)抗網(wǎng)絡(luò)中使用代理分布改進(jìn)課程學(xué)習(xí)方式。另一類策略是使用多個(gè)分類器的聯(lián)合學(xué)習(xí)策略過(guò)濾掉帶有噪聲標(biāo)簽的源域樣本。例如:文獻(xiàn)[13]根據(jù)兩個(gè)同等網(wǎng)絡(luò)輸出的不一致性進(jìn)行互樣本選擇,挑選出可靠的源域樣本進(jìn)行之后的域適應(yīng)學(xué)習(xí);文獻(xiàn)[12]研究了目標(biāo)域包含未知類的通用型域適應(yīng)學(xué)習(xí),并優(yōu)化了兩個(gè)分類器之間的差異以檢測(cè)噪聲源樣本;文獻(xiàn)[31]針對(duì)噪聲源域無(wú)關(guān)域適應(yīng)問(wèn)題,利用預(yù)生成標(biāo)簽和自監(jiān)督學(xué)習(xí)中[32]自生成標(biāo)簽之間的關(guān)系對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。但以上方法都是丟棄掉檢測(cè)出的噪聲樣本,僅使用干凈樣本進(jìn)行訓(xùn)練,并且都忽視了特征層面噪聲對(duì)網(wǎng)絡(luò)帶來(lái)的負(fù)遷移影響。
不同于以往方法,本文關(guān)注到不同噪聲種類對(duì)域遷移的不同影響,實(shí)現(xiàn)了噪聲樣本的精確分類、矯正與回收。此外,本文還使用了隨機(jī)分類器的思想,減少了學(xué)習(xí)過(guò)程中雙分類器趨同對(duì)最終訓(xùn)練結(jié)果的影響。
本文針對(duì)Noisy UDA 提出基于多分類器差異的噪聲矯正域適應(yīng)學(xué)習(xí)模型NCDA,其整體框架如圖1所示。
Fig.1 Overall framework of NCDA圖1 NCDA整體框架
為方便描述,首先給出本文所用到的符號(hào)定義。有噪聲標(biāo)簽源域數(shù)據(jù)和無(wú)標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)分別表示為。其中,s和t分別表示源域和目標(biāo)域,Ns和Nt則表示源域和目標(biāo)域的樣本個(gè)數(shù),K表示源域標(biāo)簽的種類數(shù)量。源域和目標(biāo)域雖相關(guān),但它們?nèi)匀挥杏蜷g差異即兩域的數(shù)據(jù)分布不同,即Ps(x) ≠Pt(x)。
為解決Noisy UDA 的問(wèn)題,需要訓(xùn)練目標(biāo)網(wǎng)絡(luò)使其能在源域樣本標(biāo)簽帶噪聲的有監(jiān)督學(xué)習(xí)下正確分類出源域樣本,再進(jìn)一步對(duì)齊源域和目標(biāo)域的數(shù)據(jù)分布從而完成域遷移。本文所提出的NCDA 方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,整體網(wǎng)絡(luò)主要由一個(gè)特征生成器G和兩個(gè)分類器F1、F2組成。這兩個(gè)分類器在小批量級(jí)別用相同的數(shù)據(jù)進(jìn)行訓(xùn)練,但它們是用不同的參數(shù)隨機(jī)初始化。帶噪源域和目標(biāo)域樣本x依次進(jìn)入特征生成器G和分類器F1、F2中,生成K維向量p1(y|x)和p2(y|x),它們分別表示兩個(gè)分類器對(duì)樣本K種標(biāo)簽的預(yù)測(cè)概率結(jié)果。最終,以分類器對(duì)樣本預(yù)測(cè)向量的最大概率輸出pk(y|x)作為其偽標(biāo)簽:
Fig.2 Network structure of NCDA圖2 NCDA的網(wǎng)絡(luò)結(jié)構(gòu)
由于不同分類器的學(xué)習(xí)差異,對(duì)不同的帶噪樣本會(huì)生成不同的分類決策邊界。由此,本文關(guān)注到不同分類器之間的分類差異,它們對(duì)干凈無(wú)噪聲的源域樣本會(huì)有與給定標(biāo)簽一致的分類結(jié)果,而對(duì)帶有特征噪聲或是標(biāo)簽噪聲的樣本分類結(jié)果通常是不一致的,精確的分類方式將在下文具體介紹。因此,根據(jù)兩個(gè)分類器的分類結(jié)果是否一致,可以檢測(cè)出帶有噪聲的源域樣本,之后根據(jù)其噪聲類型作不同方式的矯正。針對(duì)特征噪聲,采用mixup[34]的方式矯正靠近最鄰近的聚類中心;針對(duì)標(biāo)簽噪聲,則將標(biāo)簽矯正改為最鄰近的類中心標(biāo)簽,以此回收樣本利用于下一步的域適應(yīng)流程。除目前流行的過(guò)濾噪聲樣本的小損失準(zhǔn)則外,還選擇了對(duì)多分類器預(yù)測(cè)差異較小的樣本以更新每個(gè)小批量中的網(wǎng)絡(luò)。與文獻(xiàn)[3]相似,之后進(jìn)一步最小化了正確標(biāo)記的源樣本的差異,從而最大化了兩個(gè)分類器的一致性,以獲得更好的結(jié)果。最后為優(yōu)化網(wǎng)絡(luò),本文采用隨機(jī)分類器的思想,將分類器的參數(shù)當(dāng)作一個(gè)分布進(jìn)行更新,避免網(wǎng)絡(luò)中的兩個(gè)分類器趨同,增強(qiáng)了魯棒性。
為了盡可能減少噪聲對(duì)域遷移過(guò)程帶來(lái)的負(fù)面影響,NCDA 使用檢測(cè)噪聲并矯正的方式,具體流程主要包括3個(gè)步驟,如圖2 所示。在本文實(shí)驗(yàn)中,這3 個(gè)步驟在小批量的訓(xùn)練水平下重復(fù)進(jìn)行。
Step A-1:在有標(biāo)記的噪聲源域樣本監(jiān)督下進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練。由于在訓(xùn)練初始階段小損失樣本大多標(biāo)簽正確[26,33],為了減少錯(cuò)誤噪聲標(biāo)簽對(duì)預(yù)訓(xùn)練的影響,本文在此階段僅使用小損失實(shí)例訓(xùn)練特征提取器和分類器。訓(xùn)練過(guò)程使用常見(jiàn)的交叉熵?fù)p失,其定義如下:
Step A-2:噪聲精確分類準(zhǔn)則。由于特征噪聲是在特征層面改變了樣本點(diǎn)的分布,使其遠(yuǎn)離了類中心,靠近類間決策邊界,因此多分類器通常會(huì)對(duì)特征噪聲樣本有不一致的預(yù)測(cè)結(jié)果。而標(biāo)簽噪聲只是錯(cuò)誤標(biāo)記了樣本,并沒(méi)有改變其特征分布,故在某一類聚集處出現(xiàn)的個(gè)別另一類樣本通常就是標(biāo)簽噪聲樣本,多分類器對(duì)這類樣本有一致但不同于樣本原標(biāo)簽的分類結(jié)果。最后,多分類器對(duì)于干凈樣本會(huì)有一致且與原標(biāo)簽相同的預(yù)測(cè)結(jié)果。至此,根據(jù)原標(biāo)簽與兩個(gè)分類器預(yù)測(cè)結(jié)果的關(guān)系可將源域數(shù)據(jù)集分為3類:
其中,DCL、DFN、DLN分別表示源域根據(jù)上述精確分類準(zhǔn)則劃分出的3 個(gè)子集,即干凈源域子集、特征噪聲源域子集、標(biāo)簽噪聲源域子集。
Step A-3:針對(duì)不同的噪聲類別,NCDA 根據(jù)其特性采取了不同的聚類矯正方式。首先,根據(jù)干凈源域子集DCL樣本標(biāo)簽將其劃分K個(gè)類簇(k=1,...,K),每個(gè)類簇的類中心向量ck可計(jì)算如下:
對(duì)于噪聲樣本,計(jì)算其與各個(gè)類中心的最小歐式距離,以確定其最近鄰類中心ck*:
面對(duì)特征噪聲子集DFN,采用mixup 矯正方式在特征層面將樣本往其最近鄰類中心拉近。矯正后的特征計(jì)算如下:
其中,λ為擾動(dòng)權(quán)重,在實(shí)踐過(guò)程中,根據(jù)當(dāng)前模型的學(xué)習(xí)進(jìn)度對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整,最終將λ逐漸減小至0。由此,在訓(xùn)練初期,大部分特征噪聲被弱化從而獲得更好的域?qū)R效果,而隨著訓(xùn)練的進(jìn)行,當(dāng)模型趨于穩(wěn)定時(shí),適當(dāng)?shù)奶卣髟肼暱梢宰鳛閿_動(dòng)提高模型魯棒性。而針對(duì)標(biāo)簽噪聲子集DLN,其錯(cuò)誤標(biāo)簽會(huì)被修正為最近鄰類中心所屬類別k*。矯正完成之后,所有樣本將再次投入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,在每輪訓(xùn)練中,最近鄰類中心ck*都由式(5)重新計(jì)算更新。
Step B:需對(duì)齊源域和目標(biāo)域的分布以實(shí)現(xiàn)域適應(yīng),分為B、C 兩部分。首先固定特征生成器G,訓(xùn)練F1和F2兩個(gè)分類器以最大化對(duì)目標(biāo)域樣本預(yù)測(cè)的差異,如圖2 中的Step B 所示。同時(shí),還需要最小化源域的有監(jiān)督學(xué)習(xí)損失以保證分類器決策的可靠,可使源域類邊界最大程度清晰。訓(xùn)練目標(biāo)如下:
其中,本文利用兩個(gè)分類器的概率輸出之間的L1距離作為差異損失(Discrepancy Loss):
Step C:固定分類器F1和F2以訓(xùn)練特征生成器G,這一步驟對(duì)應(yīng)圖2 中的Step C。在固定分類器的情況下,更新特征生成器以最小化兩個(gè)分類器對(duì)目標(biāo)域樣本預(yù)測(cè)的差異,以此實(shí)現(xiàn)源域和目標(biāo)域分布的對(duì)齊。訓(xùn)練目標(biāo)如下:
在本文方法中,以上A、B、C 3 個(gè)步驟交替進(jìn)行,B、C兩部分實(shí)則也是形成了特征生成器和分類器之間的對(duì)抗學(xué)習(xí)以實(shí)現(xiàn)域適應(yīng)。為獲得更好的域?qū)R效果,以上步驟會(huì)在小批量數(shù)據(jù)集下重復(fù)n次,在本文實(shí)驗(yàn)中設(shè)定n=4。
在NCDA 的模型中使用兩個(gè)分類器對(duì)目標(biāo)域樣本預(yù)測(cè)結(jié)果的差異進(jìn)行損失計(jì)算,雖然這種方式在目前Noisy UDA 問(wèn)題的各種基準(zhǔn)上可產(chǎn)生相對(duì)更好的識(shí)別性能,但有幾個(gè)基本問(wèn)題常被忽略,即:多分類器差異這種模型設(shè)計(jì)中的最佳分類器個(gè)數(shù)是幾個(gè)?為什么目前的方法大多使用兩個(gè)分類器而非更多?直覺(jué)上,使用更多的分類器可以多角度識(shí)別更全面的特征分布[35],但直接在網(wǎng)絡(luò)中添加更多個(gè)分類器的方式不僅會(huì)導(dǎo)致更多的網(wǎng)絡(luò)參數(shù)、更高的計(jì)算復(fù)雜度,還會(huì)顯著增加模型的參數(shù)量,導(dǎo)致模型過(guò)擬合的風(fēng)險(xiǎn)。因此,為優(yōu)化多分類器,并且規(guī)避以上問(wèn)題,本文采用了隨機(jī)分類器[14]的思想,用兩個(gè)分類器模擬近似無(wú)限個(gè)分類器集成到本文目前網(wǎng)絡(luò)中。所要做的實(shí)則是改變分類器參數(shù)的優(yōu)化方式,不再以傳統(tǒng)方法中的具體單個(gè)變量表示參數(shù),而是學(xué)習(xí)一個(gè)分布,兩個(gè)分類器的參數(shù)是從學(xué)得的分布中采樣表示。這種采樣方式可以使兩個(gè)分類器在不增加網(wǎng)絡(luò)參數(shù)的前提下,盡可能多樣地得模擬多個(gè)參數(shù)組合,即多個(gè)分類器以學(xué)習(xí)模型。
在NCDA 網(wǎng)絡(luò)中的分類器是用高斯分布建模N(μ,σ),之后在訓(xùn)練中優(yōu)化這個(gè)分布。本文將分類器權(quán)重向量視為隨機(jī)變量,分布的平均值μ用作最終分類器的權(quán)重,而方差σ表示不同分類器的差異程度。在每次訓(xùn)練迭代中,從當(dāng)前分布中隨機(jī)抽樣兩個(gè)不同的新分類器,最終模擬大量分類器在整個(gè)訓(xùn)練過(guò)程中進(jìn)行多次迭代。即分類器F1和F2可優(yōu)化為從分布N(μ,σ)中采樣的兩個(gè)獨(dú)立樣本點(diǎn),再通過(guò)重參數(shù)化技巧[36],公式可簡(jiǎn)化如下:
其中,θ1和θ2是從標(biāo)準(zhǔn)高斯中提取的兩個(gè)獨(dú)立樣本,⊙表示元素乘積,α是σ的對(duì)角線。
因此,NCDA 網(wǎng)絡(luò)可以用比以前多得多的分類器進(jìn)行訓(xùn)練。這樣的方式可以在訓(xùn)練Step A 步驟中避免兩個(gè)分類器在訓(xùn)練中逐漸趨同,而導(dǎo)致對(duì)于噪聲樣本預(yù)測(cè)一致,無(wú)法進(jìn)行精確分類的情況。還可以在訓(xùn)練Step B、Step C步驟中多樣化分類器的決策邊界,提升了網(wǎng)絡(luò)模型的精確性和魯棒性。
本文所提出的NCDA 方法在3 個(gè)數(shù)據(jù)集上展現(xiàn)了其有效性,分別是:Office-31、Office-Home 和Bing-Caltech。Office-31 是包含31 類的4 652 張圖片的標(biāo)準(zhǔn)域適應(yīng)數(shù)據(jù)集,有Amazon(A)、Webcam(W)和DSLR(D)3 個(gè)域。Office-Home 是包含65 個(gè)類別、15 599 張圖片的標(biāo)準(zhǔn)域適應(yīng)數(shù)據(jù)集,由Artistic(Ar)、Clipart(Cl)、Product(Pr)和Real-World(Rw)這4 個(gè)較大域差異的域組成。為了引入噪聲,本文按照文獻(xiàn)[11]中的規(guī)則引入了3 種噪聲,即:標(biāo)簽噪聲、特征噪聲以及這兩種的混合噪聲。標(biāo)簽噪聲主要根據(jù)噪聲率將圖片的標(biāo)簽隨機(jī)更改為其他類,特征噪聲則是依據(jù)概率將圖片進(jìn)行高斯模糊或椒鹽噪聲損壞,混合噪聲是將噪聲率的50%即標(biāo)簽噪聲,50%即特征噪聲結(jié)合起來(lái)。Bing-Caltech 是一個(gè)由Bing 和Caltech-256 兩個(gè)域組成的真實(shí)噪聲數(shù)據(jù)集,它包含豐富的標(biāo)簽噪聲與特征噪聲。本文將Bing 作為噪聲源域,將Caltech-256 作為干凈的目標(biāo)域。在所有實(shí)驗(yàn)中,依次應(yīng)用模型從一個(gè)域遷移到另一個(gè)域。
將本文方法NCDA 與最先進(jìn)的噪聲處理方法和標(biāo)準(zhǔn)無(wú)監(jiān)督域適應(yīng)方法進(jìn)行比較,包括ResNet-50[37]、Self-Paced Learning(SPL)[38]、MentorNet[28]、Deep Adaptation Network(DAN)[4]、Residual Transfer Network(RTN)[39]、Domain Adversarial Neural Network(DANN)[6]、Margin Disparity Discrepancy based algorithm(MDD)[40]、Transferable Curriculum Learning(TCL)[10]、Robust Domain Adaptation(RDA)[11]。其中,SPL 和MentorNet 是噪聲標(biāo)簽處理方法,為了更好地體現(xiàn)NCDA 方法中每一步處理的具體作TCL 和RDA 是噪聲領(lǐng)域自適應(yīng)方法,其他為標(biāo)準(zhǔn)領(lǐng)域自適應(yīng)方法。
本文網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)參考先前噪聲域適應(yīng)方法[11]的標(biāo)準(zhǔn)實(shí)驗(yàn)設(shè)置,使用帶噪有標(biāo)記的源域樣本和未標(biāo)記的目標(biāo)域樣本進(jìn)行訓(xùn)練時(shí),遵循UDA[6]中的標(biāo)準(zhǔn),所有對(duì)比方法在Pytorch 深度框架中復(fù)現(xiàn)。為公平比較,所有方法設(shè)置相同超參數(shù)、預(yù)處理和特征提取網(wǎng)絡(luò)。對(duì)于圖像識(shí)別任務(wù),將所有圖像縮放至256×256。本文使用ImageNet[41]上預(yù)訓(xùn)練的ResNet-50 作為特征提取器,并在分類層之前使用完全連接的瓶頸層。在預(yù)訓(xùn)練階段將每輪樣本數(shù)設(shè)置為30,小損失閾值γ通常由先前文獻(xiàn)[10-11]中的噪聲經(jīng)驗(yàn)或先驗(yàn)知識(shí)確定。并且,固定分離比p=0.08,將γ設(shè)置為大多數(shù)任務(wù)中第(N×p)個(gè)實(shí)例的損失。按照文獻(xiàn)[37]中的標(biāo)準(zhǔn)方案,本文初始學(xué)習(xí)率設(shè)置為2e-3,在網(wǎng)絡(luò)訓(xùn)練迭代周期90輪中的每30輪中將學(xué)習(xí)率衰減0.1。
表1、表2 展示了本文方法在Office-31、Office-Home和Bing-Caltech 上的性能對(duì)比??梢园l(fā)現(xiàn):①在Office-31上,NCDA 的效果比其他噪聲域適應(yīng)處理方法在混合噪聲任務(wù)上更勝一籌,平均比RDA 方法高出1.4%,比TCL 方法高出6.3%;②在Office-Home 上,NCDA 方法在Ar→Cl、Pr2→Cl、Pr→Ar、Rw→Cl 這4 個(gè)困難的域遷移任務(wù)上都取得了明顯提升,這也促使NCDA 方法在總體上優(yōu)于其他方法,說(shuō)明NCDA 在遷移時(shí)更具可遷移性和魯棒性;③在Bing-Caltech 上,NCDA 方法大幅度優(yōu)于目前最先進(jìn)的深度域適應(yīng)方法DAN、DANN 等,因?yàn)檫@些方法的源域受到噪聲影響導(dǎo)致遷移泛化性能不佳,同時(shí)也優(yōu)于TCL、RDA 這類噪聲域適應(yīng)方法,展示了本文精確分類檢測(cè)噪聲、矯正噪聲的優(yōu)勢(shì);④NCDA 在預(yù)測(cè)精度上展示了比現(xiàn)有大多數(shù)標(biāo)準(zhǔn)無(wú)監(jiān)督域適應(yīng)方法和噪聲域適應(yīng)處理方法更好、更穩(wěn)定的效果,這體現(xiàn)了NCDA 方法的優(yōu)越性,也表示了本文對(duì)源域樣本噪聲的有效的精確分類檢測(cè)和矯正,提升模型的預(yù)測(cè)準(zhǔn)確性的同時(shí)也保證了其魯棒性。用,本文在Office-31 數(shù)據(jù)集引入40%的混合噪聲,消融實(shí)驗(yàn)結(jié)果如表3 所示??梢钥闯?,放棄特征噪聲與標(biāo)簽噪聲的矯正均會(huì)導(dǎo)致性能下降。因此,在學(xué)習(xí)過(guò)程中處理標(biāo)簽噪聲和特征噪聲是合理的。此外,相比傳統(tǒng)雙分類器方法,使用隨機(jī)分類器思想對(duì)于UDA 的多分類器方法的優(yōu)化也是有效的。
Table 1 Target domain classification accuracy of Office-31 in a 40%mixed noise scenario表1 Office-31在40%混合噪聲場(chǎng)景下的目標(biāo)域分類準(zhǔn)確率(%)
Table 2 Target domain classification accuracy of Office-Home and Bing-Caltech in a 40% mixed noise scenario表2 Office-Home、Bing-Caltech在40%混合噪聲場(chǎng)景下的目標(biāo)域分類準(zhǔn)確率(%)
Table 3 Ablation study of NCDA表3 NCDA消融實(shí)驗(yàn)(%)
3.5.1 不同噪聲水平下的噪聲識(shí)別準(zhǔn)確率
為了展示本文提出的對(duì)源域樣本進(jìn)行精確分類檢測(cè)方式的有效性,在Office-31 數(shù)據(jù)集A→W 任務(wù)上做了不同噪聲水平下的噪聲識(shí)別實(shí)驗(yàn),如圖3 所示。從NCDA 方法檢測(cè)出的標(biāo)簽噪聲、特征噪聲的準(zhǔn)確度可以看出,經(jīng)過(guò)精確分類檢測(cè)出的兩種噪聲近八成是準(zhǔn)確的,這說(shuō)明了精確分類這一步的有效性,也為后續(xù)噪聲矯正這一步打下了基礎(chǔ)。
Fig.3 Accuracy of NCDA detecting noisy samples圖3 NCDA識(shí)別噪聲樣本的準(zhǔn)確率
3.5.2 不同噪聲水平下各方法的目標(biāo)域分類準(zhǔn)確率
圖4 展示了在不同噪聲比例下Office-31 數(shù)據(jù)集的A→W 任務(wù)上,不同混合噪聲比下各方法的性能。具體而言,噪聲水平從0.0 到1.6,其中0.0 表示無(wú)噪聲UDA 場(chǎng)景,1.6表示160%的混合噪聲,即80%的標(biāo)簽噪聲混合80%的特征噪聲。從圖4 可以看出,隨著噪聲水平的增加,所有方法的性能都會(huì)降低,尤其是DANN 和ResNet 這類沒(méi)作噪聲處理的方法。NCDA 的性能隨著噪聲水平的增加而更加穩(wěn)定,并且優(yōu)于其他方法。值得注意的是,當(dāng)噪聲水平為1.6時(shí),NCDA 的性能比其他方法要好得多。原因可能是NCDA 在學(xué)習(xí)中矯正和回收噪聲,從而可以充分利用數(shù)據(jù),尤其是在高噪聲的場(chǎng)景中。同時(shí),NCDA 在噪聲水平為0 時(shí)也實(shí)現(xiàn)了最佳性能,這證明本文方法也適用于標(biāo)準(zhǔn)UDA場(chǎng)景。
Fig.4 Accuracy of target domain detection圖4 目標(biāo)域識(shí)別準(zhǔn)確率
NCDA 方法及其主要對(duì)比方法在Pr→Rw 任務(wù)上40%混合噪聲情境下的可視化特征比較如圖5所示。
Fig.5 The t-SNE visualization feature comparison圖5 t-SNE可視化特征比較
圖5(a)-(d)展示了學(xué)習(xí)的目標(biāo)特征分布,不同顏色表示不同的類別(彩圖掃OSID 碼可見(jiàn))??梢钥闯?,DANN 學(xué)得的不同類別的特征混合在一起,其他方法雖能對(duì)目標(biāo)域數(shù)據(jù)有不錯(cuò)的分類效果,但是它們的類別邊界非常模糊,而NCDA 對(duì)比其他方法能夠更好地區(qū)分出類別邊界,且能實(shí)現(xiàn)一定程度上的類內(nèi)緊湊、類間分離的效果,因此可見(jiàn)NCDA 對(duì)噪聲的處理非常有效。
本文針對(duì)極具挑戰(zhàn)的噪聲域適應(yīng)學(xué)習(xí)提出了簡(jiǎn)明有效的NCDA 方法。除標(biāo)簽噪聲外,本文還關(guān)注到了特征噪聲,提出了精確分類噪聲并將其進(jìn)行矯正的方式,這樣回收樣本的方式在高噪聲環(huán)境下也能有效實(shí)現(xiàn)域遷移,且采用隨機(jī)分類器思想的優(yōu)化方式也能提升域適應(yīng)的效果。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的域適應(yīng)和噪聲處理技術(shù)相比,NCDA 方法實(shí)現(xiàn)了顯著的性能改進(jìn)。