鄭宗生,胡晨雨*,姜曉軼
(1.上海海洋大學(xué)信息學(xué)院,上海 201306;2.國(guó)家海洋信息中心,天津 300171)
(?通信作者電子郵箱1105814265@qq.com)
遷移學(xué)習(xí)作為一種新的機(jī)器學(xué)習(xí)框架,放寬了訓(xùn)練和測(cè)試數(shù)據(jù)必須服從同概率分布的前提條件,旨在將源環(huán)境中學(xué)到的知識(shí)運(yùn)用到相關(guān)環(huán)境,以輔助新任務(wù)的完成,在一定程度上提高了機(jī)器學(xué)習(xí)模型的泛化能力[1]。如今,遷移學(xué)習(xí)在計(jì)算機(jī)視覺、文本分類、自然語言處理等領(lǐng)域均有廣泛應(yīng)用[2-4]。目前國(guó)內(nèi)外學(xué)者對(duì)遷移學(xué)習(xí)算法的研究主要致力于:在半監(jiān)督遷移學(xué)習(xí)[5]中,最大限度地利用源域中有標(biāo)注樣本,解決目標(biāo)域中少量未標(biāo)注樣本的問題,以減少數(shù)據(jù)標(biāo)注成本。如Wang 等[6]提出基于知識(shí)遷移的算法,通過構(gòu)建兩個(gè)域中潛在的同構(gòu)特征空間來學(xué)習(xí)域不變模型。Khan等[7]通過計(jì)算兩域概率密度比值給源域樣本賦權(quán)重,篩選源域樣本輔助目標(biāo)域訓(xùn)練。大多數(shù)遷移學(xué)習(xí)算法均是建立在兩域樣本的特征空間和邊緣概率分布差異較小的前提下,當(dāng)源域和目標(biāo)域樣本間的域差異較大時(shí),如何利用遷移學(xué)習(xí)算法在小樣本目標(biāo)域上構(gòu)建出良好的模型成為研究的重點(diǎn)。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)在自動(dòng)分析和圖像特征識(shí)別方面不斷取得卓越成果[8-10],遷移學(xué)習(xí)廣泛地與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,基于參數(shù)的遷移學(xué)習(xí)算法通過共享模型結(jié)構(gòu)或先驗(yàn)參數(shù)以實(shí)現(xiàn)目標(biāo)任務(wù)。近期研究顯示,DCNN 通過處理樣本間變量的解釋性因素,并根據(jù)特征與不變因素的關(guān)聯(lián)程度將其逐層提取,從而能夠?qū)W習(xí)到更多可遷移的特征[11]。Yosinski 等[12]通過逐層分析AlexNet網(wǎng)絡(luò)的特征遷移能力,得出影響網(wǎng)絡(luò)遷移能力的兩個(gè)關(guān)鍵因素:1)卷積層間脆弱的互適應(yīng)性;2)高層全連接層中神經(jīng)元的特化性。針對(duì)全連接層的特化性,Long 等[13]提出深度適配網(wǎng)絡(luò)(Deep Adaptation Network,DAN),保留AlexNet卷積層間脆弱的互適應(yīng)性,對(duì)全連接層進(jìn)行逐層適配從而進(jìn)一步減小源域和目標(biāo)域樣本間的差異,提高網(wǎng)絡(luò)遷移能力。AlexNet 網(wǎng)絡(luò)中互適應(yīng)層數(shù)較少,模型遷移能力不受影響,然而深度卷積神經(jīng)網(wǎng)絡(luò)中的互適應(yīng)卷積層數(shù)較多,在兩域樣本差異[11]較大的情況下,保留層間的互適應(yīng)性,勢(shì)必會(huì)降低遷移模型在小樣本目標(biāo)域上的性能。
針對(duì)跨領(lǐng)域建模問題,域差異是基于參數(shù)遷移算法的主要障礙,領(lǐng)域適配[14]集中解決當(dāng)樣本取自不同但相關(guān)的域所存在的概率分布差異問題。最大均值差異(Maximum Mean Discrepancy,MMD)[15]作為一種度量概率分布差異的準(zhǔn)則,是基于特征的遷移算法常用的適配方法。它利用核學(xué)習(xí)方法將樣本投射到高維的再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中,通過對(duì)樣本嵌入到RKHS 中分布的無偏估計(jì),度量?jī)捎驑颖驹赗KHS 中的分布距離,顯式地減少兩域的邊緣概率分布,使其在RKHS 中的分布更加相似。如Pan 等[16]提出了最大均值差異嵌入(Maximum Mean Discrepancy Embedding,MMDE)的核學(xué)習(xí)方法,在最小化MMD 距離的同時(shí)最大化核嵌入方差,通過核主成分分析(Kernel Principal Component Analysis,KPCA)得到數(shù)據(jù)的領(lǐng)域不變嵌入特征。Long 等[17]提出基于聯(lián)合MMD 的適配正則化框架,重點(diǎn)解決條件分布概率的適配問題,并通過RKHS 中的表出定理給出模型的凸優(yōu)化解。在DAN 中,Long等[17]將多核MMD作為多層適配的指標(biāo),通過顯式地減小兩域在全連接層間的分布差異,增強(qiáng)特征遷移能力。傳統(tǒng)MMD算法對(duì)樣本計(jì)算核嵌入無偏估計(jì)的時(shí)間復(fù)雜度為O(n2),然而深度卷積網(wǎng)絡(luò)中參數(shù)眾多、當(dāng)源域和目標(biāo)域樣本在數(shù)量級(jí)和維度上較龐大時(shí),傳統(tǒng)MMD算法消耗較多計(jì)算時(shí)間,占用大量存儲(chǔ)空間,造成資源浪費(fèi)。
臺(tái)風(fēng)是一種破壞力極強(qiáng)的災(zāi)害性天氣,對(duì)臺(tái)風(fēng)的強(qiáng)度等級(jí)預(yù)測(cè)一直是國(guó)內(nèi)外研究的熱點(diǎn)。傳統(tǒng)的數(shù)據(jù)預(yù)報(bào)模型、Dvorak分析法計(jì)算過程復(fù)雜且需要大量專業(yè)知識(shí),主觀性強(qiáng),增加了分析誤差。對(duì)于復(fù)雜的氣象云圖,淺層卷積網(wǎng)絡(luò)特征提取不充分,分類效果不佳。深層卷積網(wǎng)絡(luò)開發(fā)難度大,在臺(tái)風(fēng)云圖數(shù)據(jù)樣本小的情況下,過擬合現(xiàn)象嚴(yán)重。針對(duì)上述問題,鄭宗生等[18]引入了遷移學(xué)習(xí)思想,通過遷移模型參數(shù)微調(diào)再訓(xùn)練的方法,構(gòu)建了適用于臺(tái)風(fēng)小樣本數(shù)據(jù)集的遷移預(yù)報(bào)模型T-typCNNs。以T-typCNNs 模型為基礎(chǔ),本文提出一種基于模型和特征遷移算法相結(jié)合的多層卷積適配(Multi-Convolution Adaptation,MCA)深度遷移框架。該框架利用L-MMD 度量算法對(duì)T-typCNNs 中存在的大量互適應(yīng)卷積層(即微調(diào)自適應(yīng)層)進(jìn)行逐層領(lǐng)域適配,減小兩域樣本的分布差異和網(wǎng)絡(luò)層間脆弱的互適應(yīng)性對(duì)T-typCNNs 模型遷移能力的影響。此外,對(duì)于臺(tái)風(fēng)和ImageNet 樣本在RKHS 中的核平均嵌入方式,L-MMD 算法采用線性的無偏估計(jì),在樣本數(shù)量較多、網(wǎng)絡(luò)層數(shù)較深的情況下,降低計(jì)算的時(shí)間復(fù)雜度。實(shí)驗(yàn)證明,對(duì)于監(jiān)督遷移學(xué)習(xí),MCA 深度遷移框架中基于L-MMD正則項(xiàng)的CE-MMD 損失函數(shù)在T-typCNNs 模型上的收斂速度更快,L-MMD算法較其他度量算法的分類精度更高。
T-typCNNs 模型[18]是在ResNet50 網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建的臺(tái)風(fēng)預(yù)報(bào)遷移模型。該模型遷移了ResNet50 整體卷積層結(jié)構(gòu),并根據(jù)適配出的最佳遷移層數(shù),凍結(jié)前110 層所對(duì)應(yīng)的權(quán)重參數(shù),剩余層參數(shù)在臺(tái)風(fēng)數(shù)據(jù)集上作自適應(yīng)微調(diào),最后自定義一個(gè)全連接層和Softmax分類層。
在T-typCNNs 模型基礎(chǔ)上,本文提出的MCA 深度遷移框架對(duì)自適應(yīng)卷積層參數(shù)的更新規(guī)則增加了約束,具體結(jié)構(gòu)如圖1所示。圖1中:C1~Cm是T-typCNNs中凍結(jié)的部分卷積層,Cm+1~Clast是剩余的網(wǎng)絡(luò)自適應(yīng)層。將源域樣本(ImageNet 子數(shù)據(jù)集)和目標(biāo)域樣本分別輸入到ResNet50 網(wǎng)絡(luò)(凍結(jié)整體網(wǎng)絡(luò)層參數(shù)不更新)和T-typCNNs 模型中,分別提取第Cm+1~Clast層的特征圖表示,并將兩域在每個(gè)自適應(yīng)卷積層間的最大均值差異作為參數(shù)更新的規(guī)則,構(gòu)建出基于T-typCNNs模型的MCA深度遷移框架。
圖1 MCA深度遷移框架Fig.1 Deep transfer framework of MCA
T-typCNNs 在利用殘差δ 進(jìn)行反向傳播時(shí),對(duì)自適應(yīng)層參數(shù)進(jìn)行微調(diào),使得損失值在迭代中不斷減小,直至模型趨于收斂。T-typCNNs模型的損失函數(shù)定義為:
其中:L(·)是交叉熵函數(shù);nt是目標(biāo)域樣本數(shù)是網(wǎng)絡(luò)整體參數(shù)是樣本的原始輸入是樣本對(duì)應(yīng)的標(biāo)簽;θ(·)代表T-typCNNs 模型,對(duì)于網(wǎng)絡(luò)中的自適應(yīng)卷積層,每層l 通過卷積操作和激活函數(shù)學(xué)習(xí)一組非線性映射其中分別是第l 層的權(quán)重和偏置,是樣本在第l 層的特征圖表示。在反向傳播過程中,交叉熵函數(shù)僅利用標(biāo)簽維度的殘差δ 對(duì)網(wǎng)絡(luò)層參數(shù)進(jìn)行更新,使得模型收斂速度慢且分類精度不高。
在領(lǐng)域適配學(xué)習(xí)中,源域Ds樣本定義為{x1,x2,…,xns}并服從分布p,ns是源域樣本數(shù)。目標(biāo)域Dt中樣本定義為{y1,y2,…,ynt}并服從分布q,nt是目標(biāo)域樣本數(shù)。函數(shù)φ:χ →Hk將樣本映射到高維RKHS,其中χ是樣本的特征空間。不同域在RKHS 中的分布情況——核平均嵌入(kernel mean embedding)可以有效匹配。對(duì)于核平均嵌入的無偏估計(jì),通過計(jì)算樣本映射到RKHS 中的期望值得到,其中φ(xi)是樣本xi通過高維函數(shù)映射到RKHS 的表示形式。
最大均值差異(MMD)旨在通過高維映射函數(shù)找到兩個(gè)域樣本在RHKS中期望差值的上確界。即:
RKHS 是一個(gè)完備的高維內(nèi)積空間,φ(xi)和φ(yi)的點(diǎn)積運(yùn)算可以用核函數(shù)k(xi,yi)計(jì)算,一般選擇徑向基函數(shù)(Radial Basic Function,RBF)中表示無窮維的高斯核:
其中:σ是高斯核的帶寬。式(1)可以寫成:
從式(3)可以看出,當(dāng)p=q 時(shí),顯然MMD2(p,q)=0;當(dāng)p ≠q時(shí),尋找使得MMD2(p,q)最小化的映射函數(shù)k(·),使得兩域樣本在RKHS 中的概率分布在φ(·)表示下更為相似,減少在RKHS 中的分布差異。兩域樣本在數(shù)量和維度上都很龐大,對(duì)樣本嵌入到RKHS 進(jìn)行無偏估計(jì)時(shí),傳統(tǒng)MMD 算法的時(shí)間復(fù)雜度為O(n2),會(huì)消耗較多計(jì)算時(shí)間,占用大量存儲(chǔ)空間,造成資源浪費(fèi)。
針對(duì)上述問題,在Long 等[17]提出的DAN 中,對(duì)樣本嵌入到RKHS 中的無偏估計(jì)進(jìn)行改進(jìn)。定義一個(gè)四元組該四元組分別包括兩個(gè)源域樣本和目標(biāo)域樣本,四元組上計(jì)算出的MMD為:
以zi為單位,兩域總體樣本間的MMD定義為:
從式(5)可以看出,DAN 中計(jì)算核平均嵌入的時(shí)間復(fù)雜度為O(n),在保證領(lǐng)域間樣本充分適配的同時(shí),減輕了計(jì)算負(fù)擔(dān);在不影響模型性能的前提下,縮短了訓(xùn)練時(shí)間。然而,DAN 中的線性嵌入法是基于源域和目標(biāo)域數(shù)據(jù)擁有相同的特征空間、細(xì)微的概率分布差異、樣本數(shù)量級(jí)相當(dāng)?shù)那疤嵯?,然而?dāng)域差異(domain discrepancy)較大時(shí),此改進(jìn)的核平均嵌入算法無法充分適配兩域樣本和顯式地減小域分布差異。
T-typCNNs凍結(jié)了部分卷積層,即在誤差反向傳播過程中此部分參數(shù)不更新,僅需要考慮自適應(yīng)微調(diào)的卷積層參數(shù)變化。源域樣本和目標(biāo)域樣本在第l 卷積層的特征圖表示為卷積得到的特征圖依舊服從原始輸入的概率分布。為了方便敘述,以每個(gè)mini-batch 為單位,分別表示源域和目標(biāo)域中一個(gè)batchsize的樣本數(shù)量,即且ns?nt。分別表示源域和目標(biāo)域樣本在第l卷積層的特征圖表示,即代表網(wǎng)絡(luò)中自適應(yīng)層的第一個(gè)卷積層,Clast代表最后一個(gè)自適應(yīng)卷積層,即T-typCNNs的瓶頸層。
T-typCNNs 在誤差反向傳播過程中以batchsize 為單位更新權(quán)重參數(shù),樣本的第i 個(gè)batchsize 在第l 卷積層中呈元組形式:
L-MMD 算法利用核函數(shù)將樣本嵌入到RKHS 空間,并對(duì)樣本分布進(jìn)行無偏估計(jì),將時(shí)間復(fù)雜度降低到O(n)。源域和目標(biāo)域總樣本MMD在第l卷積層的無偏估計(jì)可以表示為:
定義2針對(duì)2.2.1節(jié)中傳統(tǒng)交叉熵函數(shù)存在的不足,提出一種新的損失函數(shù)CE-MMD,即在反向傳播過程中添加L-MMD正則項(xiàng),將殘差δ和兩個(gè)域樣本間的分布差異共同作為更新網(wǎng)絡(luò)參數(shù)的指標(biāo),在迭代訓(xùn)練中CE-MMD 損失值不斷減小的同時(shí)模型趨于收斂。改進(jìn)后的CE-MMD損失函數(shù)定義為:
其中λ是懲罰因子。
根據(jù)最大均值差異嵌入(Maximum Mean Discrepancy Embedding,MMDE)[19],可以將改進(jìn)后的簡(jiǎn)化成:
其中Kss、Ktt和Kst(Kts)分別是源域、目標(biāo)域和跨域的核矩陣。核矩陣KσL 是維度為(ns+nt)×(ns+nt)的半正定矩陣。
由于L-MMD核嵌入算法的時(shí)間復(fù)雜度為O(n),導(dǎo)致核矩陣K 中出現(xiàn)大量的0,稀疏性降低了計(jì)算的復(fù)雜度,但同時(shí)容易出現(xiàn)奇異矩陣,使得K的逆矩陣無法計(jì)算,最終導(dǎo)致誤差反向傳播的過程中網(wǎng)絡(luò)參數(shù)無法更新。為了減少此現(xiàn)象發(fā)生,將K 加上一個(gè)同樣維度的單位矩陣I,最終核矩陣調(diào)整為K=
證明 下面推導(dǎo)CE-MMD損失函數(shù)在反向傳播中更新參數(shù)的過程,以一個(gè)mini-batch 在T-typCNNs 中的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)為例:
其中:f 是T-typCNNs 的激活函數(shù)ReLU,fl(x)=max(0,x),所以當(dāng)
本文實(shí)驗(yàn)環(huán)境為Windows 10 操作系統(tǒng),CPU intel Xeon X5650 2.67 GHz,內(nèi)存為16 GB,實(shí)驗(yàn)基于Tensorflow 的Keras框架。實(shí)驗(yàn)主要包括3個(gè)部分:
1)為證明所提出的MCA 深度遷移框架對(duì)臺(tái)風(fēng)等級(jí)分類的實(shí)用性,將基于MCA 框架的T-typCNNs 模型性能與原始T-typCNNs模型作對(duì)比;
2)對(duì)CE-MMD 損失函數(shù)中的參數(shù)(懲罰因子λ 和單位矩陣系數(shù)α)取值作探討,分析參數(shù)靈敏度對(duì)模型性能的影響;
3)為證明L-MMD 算法的可行性,將L-MMD 算法與應(yīng)用廣泛的度量算法Bregman 差異[20]和KL(Kullback-Leibler)散度[21]作對(duì)比。
本文所構(gòu)建的目標(biāo)域樣本由日本國(guó)立情報(bào)學(xué)研究所(National Institute of Informatics,NII)提 供,取 自“GMS-5”“GOES-9”“MTSAT-1R/-2”和“Himawari-8”多個(gè)氣象衛(wèi)星在西北太平洋上空拍攝的10 000多景高分辨率臺(tái)風(fēng)云圖。依照國(guó)際臺(tái)風(fēng)分類標(biāo)準(zhǔn),根據(jù)臺(tái)風(fēng)中心風(fēng)速將紅外云圖分為5 類:熱帶低壓、熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴、臺(tái)風(fēng)和強(qiáng)臺(tái)風(fēng),如表1所示。
表1 臺(tái)風(fēng)等級(jí)標(biāo)準(zhǔn) 單位:m·s-1Tab.1 Typhoon grade standards unit:m·s-1
臺(tái)風(fēng)云圖數(shù)據(jù)集采用5 類標(biāo)簽標(biāo)記,每類圖像2 500 張,總樣本12 500 張。其中10 000 張為訓(xùn)練集,占20%;2 500 張為測(cè)試集,部分云圖樣本如圖2所示。由于T-typCNNs模型輸入為224×224 分辨率的三通道圖像,本文首先對(duì)氣象云圖重采樣,然后將單通道灰度圖像擴(kuò)增成RGB 三通道。為減少兩域樣本數(shù)量及內(nèi)容的差異引發(fā)的過擬合問題,對(duì)圖像進(jìn)行增強(qiáng)和歸一化處理,通過隨機(jī)旋轉(zhuǎn)、縮放、偏移和翻轉(zhuǎn)等進(jìn)行數(shù)據(jù)擴(kuò)增。
圖2 臺(tái)風(fēng)數(shù)據(jù)集部分樣本Fig.2 Samples of typhoon datasets
Yosinski 等[12]依據(jù)類別標(biāo)簽的語義信息,將ImageNet 數(shù)據(jù)集中1 000 個(gè)類別的100 多萬張彩色圖像平均劃分成兩個(gè)子數(shù)據(jù)集,即449 類的自然圖片(ImageNet-449)和551 類的人造圖片(ImageNet-551)。由于MCA 深度遷移框架以TtypCNNs 模型為基礎(chǔ),該模型遷移的ResNet50 網(wǎng)絡(luò)是在ImageNet 數(shù)據(jù)集上建立的,所以本文在ImageNet-449 和ImageNet-551 子數(shù)據(jù)集中每類隨機(jī)抽取50 張圖片,最終分別構(gòu)建了22 450和27 550個(gè)源域樣本。
實(shí)驗(yàn)將臺(tái)風(fēng)數(shù)據(jù)集的批數(shù)量batchsize 設(shè)置為64,源域數(shù)據(jù)集ImageNet-499 和ImageNet-551 的批數(shù)量batchsize 分別 設(shè)置為143 和176,以確保兩域樣本的遍歷次數(shù)相同。采用隨機(jī)梯度下降法,微調(diào)自適應(yīng)卷積層的超參數(shù)設(shè)置:學(xué)習(xí)率為1E -4,學(xué)習(xí)動(dòng)量為0.9。CE-MMD 函數(shù)中帶寬參數(shù)σ 采取中值規(guī)則、懲罰因子λ=1.5、單位矩陣I 的系數(shù)α=1。將基于MCA 深度遷移框架的模型與T-typCNNs 對(duì)比,在臺(tái)風(fēng)數(shù)據(jù)集上迭代200次后的測(cè)試精度如圖3所示。
圖3 MCA深度遷移模型與T-typCNNs測(cè)試精度對(duì)比Fig.3 Test accuracy comparison of MCA deep transfer model and T-typCNNs
從圖3 可以看出,基于MCA 深度遷移框架的模型在源域ImageNet-449 或ImageNet-551 上分別在迭代32 次和41 次后均趨于穩(wěn)定,測(cè)試精度達(dá)到93.68%和92.73%,比T-typCNNs模型平均提高了2.55 個(gè)百分點(diǎn),且收斂速度更快。分析原因,T-typCNNs 模型在凍結(jié)前110 層后,剩余卷積層參數(shù)利用殘差在臺(tái)風(fēng)數(shù)據(jù)集上作自適應(yīng)調(diào)整。然而該模型遷移的是ResNet50 整體網(wǎng)絡(luò)結(jié)構(gòu),剩余卷積層間存在脆弱的互適應(yīng)性影響了遷移效果。針對(duì)此問題,MCA 深度遷移框架中CEMMD 損失函數(shù)在殘差反向傳播的過程中,添加了L-MMD 正則項(xiàng),在減少兩域分布差異的同時(shí)提高了T-typCNNs 模型在臺(tái)風(fēng)數(shù)據(jù)集上的適配程度。表2將基于MCA深度遷移框架分別與T-typCNNs、文獻(xiàn)[18]中自建的淺層卷積神經(jīng)網(wǎng)絡(luò)CNN_8、InceptionV3、VGG16 模型在凍結(jié)最佳遷移層參數(shù)后的訓(xùn)練和測(cè)試精度進(jìn)行對(duì)比。
表2 MCA深度遷移網(wǎng)絡(luò)模型和其他模型的性能對(duì)比單位:%Tab.2 Model performance comparison of MCA deep transfer network models and other models unit:%
4.2.1 參數(shù)靈敏度分析
CE-MMD 損失函數(shù)中存在兩個(gè)參數(shù),分別是懲罰因子λ和單位矩陣系數(shù)α。實(shí)驗(yàn)將研究λ 和α 的取值對(duì)模型性能的影響。以ImageNet-449 源域樣本為例,圖4(a)刻畫了當(dāng)λ ∈{0.5,0.7,1,1.3,1.5,1.7,2,2.5,3}對(duì)模型分類精度的影響;圖4(b)展示了當(dāng)α ∈{0.5,1,1.5,2,2.5}時(shí),模型的準(zhǔn)確率變化,其余各訓(xùn)練參數(shù)不變。
由圖4(a)可見,CE-MMD 函數(shù)對(duì)懲罰因子λ 靈敏度較高,當(dāng)λ=1.5 時(shí),模型取得最佳分類精度93.22%,λ 過小或者過大,精度均有所下降,波動(dòng)振幅在3.1 個(gè)百分點(diǎn)。由于懲罰因子決定了兩域的融合程度,如果λ 太小,L-MMD 正則項(xiàng)沒有約束作用,導(dǎo)致適配效果不佳;如果λ 太大,兩域的樣本點(diǎn)在RKHS 中的距離太近,使得模型學(xué)習(xí)到了退化的特征表示[20],一定程度上影響模型性能。從圖4(b)可以看出,當(dāng)λ 取固定值后,單位矩陣系數(shù)α對(duì)模型精度的靈敏度不高,波動(dòng)振幅在0.1個(gè)百分點(diǎn)。
圖4 參數(shù)λ和α的靈敏度分析Fig.4 Sensitivity analysis of parameters λand α
4.2.2 L-MMD度量算法及對(duì)比實(shí)驗(yàn)
為了驗(yàn)證L-MMD 算法的可行性,將其他應(yīng)用廣泛的度量算法Breman 差異、KL 散度作為交叉熵?fù)p失函數(shù)的添加正則項(xiàng),與CE-MMD函數(shù)進(jìn)行對(duì)比,其他訓(xùn)練參數(shù)不變。
由圖5 可見,模型使用L-MMD 作為正則項(xiàng)的CE-MMD 損失函數(shù),在訓(xùn)練時(shí)收斂速度最快且獲得最小損失值0.047,而Bregman 差異和KL 散度作為度量算法時(shí)訓(xùn)練出的模型性能均不佳。對(duì)照表3,使用L-MMD 算法的模型訓(xùn)練精度高達(dá)93.22%,訓(xùn)練精度均比其余算法提高大約11.76 個(gè)百分點(diǎn)和8.05個(gè)百分點(diǎn)。分析原因,雖然Bregman 差異和KL 散度都是經(jīng)典的度量方法,但計(jì)算的是一種信息損失/增益,不適用于在線學(xué)習(xí)模型。在一個(gè)批數(shù)量batchsize中的樣本數(shù)量有限的前提下,利用Bregman 差異和KL 散度度量并不準(zhǔn)確。L-MMD算法適用于處理服從某種概率分布下的數(shù)據(jù)分布差異,能直觀地反映樣本總體的分布信息和全局結(jié)構(gòu)信息,計(jì)算簡(jiǎn)單有效。在獲得更高模型精度的同時(shí),L-MMD 算法單次迭代的訓(xùn)練時(shí)間比傳統(tǒng)MMD 算法節(jié)省約89 s,充分證明了該算法的可行性。
圖5 不同度量算法的模型損失值對(duì)比Fig.5 Comparison of model loss values of different measurement algorithms
表3 不同度量算法模型的性能對(duì)比Tab.3 Performance comparison of different measurement algorithms
本文提出了一種MCA 深度遷移框架,遷移DCNN 整體網(wǎng)絡(luò)結(jié)構(gòu)并凍結(jié)部分卷積層參數(shù)不更新,剩余自適應(yīng)層參數(shù)依據(jù)源域和目標(biāo)域樣本的分布差異進(jìn)行多層領(lǐng)域適配,緩解了卷積層間脆弱的互適應(yīng)性對(duì)模型遷移性能的影響,并成功提高了氣象領(lǐng)域小樣本臺(tái)風(fēng)數(shù)據(jù)等級(jí)分類模型的性能。對(duì)于MCA深度遷移框架,有以下兩點(diǎn)總結(jié):
1)基于L-MMD 算法的CE-MMD 損失函數(shù):L-MMD 算法是度量概率分布差異的準(zhǔn)則,CE-MMD 函數(shù)將L-MMD 算法作為正則項(xiàng)添加到交叉熵?fù)p失函數(shù)中,在殘差反向傳播的過程中使得模型收斂速度更快,精度更高。與傳統(tǒng)的MMD算法時(shí)間復(fù)雜度O(n2)相比,L-MMD 將時(shí)間復(fù)雜度減小到了O(n)?;贛CA深度遷移框架的T-typCNNs臺(tái)風(fēng)等級(jí)分類模型的訓(xùn)練精度可達(dá)97.36%,測(cè)試精度可達(dá)93.22%,同比原始T-typCNNs 模型的精度提高了2.27 個(gè)百分點(diǎn)和2.08 個(gè)百分點(diǎn),比凍結(jié)最佳遷移層數(shù)后的InceptionV3和VGG16模型的測(cè)試精度高出5.83個(gè)百分點(diǎn)和10.51個(gè)百分點(diǎn)。
2)為了驗(yàn)證MCA 深度遷移框架的可行性,對(duì)CE-MMD 損失函數(shù)中的兩個(gè)參數(shù):懲罰因子λ 和單位矩陣系數(shù)α 作了靈敏度分析,并將L-MMD 算法其他度量算法Bregman 差異、KL散度、傳統(tǒng)MMD 算法作對(duì)比。實(shí)驗(yàn)表明,MCA 框架中的CEMMD函數(shù)收斂最快,且模型準(zhǔn)確率比Bregman差異和KL散度高出11.76 個(gè)百分點(diǎn)和8.05 個(gè)百分點(diǎn)。L-MMD 算法在模型單次迭代的訓(xùn)練時(shí)間比傳統(tǒng)MMD算法節(jié)省89 s。
在MCA 深度遷移框架中,CE-MMD 損失函數(shù)中的懲罰因子在本文中設(shè)置為固定值,如何依據(jù)L-MMD 正則項(xiàng)計(jì)算出的兩域分布差異,對(duì)每一層懲罰因子λ 的取值做自適應(yīng)調(diào)整是下一步研究的重點(diǎn)。