葉勇健,朱榮釗
(1.廈門華天涉外職業(yè)技術(shù)學院 信息技術(shù)學院,福建 廈門 361102;2. 湖北大學 計算機與信息工程學院,湖北 武漢 430062)
隨著移動終端設(shè)備的快速發(fā)展,消費者對圖像的清晰度要求越來越高,圖像處理技術(shù)成為了各大品牌廠商競爭的核心。隨著信息技術(shù)的快速發(fā)展,在同等硬件基礎(chǔ)上,圖像語義分割的性能得到了很大程度的提升。然而,隨著硬件設(shè)備的更新?lián)Q代,圖像的像素密度更高,圖像的表現(xiàn)力也更加細膩,這對圖形語義分割算法的性能要求也越來越高。如在室外取景拍攝,受到氣候、光照等條件的影響,終端設(shè)備也需要對圖像進行精細化處理。采用傳統(tǒng)的圖像處理方式成本過高,同時也無法滿足終端設(shè)備用戶的使用愿望。遷移學習是機器學習的一種,能夠有效降低傳統(tǒng)機器學習的基礎(chǔ)成本。研究在遷移學習的基礎(chǔ)上提出了基于Deeplab空洞卷積的混合分割優(yōu)化算法,并將其應(yīng)用于具體的圖像分割中,期待對提升圖像分割的性能提供一定的參考。
遷移學習是在深度學習中需要多次訓練的深層神經(jīng)網(wǎng)絡(luò),訓練學習成本高。遷移學習的目的是在一個任務(wù)上學習一個模型,以此來解決相關(guān)的其他任務(wù),通過將結(jié)果知識遷移到類似場景,從而大大降低了機器學習的基礎(chǔ)成本[1-3]。隨著遷移學習理論的不斷成熟,其在醫(yī)療、行為預測、智能汽車等領(lǐng)域得到了廣泛的應(yīng)用。不妨定義源觀測數(shù)據(jù)樣本為{(Dsi,Tsi)|i=1,…,mS},目標觀測數(shù)據(jù)樣本為{(DTi,TTi)|i=1,…,mT},mS和mT分別為2個樣本集所包含的數(shù)量。fTj(j=1,…,mT)為目標領(lǐng)域?qū)W習的性能[4]。
生成對抗網(wǎng)絡(luò)由生成模型G和判別模型D所組成,生成對抗結(jié)構(gòu)原理如圖1所示。
圖1 生成對抗結(jié)構(gòu)原理
圖2 空洞卷積金字塔
由圖1可知,生成對抗網(wǎng)絡(luò)樣本數(shù)據(jù)集包括模擬樣本數(shù)據(jù)和真實樣本數(shù)據(jù)。模擬噪聲pz(Z)經(jīng)過生成器G產(chǎn)生模擬樣本G(z),Pdadt(x)為真實樣本數(shù)據(jù),Dx為識別器對真實數(shù)據(jù)的識別成功率[5]。由二元極大極小博弈理論可得
+Ez-p(z)[log(1-D(G(x)))]
(1)
語義分割是在像素級別上進行分類,其發(fā)展與Deeplab系列語義分割網(wǎng)絡(luò)密不可分。Deeplab是谷歌公司開源的圖像語義分割與邊緣提取算法,是在全卷積網(wǎng)絡(luò)FCN基礎(chǔ)上發(fā)展而來的,和FCN相比圖像像素的精細化程度大大提高。具體而言,其包括兩個方面的內(nèi)容[6]:
1)空洞卷積率越高,其能夠獲得的樣本數(shù)量輸入信息越大;
2)同等條件下,由于Deeplab網(wǎng)絡(luò)在圖像特征提取中采用了條件隨機場,這使得圖像分割精度大大提升。
為最大化抓取圖片上下文信息,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)采用連續(xù)池化操作和卷積操作。連續(xù)池化操作和卷積操作將導致圖像識別精度下降,進而造成數(shù)據(jù)層次上的語義分割性能下降[7-9]。
Deeplab網(wǎng)絡(luò)是將空洞卷積應(yīng)用到語義劃分中,采用孔卷積法進行語義劃分。該方法可以有效獲取圖像深層特征,不會影響圖像的識別精度??紤]到識別網(wǎng)絡(luò)不僅要區(qū)分目標區(qū)域的輸入圖片,同時還要確保圖像的分辨率,因此研究提出一種新的域鑒別網(wǎng)絡(luò)方法。
由于構(gòu)建傳統(tǒng)的識別網(wǎng)絡(luò)常常采用五階長度為二的卷積結(jié)構(gòu),因此會導致圖像特征提取的過程中所提取的特征在空間上的損失,進而影響圖像分割效果。為提升圖像分割效果,利用多個平行疊加的空洞卷積層來獲取更多背景信息。以Deeplab-v2作為分割網(wǎng)絡(luò)架構(gòu),采用識別網(wǎng)絡(luò)識別圖像源域,并利用分割網(wǎng)絡(luò)和識別網(wǎng)絡(luò)進行對抗性訓練,有效減少源域和目標區(qū)域之間的差異。
圖像邊緣提取算法以GAN作為基準網(wǎng)絡(luò),并在此基礎(chǔ)上利用DeepLab-v2架構(gòu)對ImageNet數(shù)據(jù)集進行預訓練。選擇ResNet-101網(wǎng)絡(luò),根據(jù)經(jīng)驗剔除末位分層。為縮小圖像特征圖,對卷積長度進行調(diào)整,特征圖為原始圖像的1/8。進行反卷積操作,確保輸出層與輸入層的特征尺寸相匹配。另外,在算法框架設(shè)計時設(shè)計了3個不相交的空洞卷積以降低訓練誤差。算法框架如圖3所示。
圖3 算法框架
2.2.1 空洞卷積
由于深度卷積神經(jīng)網(wǎng)絡(luò)進行連續(xù)卷積與池化操作,使得輸出圖像的分辨率降低進而影響到圖像語義劃分??斩淳矸e避免了連續(xù)卷積與池化操作,它被廣泛應(yīng)用于圖像邊緣提取中[10-11]。不妨設(shè)f為二維信號,g[i]為輸出信號,h[l]為卷積核,那么
(2)
式中:i為坐標信息,r為空洞卷積率。
空洞卷積率r影響感受野,圖4為不同r的感受野差異。
圖4 不同的感受野差異
由圖4可知,增加空洞卷積率能夠增強卷積核感受野的量級。設(shè)卷積核自身大小為k,那么卷積核尺寸o為
o=k+(k-1)(r-1)
(3)
由此可見,通過改變空洞卷積率r能夠在不增加運算復雜率的情況下增強了感受野。
2.2.2 空洞卷積識別器
采用空洞卷積來構(gòu)造識別器,所構(gòu)造的識別器第1級是二階的常規(guī)卷積,其輸出圖像的解析度降低到1/8。第4層次是空洞卷積率為1,3,6,步數(shù)為1的空穴卷積平行疊加,這一層次可以獲得更多的空間數(shù)據(jù),而不會影響到系統(tǒng)的輸入精度;與常規(guī) ASPP的層疊法相比[12]增加了運算,減少了網(wǎng)絡(luò)參數(shù),在生成網(wǎng)絡(luò)和最終輸出中能夠達到1/16的精度。圖5為識別器構(gòu)造流程,其詳細參數(shù)如表1所示。
圖5 識別器構(gòu)造流程
2.2.3 生成對抗學習模型
研究提出的圖像邊緣提取算法由識別器網(wǎng)絡(luò)D和分割網(wǎng)絡(luò)G構(gòu)成,將通過ImageNet進行預訓練的Deeplab-v2作為分割網(wǎng)絡(luò)。G損失函數(shù)為:
(4)
式中:h、w、c分別代表圖片的height、wide和分類數(shù)量,YShwc為源標簽。
定義生成對抗網(wǎng)絡(luò)損失函數(shù)為:
(5)
混合分割損失函數(shù)為:
L(IS,It)=Lseg(IS)+λadvLadv(It)
(6)
(6)式中:λadv是作用上述兩損失函數(shù)的比率。
定義混合分割訓練目標為:
(7)
那么識別網(wǎng)絡(luò)的損失函數(shù)為:
+zlog(D(P)hw1)
(8)
識別網(wǎng)絡(luò)目標為:
(9)
明確識別網(wǎng)絡(luò)目標的函數(shù)后,定義原始噪聲源為:
x=G(z)?z=G-1(x)?dz=(G-1)′(x)dx
(10)
將其代入式(9),化簡整理可得,
(11)
求目標函數(shù)關(guān)于D的最大值:
(12)
其最優(yōu)解表達式:
(13)
此時求解G的最優(yōu):
(14)
式中:KL代表擬合和真實分布的差異。
當KL=0時,差異消除,生成網(wǎng)絡(luò)的最小值為-log4,即當鑒別網(wǎng)絡(luò)達到最優(yōu)時,GAN無限接近-log4。同時通過不斷調(diào)整識別網(wǎng)絡(luò)參數(shù)使得識別網(wǎng)絡(luò)損失函數(shù)達到無窮小,從而達成準確判斷的目標。
實驗使用的電腦GPU為P40,具體軟硬件配置如表2所示。
表2 算法運行環(huán)境
實驗選擇Adam為優(yōu)化器,最初學習率設(shè)置為3.5e-5,數(shù)據(jù)集為GTA5和SYNTHIA,其中GTA5用于模型訓練,SYNTHIA用于模型測試。GTA5>Cityscapes和SYNTHIA>Cityscapes作為重點驗證對象。Cityscapes圖片公開數(shù)據(jù)集主要是針對城市場景中的街道,圖片來源于不同國家、不同城市取景,其中像素級別較高的圖片有5 000多張。訓練數(shù)量均為10個,λadv設(shè)定成0.01。
像素精度和平均交并比(mIoU)是圖像分割性能評價的重要指標,像素精度的評價函數(shù)為:
(15)
式中:pij為預測像素符合標簽的像素點。
在不同分類圖像的語義分割評價中,可以使用平均像素精度來進行對比,其公式為:
(16)
3.3.1 mIoU對比
選取原圖、AdapSegNet[4]和DCAN[13],以及所提算法進行對比,表3為數(shù)據(jù)集GTA5的域適應(yīng)效果。AdaptSegNet和 DCAN中的試驗結(jié)果采用所提出的算法進行驗證,圖6為模型在GTA5中被訓練的結(jié)果。表4顯示從SYNTHIA>Cityscapes的域適應(yīng)結(jié)果,為了公平比較,與其他文獻相符合,只選取9種試驗結(jié)果在表格中列出。
表3 算法性能mIoU對比(GTA5)
表4 算法性能mIoU對比(SYNTHIA)
圖6 可視化效果對比
研究給出了一種新的基于空洞卷積識別的混合語義分割遷移算法,該算法利用空洞卷積來實現(xiàn)多層次背景信息,并在保證像素分辨率的前提下獲得多層次的信息,從而提高了混合分割網(wǎng)絡(luò)和識別網(wǎng)絡(luò)的收斂性。通過對GTA5和 SYNTHIA 2種合成數(shù)據(jù)集的驗證試驗,證明了所提出算法的有效性。GTA5的平均交并率(mIoU)為44.1%,而SYNTHIA(mIoU)則為44.9%。
3.3.2 像素精確度對比
選取原始的Deeplab v2和v3算法作為對比目標,使用單尺度評價辦法,同時對比像素精確度和平均交并比,實驗結(jié)果如表5所示。
表5 對比結(jié)果
由表5可知,本文算法相較于基準的v2框架像素精確度提高了5%左右,比v3提高了0.9%左右,同時平均交并比也大于2個基準算法,即圖像分割精度得到了顯著提升。
針對傳統(tǒng)圖像邊緣提取存在的缺陷,研究提出了基于空洞卷積的區(qū)域識別算法。在域識別器中加入空洞卷積以增強域識別系統(tǒng)的識別性能,實現(xiàn)了在沒有附加學習條件下對卷積感知范圍擴展的目的。將提出的算法應(yīng)用于GTA5和SYNTHIA數(shù)據(jù)集,結(jié)果表明所提出的空洞卷積區(qū)域識別技術(shù)與Deeplab網(wǎng)絡(luò)聯(lián)合的混合分割算法對圖像邊緣提取的性能顯著提升。