曹露濛,楊周旺
(中國科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,安徽 合肥230026)
語義分割是計算機視覺中一項具有挑戰(zhàn)性的任務(wù),在自動駕駛、機器人、衛(wèi)星、農(nóng)業(yè)、醫(yī)療診斷等領(lǐng)域有著廣泛的應(yīng)用。它是一項稠密分類任務(wù),旨在對圖像進行像素點級別的分類。由于卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,許多語義分割神經(jīng)網(wǎng)絡(luò)應(yīng)運而生。例如,F(xiàn)CN[1]使用卷積層來代替完全連接層,使得神經(jīng)網(wǎng)絡(luò)能夠適應(yīng)任何輸入大小。Deeplab[2],PSPNet[3]采用空間金字塔池化來提取不同尺度的特征,然后合并特征來獲取不同尺度的上下文信息。長期以來,研究者們致力于特征復(fù)用方法和注意機制來設(shè)計分割網(wǎng)絡(luò)[4-6]。使用殘差和密集的跳躍連接來聚合和復(fù)用不同層的特征,使得語義分割更加準確,并使梯度更容易反向傳播。注意力模型[7-9]和非局部模型[10-11]彌補了卷積核的局部局限性,可以捕獲長程依賴。最近的研究顯示了像素分組的重要性[12-15]。Zhong Zilong等人[12]提出語義分割可以分為兩個子任務(wù):顯式像素預(yù)測和隱式像素分組。Yu Changqian等人[13]使用標簽對類別內(nèi)和類別間的先驗知識進行建模,以指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)。KE T W等人[14]提出了一種自適應(yīng)親和場(Adaptive Affinity Field,AAF)來捕獲和匹配標簽空間中相鄰像素之間的語義關(guān)系。Jiang Peng等人[15]提出了一種擴散分支,它由一個用于得分圖的種子子分支和一個用于像素級相似性的子分支組成。條件隨機場(Conditional Random Fields,CRFs)[16-18,2]方法用于語義分割,利用上下文信息優(yōu)化網(wǎng)絡(luò)輸出,這是一種統(tǒng)計方法,用于對相似像素進行分組,并通過能量函數(shù)優(yōu)化得分圖(score map)。以前的許多CRFs都是對網(wǎng)絡(luò)輸出的后處理。VEMULAPALLI R等人[17]和CHANDRA S等人[18]在CNN中引入了高斯條件隨機場,并取得了很好的效果。
語義分割網(wǎng)絡(luò)中的先進模塊,如注意機制、非局部模型、親和力傳播機制等,需要很高的計算開銷[7,11,19]。這主要是因為親和矩陣太大了。在許多實際應(yīng)用中,本文需要一個輕快的網(wǎng)絡(luò)來處理GPU限制和實時性要求等需求。除了設(shè)計輕巧高效的網(wǎng)絡(luò)[20-22],探索在不增加額外計算負擔(dān)的情況下改進原始語義分割網(wǎng)絡(luò)的方法也是非常有意義的。本文注意到,在像素分組方法中,建立成對關(guān)系模型非常重要。受先前利用位置和特征向量進行二元計算工作[11,15-16]的啟發(fā),本文設(shè)計了新的標簽親和力矩陣[13-14],并將其與分數(shù)圖(Softmax之前的特征圖)連接起來,作為相似性的懲罰。與以往的工作[13-14]不同,本文以回歸的方式建立了一個非局部親和性監(jiān)督模型。本文還設(shè)計了一個平方根核用于親和性計算,使得回歸懲罰具有良好的數(shù)學(xué)解釋性。此外,本文采用空間金字塔池模塊來聚合不同尺度的信息,同時減少計算負擔(dān)。本文的主要貢獻可以概括為三個方面:
(1)本文提出了一種新的輔助損失函數(shù),它提供了語義分割任務(wù)中交叉熵損失無法提供的二元形式監(jiān)督。
(2)本文以回歸的方式建立二元成對損失函數(shù),幫助解決基于分類的問題,并且這在數(shù)學(xué)上可解釋。
(3)本文的模型沒有增加網(wǎng)絡(luò)模型的推斷計算開銷,只增加了少量的訓(xùn)練計算開銷,并且對GPU內(nèi)存需求不高。
交叉熵損失是分類任務(wù)中廣泛使用的一元損失函數(shù)。語義分割任務(wù)主要使用的損失函數(shù)是基本的CE損失,此外還有一些補充。OHEM算法增加了錯誤分類樣本的權(quán)重。Focal loss[23]降低了易于分類的樣本的權(quán)重,使模型更加關(guān)注難以分類的樣本。IOU損失和Teversky損失提供了粗粒度上的監(jiān)督。Dice loss的作用是對背景和前景信息進行區(qū)別。
語義分割中的一個像素點位置的交叉熵損失為:
其中yi∈{0,1},且yi只在一個維度上等于1,其他維度均為0,構(gòu)成一元形式的監(jiān)督。
條件隨機場(CRFs)在一元形式的監(jiān)督基礎(chǔ)上加入了二元形式的監(jiān)督信息。通過引入能量函數(shù)(energy function)將i,j位置的成對關(guān)系引入懲罰函數(shù),典型的CRFs懲罰可以寫作:
其中θi是一元勢函數(shù),輸入是神經(jīng)網(wǎng)絡(luò)的得分圖Score Map,θi,j是二元勢函數(shù),計算的是i,j位置像素點的相似性。目標是使得整體能量函數(shù)下降,迫使像素點相似的位置預(yù)測結(jié)果相同。
非局部(Non-local)模型[10-11]和許多注意力(attention)模型[7-9]也集中于利用(xi,xj)的二元計算,其中(xi,xj)是特征層的矢量。在這些模塊中,經(jīng)常使用對親和矩陣的行向量進行SoftMax變換歸一化,產(chǎn)生特征融合權(quán)值,以便在空間和通道方面捕獲長程關(guān)系。因此,親和矩陣在成對建模中占有核心地位。要建立成對關(guān)系的模型,假定xi,xj是i,j位置的特征向量,定義相似性核函數(shù)s(xi,xj),可以有點積的形式L1距離的形式|xi-xj|,指數(shù)函數(shù)的形式等。本 文 采 用 平 方 根 點 積 形 式是經(jīng)過Softmax歸一化之后的特征向量,既可以保留概率信息,還可以保證親和力矩陣的計算有界,從而保證整個模塊是李普希茲(Lipschitz)連續(xù)的。
He Kaiming等人[25]將空間金字塔池化成功地應(yīng)用到目標檢測任務(wù)中,CHEN L C等人[2]使用不同采樣權(quán)重的擴張卷積作為池化層的替代,并設(shè)計了一個空洞空間金字塔池層(Atrous Spatial Pyramid Pooling layer,ASPP)來處理多個尺度。PSPNet[3]在特定層之后進行空間金字塔池化,將不同尺度的上下文特征嵌入到網(wǎng)絡(luò)中。Xu Mengde等人[11]修改了空間金字塔池化模型以適應(yīng)非局部模型,用于減少計算負擔(dān)。本文遵循多尺度池化策略來構(gòu)建非局部的關(guān)聯(lián)模式。
語義分割的標簽是一個具有離散值的單通道圖像,每個值表示一個類。生成標簽親和力矩陣的操作類似于許多視覺任務(wù)中的自注意操作:給定尺寸為1×W×H的標簽圖片,將標簽平展到一維,得到1×WH向量L,然后得到尺寸為WH×WH的親和力矩陣M,滿足以下要求:
M矩陣非常大,例如,如果標簽圖片的大小是100×100,那么L的長度是1×10 000,M的大小是10 000×10 000。此外,M在具有許多獨特標簽的場景中是稀疏的。很難對一個大的稀疏矩陣進行建模。本文采用PSP模塊,使用對稱PSP模塊使計算可行。本文使用最近鄰插值將標簽向下采樣為12×12、6×6的大小,然后將標簽展平并將它們連接在一起,得到一個1×180大小的L。圖1可視化展示了該矩陣。
圖1 標簽親和力矩陣(黑色表示0白色表示1)
一個典型的全局親和力矩陣是這樣計算的:給定一個輸入特征:X滿足X∈RC×H×W。其中C、W、H分別表示特征通道數(shù)量,特征長度和特征寬度。然后經(jīng)過三個不同的1×1大小的卷積層,WφWθWγ三個卷積將X映射為三個不同的嵌入特征:φ∈θ=Wθ(X),γ=Wγ(X),表示新的輸出特征 通道 數(shù)。將輸出得到的三個不同特征進行降維展平,得到維度為的特征,其中L=H×W。可以計算得到親和力矩陣A:
接下來就是一些常規(guī)的歸一化運算,例如Softmax運算,在行向量方向進行歸一化,得到了調(diào)整之后的親和力矩陣。通常self-attention中的attention運算為:
在語義分割任務(wù)的最終輸出層中,利用非局部親和矩陣進行了研究。為了有相同的映射,本文修改了經(jīng)典的親和力矩陣,將?、θ、γ設(shè)為恒等映射,本文就可以保留類別的通道信息,用以代表預(yù)測的概率。首先,進行Softmax變換,使信道信息成為概率。然后本文在嵌入特征上進行平方根運算。最后,本文計算了親和矩陣A,用以表示每個空間坐標點之間的相似性。
為了降低非局部親和力模型的計算復(fù)雜度,之前的許多工作[8,11]采取的技巧是減少親和矩陣A的維數(shù),實驗結(jié)果證明,這樣做不僅能減少計算量,降低內(nèi)存需求,還能顯著提高性能。本文遵循了前面的工作[11],并采用了兩種尺寸的下采樣操作。假設(shè)得分圖的大小為(C,W,H)。本文將分數(shù)映射的樣本降到(C,12,12)和(C,6,6),然后將它們平展到(C,144)、(C,36),并將兩個嵌入特征拼接起來,以獲得(C,180)嵌入特征。標簽操作與特征向下采樣位置對齊。然后本文計算親和力矩陣,得到(180,180)大小的親和力矩陣:
本文通過均方誤差損失將親和力矩陣與標簽親和矩陣進行關(guān)聯(lián)。親和力回歸損失為(Affinity Regression loss,AR loss):
整體下降函數(shù)由分類下降損失函數(shù)Cross-Entropy和親和力回歸損失函數(shù)Affinity Regression組成:
參數(shù)λ設(shè)置為0.1。
在經(jīng)典的注意力模塊中,親和力矩陣通常是這樣計算的:
而在本文的實驗設(shè)置中,?=X,θ=X,而X是神經(jīng)網(wǎng)絡(luò)的得分圖(Score Map),并且經(jīng)過了下采樣拼接和通道維度的Softmax歸一化。
假定pi表示XT的第i行向量,pj表示XT的第j行向量,那么:
由柯西不等式(Cauchy inequality)可以推出:
柯西不等式成立的條件是:
其中λ為實數(shù)。這要求pi、pj是一樣的,即λ=1,并且pi、pj分布越相同,A?越趨近于1。 反之pi、pj分布越不相同,越遠離1,趨近于0。
另一方面,從排序不等式來看:
其中pi(k)、pj(k)是將非負實數(shù)序列按照從小到大順序排序后得到的第k項。
由排序不等式性質(zhì)可以得知:當(dāng)pik、pjk順序一致的時候即pik=pi(k),pjk=pj(k)時最大,當(dāng)pik、pjk順序相反的時候最小,即:pik=pi(k),pjk=pj(c-k+1)。
在語義分割網(wǎng)絡(luò)的輸出中,每個空間點的通道向量中數(shù)值最大的(argmax)通道作為預(yù)測類別輸出。那么回歸1意味著的大小順序要盡可能一致,特別地,pi、pj數(shù)值最大的維度要一致,即位置i、j預(yù)測的是同一種類別。反之,回歸0,這會增大數(shù)值較大的維度乘在一起的懲罰,導(dǎo)致中數(shù)值大的維度盡可能與數(shù)值小的維度乘在一起,也就是說,i、j預(yù)測的是不同類別。不等式的等號是可以取到的。
由上述分析可以知道,建立的回歸下降損失函數(shù)可以起到一種全局性的結(jié)構(gòu)監(jiān)督作用,它是基于成對建模的函數(shù),提供二元形式的監(jiān)督信息,彌補了單一的交叉熵損失Cross-Entropy無法進行成對運算的缺陷。
本文的模型結(jié)合了二元懲罰的優(yōu)點,可以看作是一個輔助損失函數(shù),可以與分割網(wǎng)絡(luò)同時訓(xùn)練。沒有額外的參數(shù)被添加到網(wǎng)絡(luò)中,意味著在網(wǎng)絡(luò)推斷過程中沒有增加新的計算開銷。而且訓(xùn)練時額外引入的計算量特別小,計算復(fù)雜度為O(C×L2),C為通道數(shù)量或者標簽種類,L是親和力矩陣邊長,本文中L具體數(shù)值為180。
NYU Depth Dataset V2[26].NYUv2數(shù)據(jù)集是一個室內(nèi)場景數(shù)據(jù)集,包含1 449對對齊的RGB和深度圖像,包括795個訓(xùn)練圖像和654個驗證圖像。該數(shù)據(jù)集提供了40個類別的分類和13個類別的分類。本文在設(shè)置中使用40個類,并且本文沒有以任何方式直接或者間接使用深度信息。
語義分割的最主要評價指標就是mIOU,即計算真實值和預(yù)測值兩個集合的交集和并集之比。本文采用mIOU作為評價指標。
本文主要采用RefineNet[5]的輕量化版本Refine-NetLW[20]作為骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)在NYUv2數(shù)據(jù)集上表現(xiàn)良好,且能計算開銷小,運行速度快。本文采用了文獻[20]的實驗設(shè)置要求,只使用一塊GTX-1080Ti訓(xùn)練,并且沒有在驗證集上做任何增強處理。
本文對親和力回歸損失AR loss的用法是:先預(yù)訓(xùn)練網(wǎng)絡(luò)至一定的精度,再加入AR loss與CE loss一起進行訓(xùn)練直到收斂。
圖2展示了驗證集的mIOU隨著訓(xùn)練變化的曲線,可以看出加入AR loss之后,網(wǎng)絡(luò)的性能有了明顯的提升。
圖2 NYUv2訓(xùn)練曲線
之后本文對比AR loss和傳統(tǒng)的Dice loss的效果,如表1所示,Dice loss對網(wǎng)絡(luò)性能的改進不大,只有0.1%,而加入AR loss以后,網(wǎng)絡(luò)在驗證集上提升了接近0.9%,效果非常顯著。
表1 Dice loss vs AR loss(NYUv2驗證集)/%
而進一步進行實驗,采用不同的ResNet骨干網(wǎng)絡(luò)進行實驗,可以發(fā)現(xiàn),基于ResNet152的提升效果比基于ResNet50的效果明顯。
表2 替換不同殘差網(wǎng)絡(luò)的影響(NYUv2驗證集)/%
本文是基于成對建模的方法,計算了二元形式的懲罰函數(shù),對比之前的二元懲罰函數(shù)模型,有非常明顯的優(yōu)勢。如表3所示,本文的方法訓(xùn)練開銷更小,計算復(fù)雜度更低,且不增加推斷時的計算開銷。
表3 計算復(fù)雜性比較
N的大小為500左右,因此系數(shù)80,1/10差距顯著。CRFs方法是后處理方法,在神經(jīng)網(wǎng)絡(luò)運算之后還要再進行統(tǒng)計處理,訓(xùn)練和推斷都比較耗時。AAF[14]對每一個點計算3個核的親和力(3×3+5×5+7×7≈80)。本文與AAF[14]都只需參與訓(xùn)練,不參與推斷。
本文提出了一種新的使用標簽親和力矩陣作為二元形式監(jiān)督的范式,在處理語義分割這樣的分類問題上,引入回歸形式的監(jiān)督。能夠在提高語義分割網(wǎng)絡(luò)性能的同時,又不引入額外的參數(shù),可以有效地提高語義分割網(wǎng)絡(luò)的計算效率。在NYUv2數(shù)據(jù)集上的實驗驗證了該模型的有效性和高效性。