劉奕晨 章堅(jiān)武 胡晶
摘 要:針對(duì)使用注意力機(jī)制的語(yǔ)義分割模型計(jì)算資源消耗與精度不平衡的問(wèn)題,提出一種輕量化的語(yǔ)義分割注意力增強(qiáng)算法。首先,基于駕駛場(chǎng)景中物體的形狀特點(diǎn)設(shè)計(jì)了條狀分維注意力機(jī)制,使用條形池化代替?zhèn)鹘y(tǒng)方形卷積,并結(jié)合降維操作分維度提取長(zhǎng)程語(yǔ)義關(guān)聯(lián),削減模型計(jì)算量。接著融合通道域與空間域上的注意力,形成可疊加與拆解的輕量化多維注意力融合模塊,全方位提取特征信息,進(jìn)一步提升模型精度。最后,將模塊插入基于ResNet-101骨干網(wǎng)的編碼—解碼網(wǎng)絡(luò)中,指導(dǎo)高低層語(yǔ)義融合,矯正特征圖邊緣信息,補(bǔ)充預(yù)測(cè)細(xì)節(jié)。實(shí)驗(yàn)表明,該模塊有較強(qiáng)的魯棒性和泛化能力,與同類型注意力機(jī)制相比,削減了約90%的參數(shù)量以及80%的計(jì)算量,且分割精度依舊取得了穩(wěn)定的提升。
關(guān)鍵詞:語(yǔ)義分割;注意力機(jī)制;條狀特征提??;多維注意力融合
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-046-3180-06
doi:10.19734/j.issn.1001-3695.2023.01.0014
Driving scene segmentation enhancement algorithm based on multidimensional attention fusion
Liu Yichen1,Zhang Jianwu1,Hu Jing2
(1.School of Communication Engineering,Hangzhou Dianzi University,Hangzhou 310018,China;2.Zhejiang Uniview Technologies Co.,Ltd.,Hangzhou 310051,China)
Abstract:To address the problem of unbalanced computational resource consumption and accuracy of semantic segmentation models using attention mechanism,this paper proposed a lightweight attention enhancement algorithm for semantic segmentation.Firstly,it designed a striped dimensional attention mechanism based on the shape characteristics of objects in driving scenes,used striped pooling instead of traditional square convolution,and combined dimensionality reduction operations to extract long-range semantic associations in each dimension to cut down the model computation.Then it fused the attention on channel domain and spatial domain to form a lightweight multidimensional attention fusion module that could be superimposed and disassembled to extract feature information in all directions and further improve the model accuracy.Finally,it inserted the module into the ResNet-101 backbone based encoding-decoding network to guide the semantic fusion of high and low layers,correct the feature map edge information,and supplement the prediction details.The experiments show that the module has strong robustness and generalization ability,cutting about 90% of the number of parameters and 80% of the computation compared with the same type of attention mechanism,and the segmentation accuracy still achieves a stable improvement.
Key words:semantic segmentation;attention mechanism;strip feature extraction;multi-dimensional attention fusion
0 引言
語(yǔ)義圖像分割是計(jì)算機(jī)視覺中的一項(xiàng)基本任務(wù)。傳統(tǒng)分割主要是通過(guò)提取圖片的低級(jí)特征然后進(jìn)行分割,如閾值分割法[1,2]、邊緣檢測(cè)法[3,4]、區(qū)域分割法[5]等。這個(gè)階段一般是非監(jiān)督學(xué)習(xí),分割出來(lái)的結(jié)果缺少語(yǔ)義標(biāo)注。基于深度學(xué)習(xí)的圖像語(yǔ)義分割能根據(jù)標(biāo)簽進(jìn)行語(yǔ)義劃分,具有批量化處理和多分類的優(yōu)點(diǎn),在各領(lǐng)域均取得了廣泛的應(yīng)用,如生物醫(yī)學(xué)[6]、無(wú)人機(jī)航拍[7]、圖像編輯[8]等。駕駛場(chǎng)景圖像語(yǔ)義分割是以城市街景圖像為研究對(duì)象理解城市內(nèi)復(fù)雜的街景及交通狀況,由此分析和獲取路況信息。該技術(shù)對(duì)于實(shí)現(xiàn)自動(dòng)駕駛、機(jī)器人傳感和圖像處理等潛在的應(yīng)用領(lǐng)域具有重要意義。
全卷積網(wǎng)絡(luò)[9]基于現(xiàn)存的知名分類模型,將包括AlexNet、VGG-16、GoogLeNet、ResNet等模型進(jìn)行了改進(jìn),使其更加適應(yīng)像素分類的要求。但由于固定的卷積核以及池化大小,模型缺乏上下文信息的交互能力。采用空洞卷積[10,11]在標(biāo)準(zhǔn)卷積中間填充0或者輸入等間隔采樣,在降采樣的同時(shí)保持分辨率,可以增加感受野且降低計(jì)算量,可以起到檢測(cè)分割大目標(biāo)以及精確定位目標(biāo)的作用。填充0的數(shù)量影響感受野大小,即捕獲多尺度上下文信息。金字塔結(jié)構(gòu)[12,13]也可以聚合不同尺度的信息,匯聚圖像的全局線索。
引入軟注意力機(jī)制也是增強(qiáng)上下文關(guān)聯(lián),建立像素遠(yuǎn)程依賴的有效手段之一。自動(dòng)駕駛公司Momenta在2017年公布了一種全新的圖像識(shí)別結(jié)構(gòu)SENet[14],其中的SE模塊通過(guò)全局平均池化獲得全局感受野,強(qiáng)調(diào)了不同通道的權(quán)重,證明了通道注意力對(duì)結(jié)果提升的必要性。Wang等人[15]提出的ECANet延續(xù)了該理論并提出一種不降維的局部跨信道交互策略,顯著降低了模型的復(fù)雜度。除此之外,許多研究也注意到了空間注意力可以加強(qiáng)同幀圖像像素間、不同幀像素間的關(guān)聯(lián)性。如CBAM[16]通過(guò)平均池化與最大池化結(jié)合捕捉空間注意力。非局部神經(jīng)網(wǎng)絡(luò)中的非局部塊[17]合并了除通道外的所有維度,通過(guò)點(diǎn)乘操作建立當(dāng)前像素間與其他所有像素間的關(guān)系。DANet[18]在此基礎(chǔ)上融合了通道域與空間域的注意力,更好地做到了分割的精確性。文獻(xiàn)[19]提出的基于多級(jí)疊加和注意力機(jī)制的圖像語(yǔ)義分割方法中,也使用了由通道和空間組成的注意力機(jī)制模塊來(lái)抑制無(wú)意義的特征。但是以上方法計(jì)算了每個(gè)像素間的關(guān)聯(lián)矩陣,使得占用的內(nèi)存大大增加,在實(shí)際應(yīng)用中存在一定的局限性。
為了有效捕捉遠(yuǎn)距離上下文關(guān)系,并在提升精度的過(guò)程中簡(jiǎn)化注意力機(jī)制的計(jì)算操作,本文基于駕駛場(chǎng)景提出一種條狀分維度注意力機(jī)制(strip partitioned dimensional attention,SPDA)。為了適應(yīng)場(chǎng)景中道路、高層建筑、路燈、柵欄等條狀物的分割,本文中用長(zhǎng)條形池化核代替方形池化核,并在每個(gè)維度上將特征降維后單獨(dú)計(jì)算注意力,再進(jìn)行后續(xù)融合。首先,在每個(gè)通道的特征圖上,利用條狀池化在圖像高度和寬度上分別進(jìn)行了信息融合,再提取出該維度上的特征權(quán)重。在此基礎(chǔ)上,設(shè)計(jì)了結(jié)合通道域與空間域的多維注意力融合模塊(multi-attention fusion module,MAFM),將新的注意力機(jī)制應(yīng)用于高度和寬度并進(jìn)行融合,保證每個(gè)維度信息的完整性。為了證明該模塊的有效性,本研究以DeepLab v3+編碼—解碼結(jié)構(gòu)為基礎(chǔ),將ResNet101作為骨干網(wǎng),構(gòu)建了MAFM與網(wǎng)絡(luò)融合后的多維注意力網(wǎng)絡(luò)結(jié)構(gòu)(multidimensional attention network,MANet)。實(shí)驗(yàn)表明,加入MAFM后的網(wǎng)絡(luò)性能相比原網(wǎng)絡(luò)取得了有效的提升,是一種較為先進(jìn)的注意力提取方法。
本文的貢獻(xiàn)如下:a)提出一種基于條狀池化的注意力機(jī)制,能更好地適應(yīng)駕駛場(chǎng)景中的目標(biāo)物體;b)設(shè)計(jì)了結(jié)合通道域與空間域的多維注意力融合模塊,在僅增加很小參數(shù)量的情況下融合了通道域和空間域的注意力;模塊的輕量化設(shè)計(jì)允許該模塊能夠插入各種網(wǎng)絡(luò)結(jié)構(gòu)中;c)提出了基于DeepLab v3+編解碼器結(jié)構(gòu)的融合網(wǎng)絡(luò)MANet,取得了更高質(zhì)量的圖像分割預(yù)測(cè)結(jié)果。
1 相關(guān)工作
DeepLab v3+[20]采用新的編碼—解碼結(jié)構(gòu),修復(fù)尖銳物體邊界,彌補(bǔ)了DeepLab v3[21]分割目標(biāo)的邊界信息丟失嚴(yán)重的問(wèn)題。網(wǎng)絡(luò)分為編碼器和解碼器兩部分,如圖1所示。
DeepLab v3+編碼器沿用了DeepLab v3的結(jié)構(gòu),由骨干網(wǎng)絡(luò)和帶有空洞卷積的空間金字塔池化模塊(atrous spatial pyramid pooling,ASPP)組成。骨干網(wǎng)絡(luò)可以是任意的分類網(wǎng)絡(luò),研究者采用了改良的Xception網(wǎng)絡(luò),優(yōu)化了分割效果。
空間金字塔池化模塊結(jié)合了空洞卷積和金字塔池化結(jié)構(gòu),包含三個(gè)擴(kuò)張率分別為6、12、18的3×3的空洞卷積和一個(gè)1×1卷積。擴(kuò)張率和特征圖比例有關(guān),輸入圖像尺度和輸出特征圖尺度之比越大,空洞卷積的擴(kuò)張率越大。實(shí)驗(yàn)表明,該比例為8時(shí)分割效果最佳??傮w上,編碼器在增加了感受野的同時(shí)能夠進(jìn)一步捕捉多尺度信息,功能更加精細(xì)全面。解碼器中包含兩次雙線性插值操作。首先將低層特征和高層特征按照通道維度進(jìn)行拼接,其中低層特征通道數(shù)降維成48,高層通道數(shù)為256。再經(jīng)過(guò)兩次3×3卷積操作后恢復(fù)為原圖大小,得到像素級(jí)的預(yù)測(cè)。
和以往的工作不同,本文重點(diǎn)研究在基礎(chǔ)網(wǎng)絡(luò)架構(gòu)上設(shè)計(jì)一種全新的注意力機(jī)制,并在此基礎(chǔ)上提出一種輕量級(jí)注意力模塊,提供了一種輕量化語(yǔ)義分割網(wǎng)絡(luò)的新思路。
2 基于DeepLab v3+的多維注意力網(wǎng)絡(luò)框架
本章首先提出了條狀分維度注意力機(jī)制SPDA,闡述其具體實(shí)現(xiàn)方法,然后說(shuō)明如何使用該機(jī)制設(shè)計(jì)多維注意力融合模塊MAFM。最后,將展示融合了該模塊的語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)MANet,并說(shuō)明模塊的先進(jìn)性。
2.1 條狀分維注意力機(jī)制(SPDA)
為了簡(jiǎn)化注意力的計(jì)算,本文提出一種條狀分維度注意力機(jī)制SPDA,分別提取每個(gè)通道輸入特征圖的高度和寬度上的注意力權(quán)重,便于后續(xù)在原特征圖上的融合。結(jié)構(gòu)如圖2所示。
由于池化核是條狀,該操作可以很方便地融合寬度上的長(zhǎng)距離信息,整合出每個(gè)通道上的高度特征。與二維平均池不同,條狀池化使用一個(gè)條帶形狀的池化窗口沿水平維度或垂直維度執(zhí)行池化,對(duì)行或列中的所有特征值進(jìn)行平均,是一個(gè)形狀為1×N或者N×1的池化核,N為當(dāng)前特征圖的長(zhǎng)度或者寬度。條狀池化的優(yōu)點(diǎn)在于:首先,沿著一個(gè)空間維度部署一個(gè)長(zhǎng)核形狀,從而能夠捕獲孤立區(qū)域的遠(yuǎn)程關(guān)系;同時(shí),它能在其他空間維度上保持一個(gè)狹窄的核形狀,便于捕獲局部上下文,防止不相關(guān)區(qū)域干擾標(biāo)簽預(yù)測(cè)。后續(xù)實(shí)驗(yàn)也可以證明,相比傳統(tǒng)的方形卷積核與方形池化,條狀池化能很好地聚合單個(gè)維度上的全局信息,對(duì)于上下文跨度較大的目標(biāo)有較好的識(shí)別效果。輸出張量:
在過(guò)去的研究中,常用的方形池化具有空間域上下文局限性,而通道域注意力機(jī)制將特征分散到了各個(gè)通道中,不足以單獨(dú)表現(xiàn)其他兩個(gè)維度的特點(diǎn)。與過(guò)往研究相比,S~H能更加集中地描述高度特征在所有特征圖中的表現(xiàn),通過(guò)后續(xù)與寬度、通道特征的融合,分步驟強(qiáng)調(diào)了單個(gè)維度上各個(gè)元素的權(quán)重。同時(shí),通過(guò)降維操作,sigmoid函數(shù)的空間復(fù)雜度從平方降低為線性,計(jì)算所需內(nèi)存更小。
2.2 多維注意力融合模塊(MAFM)
在注意力機(jī)制相關(guān)研究中,結(jié)構(gòu)大致可以分為通道注意力、空間注意力、混合注意力三類。通道注意力使用全局池化提取通道特征,參數(shù)量少,可用于各種輕量化語(yǔ)義分割網(wǎng)絡(luò)[22~24],但該操作忽略了像素本身的注意力,損失了分割細(xì)節(jié)??臻g注意力通常與多尺度輸入、金字塔結(jié)構(gòu)結(jié)合,特征圖經(jīng)過(guò)不同尺寸卷積核擴(kuò)大感受野,捕捉上下文關(guān)聯(lián)[25,26],精度高,但同時(shí)會(huì)引入大量計(jì)算?;旌献⒁饬ν瑫r(shí)結(jié)合通道和空間注意力,如DANet[18]將三通道鋪開至同一維度上,然后合并除通道數(shù)外的維度,進(jìn)行矩陣點(diǎn)乘操作計(jì)算所有像素與所有像素之間的相似性,再與通道注意力融合。點(diǎn)乘操作對(duì)計(jì)算資源的消耗是巨大的,空間復(fù)雜度為(H×W)×(H×W)。CCNet[27]對(duì)此作出改進(jìn),將空間復(fù)雜度降為(H×W)×(H+W-1)。但因?yàn)樯婕暗窖h(huán)操作,依舊存在一定計(jì)算量,所以,需要在計(jì)算資源與計(jì)算準(zhǔn)確率之間作出平衡。
本研究使用SPDA構(gòu)建MAFM模塊,對(duì)各維度分別進(jìn)行特征提取,在此基礎(chǔ)上進(jìn)行全局的注意力融合,可以減少二維卷積運(yùn)算帶來(lái)的負(fù)擔(dān)。MAFM分為高度、寬度、通道三個(gè)分支,具體過(guò)程如圖3所示。
首先,和基于高度的注意力相同,可以運(yùn)用SPDA計(jì)算得到寬度上的注意力權(quán)重X~W。同時(shí),為了計(jì)算不同通道的特征權(quán)重,在通道域分支采用全局池化操作,輸出為
XC即獲取到的每個(gè)通道上W×H個(gè)元素的平均值,代表每個(gè)通道的特征映射,然后使用sigmoid函數(shù)計(jì)算每個(gè)通道的權(quán)值:
在得到高度、寬度、通道三個(gè)維度的權(quán)重分支后,構(gòu)建多維注意力融合模塊進(jìn)行和原特征圖的融合模塊。
MAFM中,在空間域(高度和寬度)上對(duì)特征圖采取了連續(xù)兩次逐像素相乘的操作。加算會(huì)模糊單個(gè)維度上的表現(xiàn),因此,該階段基于高度和寬度的注意力分為兩個(gè)步驟進(jìn)行乘算處理,以此放大單像素的注意力特征。首先,將帶有高度上的權(quán)值張量H與原特征圖X逐元素相乘,得到第一階段特征圖輸出Xatt_h。其次,將帶有寬度上的權(quán)值張量W與原特征圖X逐元素相乘,得到第二階段特征圖輸出:
最后,將第二階段得到的特征圖經(jīng)過(guò)一個(gè)3×3卷積的處理,進(jìn)一步融合空間特征圖上的權(quán)重。設(shè)定輸出通道數(shù)為輸入的兩倍,得到空間域特征圖,然后與通道域分支的輸出XC結(jié)合:
Xatt為最終經(jīng)過(guò)MAFM輸出的特征圖。該模型整體參數(shù)量較小,計(jì)算相對(duì)簡(jiǎn)單,可以靈活加入任意骨干網(wǎng)絡(luò)的任意部分。后續(xù)實(shí)驗(yàn)對(duì)此進(jìn)行了驗(yàn)證。
2.3 插入MAFM的語(yǔ)義分割網(wǎng)絡(luò)(MANet)
MANet采用DeepLab v3+編碼—解碼器結(jié)構(gòu)。編碼器中用MAFM模塊計(jì)算目標(biāo)在空間域與通道域的權(quán)重,指導(dǎo)ASPP對(duì)不同特征尺度的特征圖進(jìn)行融合,提升分割精確度。解碼器采用高層與低層信息融合的方式,通過(guò)低層信息矯正特征圖邊緣信息,并使用MAFM輔助細(xì)節(jié)還原。MANet整體結(jié)構(gòu)如圖4所示。
細(xì)節(jié)方面,在編碼器中,采用效果較好的ResNet101作為骨干網(wǎng),將第一層1個(gè)7×7卷積替換為3個(gè)3×3卷積,再將特征圖輸入后續(xù)網(wǎng)絡(luò)。對(duì)于高分辨率的輸入特征圖,該操作在保證相同感受野的前提下大幅度地減少參數(shù),使其本身帶有正則性質(zhì)的特征圖能夠更容易學(xué)一個(gè)可泛化的特征空間。ResNet101分為四組區(qū)塊,由于第三組區(qū)塊深度遠(yuǎn)大于其余幾組,模型訓(xùn)練階段在第三組后加入輔助交叉熵?fù)p失,更好地監(jiān)督分割質(zhì)量,同時(shí)也可以一定程度加快網(wǎng)絡(luò)收斂。輔助交叉熵?fù)p失模塊結(jié)構(gòu)如圖5所示。
骨干網(wǎng)后連接的ASPP模塊結(jié)構(gòu)由四種不同采樣率的空洞卷積組成,能夠聚合多尺度信息,具有更大的感受野。為了節(jié)約計(jì)算資源,MAFM和ASPP的結(jié)合需要考慮通道數(shù)帶來(lái)的影響,特征圖輸入MAFM模塊前首先進(jìn)行了通道數(shù)的調(diào)整。通道數(shù)越低,參數(shù)量越小,但同時(shí)降低通道數(shù)會(huì)影響分割效果。為了找到最合適的通道數(shù),在后續(xù)實(shí)驗(yàn)中特別進(jìn)行了對(duì)比實(shí)驗(yàn)說(shuō)明。之后, 將ASPP與MAFM特征圖融合并壓縮通道數(shù),綜合局部與全局的信息。MAFM相比DANet等骨干網(wǎng)串聯(lián)的空間—通道域注意力模塊擁有更小的計(jì)算量,允許多次并聯(lián)。
解碼器高層特征圖輸入大小為原特征圖的1/8,經(jīng)過(guò)一次上采樣后與骨干網(wǎng)第一層組輸出的底層特征圖進(jìn)行通道融合。然后,經(jīng)過(guò)MAFM進(jìn)一步處理通道融合后的特征圖,還原上采樣丟失的細(xì)節(jié)信息。最后,再次使用卷積并進(jìn)行上采樣得到最終的輸出預(yù)測(cè)圖。
實(shí)驗(yàn)注意到,MAFM的多次插入不會(huì)為網(wǎng)絡(luò)帶來(lái)過(guò)多的參數(shù)與計(jì)算量,并且可以對(duì)網(wǎng)絡(luò)性能進(jìn)行有效提升。在本研究的模型訓(xùn)練部分,將提供更多的結(jié)果和對(duì)此的分析。
3 實(shí)驗(yàn)與分析
為了評(píng)估模型性能,本研究基于城市景觀數(shù)據(jù)集進(jìn)行了綜合實(shí)驗(yàn)。在本章中,首先會(huì)介紹數(shù)據(jù)集和相關(guān)的實(shí)現(xiàn)細(xì)節(jié);然后針對(duì)核心模塊MAFM進(jìn)行了多組對(duì)比實(shí)驗(yàn),包括在不同骨干網(wǎng)上添加MAFM模塊,不同輸入通道數(shù)時(shí)在編碼器和解碼器的不同位置上添加MAFM模塊,以及在城市駕駛場(chǎng)景的不同目標(biāo)上進(jìn)行了分割精度的驗(yàn)證;最后,將插入MAFM模塊形成的MANet分割結(jié)果進(jìn)行了可視化,并與其他分割網(wǎng)絡(luò)進(jìn)行對(duì)比,說(shuō)明模型的有效性。
3.1 數(shù)據(jù)集介紹
實(shí)驗(yàn)采用的數(shù)據(jù)集為針對(duì)自動(dòng)駕駛開發(fā)的城市景觀數(shù)據(jù)集cityscapes[28]。這是一個(gè)大規(guī)模的關(guān)注于城市街道場(chǎng)景理解的數(shù)據(jù)集,以車載視角拍攝高分辨率圖片,包含50個(gè)城市不同場(chǎng)景、不同背景、不同季節(jié)的街景。有5 000張精細(xì)標(biāo)注數(shù)據(jù)以及20 000張粗糙標(biāo)注數(shù)據(jù)。本文采用精細(xì)標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,包括來(lái)自16個(gè)城市共2 975張訓(xùn)練圖,以及來(lái)自其他3個(gè)城市的500張測(cè)試圖。語(yǔ)義標(biāo)簽分為19類,每張圖像的分辨率為2 048×1 024。輸入網(wǎng)絡(luò)前,裁剪大小為768×768。為了避免過(guò)擬合,對(duì)數(shù)據(jù)集使用了隨機(jī)縮放、水平翻轉(zhuǎn)、高斯模糊、顏色抖動(dòng)和圖像裁剪等方法進(jìn)行數(shù)據(jù)增強(qiáng)。
3.2 優(yōu)化器
本研究采用SGD優(yōu)化器,初始學(xué)習(xí)率為0.01,動(dòng)量為0.9,權(quán)重衰減為1E-4。采用多項(xiàng)式學(xué)習(xí)率衰減策略:
其中:lr為初始學(xué)習(xí)率;lrend為終止訓(xùn)練時(shí)的學(xué)習(xí)率,這里為0; sglobal和smax分別為當(dāng)前迭代次數(shù)和總迭代次數(shù),可以根據(jù)訓(xùn)練環(huán)境進(jìn)行手動(dòng)調(diào)整;power設(shè)置為0.9。研究使用兩個(gè)TITAN RTX-24 GB GPU進(jìn)行訓(xùn)練,批次處理大小為4。
3.3 評(píng)估標(biāo)準(zhǔn)
評(píng)價(jià)指標(biāo)采用mIoU(平均交并比):
3.4 MAFM對(duì)比實(shí)驗(yàn)
3.4.1 骨干網(wǎng)與MAFM的融合
在不同骨干網(wǎng)解碼器上添加MAFM模塊,以證明模塊的廣泛性。各網(wǎng)絡(luò)添加MAFM前后性能對(duì)比如表1所示。其中,Params代表模型參數(shù),用來(lái)衡量模型的大小。GMACs代表點(diǎn)乘運(yùn)算量,用來(lái)衡量模型的復(fù)雜度。
實(shí)驗(yàn)表明,單個(gè)MAFM模塊的引入給模型帶來(lái)的新參數(shù)不足1 M,在不同骨干網(wǎng)上均能取得一定提升。在ResNet101上,mIoU提升達(dá)到了1.18,同時(shí)點(diǎn)乘操作僅增加4.50%。
3.4.2 編解碼器與MAFM的融合
本研究采用ResNet101作為骨干網(wǎng),輸出步幅output_stride=8,研究MAFM插入網(wǎng)絡(luò)時(shí)不同輸入通道數(shù)k以及插入的不同位置對(duì)網(wǎng)絡(luò)性能的影響,在城市景觀數(shù)據(jù)集的驗(yàn)證集上進(jìn)行消融實(shí)驗(yàn)。
在不同輸入通道數(shù)的實(shí)驗(yàn)中,均采用MAFM模塊在編解碼器同時(shí)融合的情況,對(duì)64、128、256、512四種通道數(shù)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)表明,當(dāng)MAFM輸入通道數(shù)k為256時(shí),模塊性能到達(dá)峰值,mIoU從79.58提升到81.01。
在不同位置添加MAFM的實(shí)驗(yàn)中,分別研究了256輸入通道下編碼器融合、解碼器融合與同時(shí)融合三種情況,實(shí)驗(yàn)結(jié)果如表3所示。
實(shí)驗(yàn)發(fā)現(xiàn),每個(gè)位置均對(duì)網(wǎng)絡(luò)性能有所提升。從單個(gè)部位看,編碼器上加入MAFM時(shí),參數(shù)量增加1.18 M,mIoU相比基線架構(gòu)從79.58%提升至80.51%;在解碼器上加入MAFM時(shí),參數(shù)量比同條件下編碼器降低0.45 M,mIoU提升至80.76%。當(dāng)編碼器、解碼器同時(shí)和MAFM融合時(shí),mIoU獲得了進(jìn)一步提升,相比基線架構(gòu)提升1.53%,且疊加模塊時(shí)參數(shù)量增長(zhǎng)為線性。這意味著在同一網(wǎng)絡(luò)中多次使用模塊時(shí)不會(huì)產(chǎn)生參數(shù)量爆炸性增長(zhǎng)的情況。
3.4.3 MAFM對(duì)不同分割目標(biāo)的影響
表4展示了基線網(wǎng)絡(luò)添加MAFM模塊前后的語(yǔ)義分割結(jié)果,均使用城市景觀數(shù)據(jù)集的訓(xùn)練集訓(xùn)練,在驗(yàn)證集上測(cè)試每個(gè)類別的詳細(xì)mIoU。基線網(wǎng)絡(luò)是以ResNet101作為骨干網(wǎng),將第一層1個(gè)7×7卷積替換為3個(gè)3×3卷積,并添加了輔助交叉熵?fù)p失的DeepLab v3+網(wǎng)絡(luò)。在其他類別準(zhǔn)確率沒有明顯下降的前提下,多維注意力融合模塊在提高柱狀、條狀物體的分割準(zhǔn)確率方面成效顯著。典型條狀物如柵欄,柱子分別取得了2.9%和1.8%的提升;墻體、交通燈、交通標(biāo)識(shí)、地面等形狀較為規(guī)則的物體也取得了優(yōu)秀的分割結(jié)果,較基線網(wǎng)絡(luò)分別提升了9.9%、2.0%、1.9%、1.8%。此外,“人”的分割結(jié)果也有所提升,如行人、騎行者,均在原有基礎(chǔ)上提升了1%;一些大面積分割目標(biāo)如道路、建筑、天空等基本與基線保持相同水平。
3.5 MANet可視化分析
為了說(shuō)明MANet在城市駕駛場(chǎng)景中比起傳統(tǒng)語(yǔ)義分割網(wǎng)絡(luò)具有更好的應(yīng)用能力,對(duì)場(chǎng)景分割預(yù)測(cè)結(jié)果和分割邊緣分別進(jìn)行了可視化實(shí)驗(yàn),并與DeepLab v3+的可視化結(jié)果進(jìn)行比較。
場(chǎng)景分割預(yù)測(cè)可視化如圖6所示(改善明顯的區(qū)域已用紅框標(biāo)注,參見電子版)。由圖(a)可以看出,MANet上下文關(guān)聯(lián)度增強(qiáng),分割結(jié)果更加明顯且完整,切割邊緣較基線更加平滑。由圖(b)可以看出,對(duì)于和背景混淆度較高的目標(biāo),由于MANet中多維注意力的加入,建立了長(zhǎng)程語(yǔ)義關(guān)聯(lián),能夠更好地和背景實(shí)現(xiàn)分離,即使是比較細(xì)小的目標(biāo)物(如路標(biāo)桿、電線桿等)也能在像素級(jí)別上準(zhǔn)確捕捉到。圖(c)中的“植被”與“人行道”距離較近,形狀相似,且亮度較低,極易產(chǎn)生錯(cuò)誤判斷,但MANet可以較為準(zhǔn)確地將兩者進(jìn)行分割。由圖(d)可以說(shuō)明,MANet還可以區(qū)別出重疊度較高的不同目標(biāo),如同一個(gè)區(qū)域中的“騎行者”與“行人”,而DeepLab v3+有概率產(chǎn)生混淆,可能會(huì)造成誤判,在駕駛場(chǎng)景中此類誤判往往會(huì)帶來(lái)安全隱患。
分割邊緣可視化如圖7所示,圖中線條越細(xì)、越光滑,說(shuō)明分割效果越好。由圖中藍(lán)框部分可以看出,DeepLab v3+的分割存在塊狀缺失,當(dāng)目標(biāo)中間有遮擋時(shí),可能會(huì)將一個(gè)目標(biāo)判斷成多個(gè);本文的MANet分割邊緣精確度更高,修復(fù)了原網(wǎng)絡(luò)存在的較大面積分割錯(cuò)誤,對(duì)于重疊和遮擋的魯棒性較強(qiáng)。
3.6 MANet性能對(duì)比
MANet和其他同樣使用注意力機(jī)制的網(wǎng)絡(luò)性能評(píng)估如表5所示,表中模型均采用ResNet-101作為骨干網(wǎng),輸入特征圖大小為4×3×768×768。
和以往注意力機(jī)制相比,許多注意力機(jī)制因?yàn)楸旧碛?jì)算量過(guò)大的問(wèn)題,只能采用深度卷積模型,以骨干網(wǎng)與注意力模塊串聯(lián)的方式輸出特征圖。DANet和CCNet以經(jīng)典的殘差網(wǎng)絡(luò)作為骨干網(wǎng),后接注意力分支,經(jīng)過(guò)特征融合得到輸出特征圖。該種結(jié)構(gòu)限制了注意力機(jī)制的作用位置,只能在網(wǎng)絡(luò)的特定位置插入并作用于網(wǎng)絡(luò)訓(xùn)練。而MANet中的注意力機(jī)制更趨近于模塊化,和DANet中的注意力方法相比,節(jié)約了約90%的參數(shù)量以及80%的計(jì)算量;在點(diǎn)乘量和CCNet保持同一數(shù)量級(jí)的基礎(chǔ)上,參數(shù)量削減約10倍,mIoU提升0.5%,且多個(gè)MAFM的疊加不會(huì)帶來(lái)計(jì)算量的指數(shù)增長(zhǎng)。這意味著MAFM可以作為一種靈活調(diào)整的模塊應(yīng)用于各種網(wǎng)絡(luò)。
不同模型預(yù)測(cè)結(jié)果對(duì)比如表6所示。
模型均采用ResNet-101作為骨干網(wǎng)絡(luò),使用城市景觀數(shù)據(jù)集中的精細(xì)訓(xùn)練集訓(xùn)練。和其他使用相同骨干網(wǎng)的語(yǔ)義分割網(wǎng)絡(luò)相比,添加了MAFM后構(gòu)建的MANet在城市景觀數(shù)據(jù)集上取得了較為先進(jìn)的結(jié)果。由此可見,在傳統(tǒng)注意力機(jī)制的思想基礎(chǔ)上,MAFM結(jié)構(gòu)的創(chuàng)新和計(jì)算資源的削減不會(huì)對(duì)語(yǔ)義分割的效果產(chǎn)生影響,并且取得了一定的提升,體現(xiàn)了良好的綜合性能。
4 結(jié)束語(yǔ)
本文提出了一種可作為駕駛場(chǎng)景分割應(yīng)用的語(yǔ)義分割增強(qiáng)算法。利用條狀分維度注意力機(jī)制分別得到特征圖高度和寬度上的注意力權(quán)重,并進(jìn)行空間域和通道域上注意力的融合,形成輕量化的MAFM模塊。該模塊可以添加到不同骨干網(wǎng)的不同位置,在ResNet101上提升較高。模塊輸入通道數(shù)k為256時(shí)性能最好,且在編碼器與解碼器中同樣有效,說(shuō)明了模塊的靈活性與廣泛性。最后展示的各網(wǎng)絡(luò)mIoU對(duì)比數(shù)據(jù)以及對(duì)特征圖的可視化表明,MAFM使用參數(shù)少,模型簡(jiǎn)單,插入MAFM構(gòu)建的語(yǔ)義分割網(wǎng)絡(luò)MANet可以對(duì)遠(yuǎn)程上下文依賴性較大的物體產(chǎn)生更好的預(yù)測(cè)結(jié)果,且綜合性能較為優(yōu)秀。一般的注意力機(jī)制為達(dá)到更高的準(zhǔn)確率,耗費(fèi)計(jì)算資源大,網(wǎng)絡(luò)訓(xùn)練時(shí)間久,但是在駕駛等應(yīng)用場(chǎng)景中,計(jì)算速度與準(zhǔn)確率需要同時(shí)滿足一定要求。本研究目的在于緩解算力與精確度之間的矛盾,探究一種實(shí)用的注意力機(jī)制,并為語(yǔ)義分割網(wǎng)絡(luò)在應(yīng)用方面的研究打下基礎(chǔ)。
參考文獻(xiàn):
[1]林正春,王知衍,張艷青.最優(yōu)進(jìn)化圖像閾值分割算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2010,22(7):1202-1206.(Lin Zhengchun,Wang Zhiyan,Zhang Yanqing.Optimal evolution algorithm for image thresholding[J].Journal of Computer-Aided Design and Computer Graphics,2010,22(7):1202-1206.)
[2]Wang Shitong,Chung Fulai,Xiong Fusong.A novel image thresholding method based on Parzen window estimate[J].Pattern Recognition:the Journal of the Pattern Recognition Society,2008,41(1):117-129.
[3]季虎,孫即祥,邵曉芳,等.圖像邊緣提取方法及展望[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(14):70-73.(Ji Hu,Sun Jixiang,Shao Xiaofang,et al.The algorithm for image edge detection and prospect[J].Computer Engineering and Applications,2004,40(14):70-73.)
[4]段瑞玲,李慶祥,李玉和.圖像邊緣檢測(cè)方法研究綜述[J].光學(xué)技術(shù),2005,31(3):415-419.(Duan Ruiling,Li Qingxiang,Li Yuhe.Summary of image edge detection[J].Optical Technique,2005,31(3):415-419.)
[5]Ronneberger O,F(xiàn)ischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[6]張墺琦,亢宇鑫,武卓越,等.基于多尺度特征和注意力機(jī)制的肝臟組織病理圖像語(yǔ)義分割網(wǎng)絡(luò)[J].模式識(shí)別與人工智能,2021,34(4):375-384.(Zhang Aoqi,Kang Yuxin,Wu Zhuoyue,et al.Semantic segmentation network of pathological images of liver tissue based on multi-scale feature and attention mechanism[J].Pattern Recognition and Artificial Intelligence,2021,34(4):375-384.)
[7]Murali S,Govindan V K,Kalady S.Single image shadow removal by optimization using non-shadow anchor values[J].Computational Visual Media,2019,5(3):311-324.
[8]朱浩,谷小婧,藍(lán)鑫,等.基于多尺度輪廓增強(qiáng)的RGB-IR雙波段圖像語(yǔ)義分割算法[J].激光與紅外,2022,52(4):543-551.(Zhu Hao,Gu Xiaojing,Lan Xin,et al.RGB-IR semantic segmentation based on multi-scale edge enhancement[J].Laser and Infrared,2022,52(4):543-551.)
[9]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[10]Yu F,Koltun V.Multi-scale context aggregation by dilated convolutions[EB/OL].(2016-04-30)[2023-03-01].https://doi.org/10.48550/arXiv.1511.07122.
[11]Wang Panqu,Chen Pengfei,Yuan Ye,et al.Understanding convolution for semantic segmentation[C]//Proc of Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:1451-1460.
[12]趙迪,孫鵬,陳奕博,等.基于高度有效驅(qū)動(dòng)注意力與多層級(jí)特征融合的城市街景語(yǔ)義分割[J].光電子·激光,2022,33(10):1038-1046.(Zhao Di,Sun Peng,Chen Yibo,et al.Urban street view semantic segmentation based on height-driven effective attention and multi-stage feature fusion[J].Journal of Optoelectronics·Laser,2022,33(10):1038-1046.)
[13]Zhu Lanyun,Ji Deyi,Zhu Shiping,et al.Learning statistical texture for semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:12537-12546.
[14]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[15]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.
[16]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:3-19.
[17]Wang Xiaolong,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7794-7803.
[18]Fu Jun,Liu Jing,Tian Haijie,et al.Dual attention network for scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3146-3154.
[19]蘇曉東,李世洲,趙佳圓,等.基于多級(jí)疊加和注意力機(jī)制的圖像語(yǔ)義分割方法[J/OL].計(jì)算機(jī)工程,2023.https://doi.org/10.19678/j.issn.1000-3428.0065940.(Su Xiaodong,Li Shizhou,Zhao Jiayuan,et al.Image semantic segmentation based on multi-level overlay and attention mechanism[J/OL].Computer Engineering,2023.https://doi.org/10.19678/j.issn.1000-3428.0065940.)
[20]Chen L C,Zhu Yukun,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:801-818.
[21]Chen L C,Papandreou G,Schroff F,et al.Rethinking atrous convolution for semantic image segmentation[EB/OL].(2017-12-05)[2023-03-01].https://doi.org/10.48550/arXiv.1706.05587.
[22]Yu Changqian,Wang Jingbo,Peng Chao,et al.BiSeNet:bilateral segmentation network for real-time semantic segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:325-341.
[23]Yu Changqian,Gao Changxin,Wang Jingbo,et al.BiSeNet v2:bilateral network with guided aggregation for real-time semantic segmentation[J].International Journal of Computer Vision,2021,129(11):3051-3068.
[24]Li Hanchao,Xiong Pengfei,F(xiàn)an Haoqiang,et al.DFANet:deep feature aggregation for real-time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society,2019:9522-9531.
[25]Yang Kailun,Zhang Jiaming,Rei S,et al.Capturing omni-range context for omnidirectional segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2021:1376-1386.
[26]梁新宇,權(quán)冀川,楊輝,等.多尺度特征提取和多層次注意力機(jī)制的迷彩偽裝目標(biāo)分割算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2022,34(5):683-692.(Liang Xinyu,Quan Jichuan,Yang Hui,et al.Ca-mouflage target segmentation algorithm using multi-Scale feature extraction and multi-level attention mechanism[J].Journal of Computer-Aided Design and Computer Graphics,2022,34(5):683-692.)
[27]Huang Zilong,Wang Xinggang,Huang Lichao,et al.CCNet:criss-cross attention for semantic segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Washington DC:IEEE Computer Society,2019:603-612.
[28]Cordts M,Omran M,Ramos S,et al.The cityscapes dataset for semantic urban scene understanding[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3213-3223.
[29]Ma Ningning,Zhang Xiangyu,Zheng H T,et al.ShuffleNetV2:practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:116-131.
[30]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[31]Zagoruyko S,Komodakis N.Wide residual networks[EB/OL].(2017-06-14)[2023-03-01].https://doi.org/10.48550/arXiv.1605.07146.
[32]Zhang Fan,Chen Yanqin,Li Zhihang,et al.ACFNet:attentional class feature network for semantic segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Washington DC:IEEE Computer Society,2019:6798-6807.
[33]Li Xiangtai,You Ansheng,Zhu Zhen,et al.Semantic flow for fast and accurate scene parsing[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:775-793.
[34]Choi S,Kim J T,Choo J.Cars cant fly up in the sky:improving urban-scene segmentation via height-driven attention networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2020:9370-9380.
收稿日期:2023-01-08;修回日期:2023-03-06基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(U1866209,61772162)
作者簡(jiǎn)介:劉奕晨(1998-),女,浙江杭州人,碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺、人工智能圖像處理;章堅(jiān)武(1961-),男(通信作者),浙江杭州人,博導(dǎo),博士,主要研究方向?yàn)橐苿?dòng)通信、多媒體信號(hào)處理與人工智能、通信網(wǎng)絡(luò)與信息安全(jwzhang@hdu.edu.cn);胡晶(1982-),女,浙江宇視科技有限公司高級(jí)工程師,總裁辦主任,主要研究方向?yàn)槿斯ぶ悄堋⑽锫?lián)網(wǎng).