摘" 要: 為解決現(xiàn)有語義分割模型無法兼顧全局語義信息與局部細節(jié)信息,以及殘差模塊細節(jié)特征提取能力弱的問題,提出一種語義分割方法。在HRNet的基礎(chǔ)上引入了金字塔池化模塊,兼顧了全局語義信息和局部細節(jié)信息,同時在原有殘差模塊Basic Block的基礎(chǔ)上引入大核深度卷積提高模型的細節(jié)特征提取能力,大幅度提高模型的精度。在PASCAL VOC2012圖像數(shù)據(jù)集上的實驗表明,相較于原始HRNet等其他分割網(wǎng)絡(luò),該算法取得了分割精度的顯著提升,平均分割精度達到了89.27%。各設(shè)計模塊的有效性也通過消融實驗得以驗證,尤其是改進Basic Block對提升分割性能具有關(guān)鍵作用,該模型大幅度提升了圖像語義分割精度,提供了一種高效率、穩(wěn)定且適用場景更加普遍的多尺度語義分割算法。
關(guān)鍵詞: HRNet; 金字塔池化模塊; 大核深度卷積; 殘差模塊; 語義分割; 深度學習
中圖分類號: TN911.73?34" " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " " 文章編號: 1004?373X(2025)07?0029?06
Research on image semantic segmentation method
based on improved HRNet and PPM
SHI Jiaqi1, YANG Haojun2, LIU Xiaoyue1, CHEN Xin1
(1. College of Electrical Engineering, North China University of Science and Technology, Tangshan 063000, China;
2. Beijing University of Posts and Telecommunications, Beijing 100876, China)
Abstract: A semantic segmentation method is proposed to address the issue of the existing semantic segmentation models being unable to balance global semantic information and local detail information, and the poor ability of residual module detail feature extraction. On the basis of the HRNet, a pyramid pooling module is introduced to balance global semantic information and local detail information. At the same time, the large?kernel deep convolution is introduced on the basis of the original residual module Basic Block, so as to improve the detail feature extraction ability of the model and improve the model accuracy significantly. Experiments on the PASCAL VOC2012 image dataset show that in comparison with the other segmentation networks, for instance, the original HRNet, the proposed algorithm achieves a significant improvement in segmentation accuracy, with an average accuracy of 89.27%. The effectiveness of each designed module has also been verified by ablation experiments, especially the improvement of Basic Block, which plays a crucial role in improving segmentation performance. This model further improves the accuracy of image semantic segmentation and achieves a more efficient, stable, and universal multi?scale semantic segmentation algorithm.
Keywords: HRNet; pyramid pooling module; large?kernel deep convolution; residual module; semantic segmentation; deep learning
0" 引" 言
語義分割作為計算機視覺領(lǐng)域的基礎(chǔ)問題,對圖片場景數(shù)據(jù)解析有著重要作用,可廣泛應(yīng)用于圖像編輯、機器人、增強現(xiàn)實、自動駕駛、醫(yī)學成像等領(lǐng)域。其功能是將每個圖像像素分配給與底層對象相對應(yīng)的類別標簽,并為目標任務(wù)提供高級圖像表示[1]。
最近的語義分割方法通常依賴于卷積編碼器?解碼器架構(gòu),其中編碼器生成低分辨率圖像特征,解碼器將特征上采樣為具有每像素類別分數(shù)的分割圖。全卷積網(wǎng)絡(luò)(Fully Convolution Network, FCN)[2]可以實現(xiàn)端到端的預(yù)測,并且可以處理任意大小的圖像,但由于粗糙的上采樣過程,導致對圖像的細節(jié)并不敏感,且沒有考慮像素間的關(guān)系使其語義分割結(jié)果精度較低。
為解決上述問題,許多專家在FCN的基礎(chǔ)上提出許多優(yōu)化算法。文獻[3]提出了SegNet網(wǎng)絡(luò),該方法明確提出了編碼器?解碼器架構(gòu),并采用maxpool索引解碼,節(jié)省內(nèi)存的同時實現(xiàn)更好的分割性能。但是這種索引方式會使圖像丟失大量空間和細節(jié)信息,令被分割對象出現(xiàn)模糊邊緣和缺少細節(jié)信息的狀況。文獻[4]提出的U?Net運用一種U型網(wǎng)絡(luò)結(jié)構(gòu),使圖片在恢復(fù)分辨率的上采樣過程中與下采樣過程中的相同分辨率的特征進行融合,達到獲得更多特征信息的目的。但是該方法使用連續(xù)的上采樣恢復(fù)圖片分辨率,這種方式并不能使多次最大池化損失的物體細節(jié)信息得到完整恢復(fù),所以分割精度有限。文獻[5?6]提出了DeepLab結(jié)構(gòu),引入了具有擴張卷積和空間金字塔池化的特征聚合。這可以擴大卷積網(wǎng)絡(luò)的感受野并獲得多尺度特征。隨后文獻[7]在DeepLab的基礎(chǔ)上提出了DeepLabv3+結(jié)構(gòu),引入了空洞卷積,在增加感受野的同時避免信息的損失,使卷積輸出都包含較大范圍的信息,這有利于提取多尺度信息,盡管DeepLabv3+在精度上有了非常大的提升,但是并沒有解決編碼器?解碼器結(jié)構(gòu)的弊端,即上采樣過程中多次最大池化操作會限制對圖像全局信息的訪問,且并不能完整彌補空間分辨率的損失。文獻[8]提出了HRNet,該方法通過并行連接的方式,使高分辨率到低分辨率的卷積保持高分辨率表示,并讓并行結(jié)構(gòu)中的尺度信息進行融合。與編碼器?解碼器這種串行結(jié)構(gòu)不同的是,這種方法不通過單純的上采樣從低分辨率圖像恢復(fù)到高分辨圖像,而是在降低分辨率的同時通過并行網(wǎng)絡(luò)維持高分辨率,并且通過多次不同尺度的特征融合,增強在高分辨率時特征圖的結(jié)果。文獻[9]提出了一種引入可變形卷積的街景圖像語義分割模型,該模型增強了HRNet對細尺度目標特征物的辨識精度。文獻[10]提出了一種結(jié)合ASPP與改進HRNet的多尺度圖像語義分割算法,通過可分離卷積改進HRNet基礎(chǔ)模塊再添加混合擴張卷積框架重構(gòu)的ASPP,提高了分割性能。但是這兩種方法對圖片細節(jié)特征不敏感,且無法兼顧全局信息。
綜上,現(xiàn)有語義分割方法仍存在以下問題:
1) 現(xiàn)有模型的殘差模塊對細節(jié)特征提取過少,無法獲得更深層次信息。
2) 現(xiàn)有模型無法兼顧全局語義信息與局部細節(jié)信息,使語義分割精度降低。
針對上述問題,本文提出一種基于改進HRNet和PPM的圖像語義分割方法。首先,采用HRNet結(jié)構(gòu)并對其進行優(yōu)化和改進,引入了大核深度卷積[11](Large?kernel Convolution)對網(wǎng)絡(luò)殘差模塊Basic Block進行改進,通過將3×3卷積替換為5×5大核卷積提高了殘差模塊提取細節(jié)特征的能力,獲得更深層次信息。其次,在HRNet的最后一層加入PPM(Pyramid Pooling Module)[12]兼顧全局語義信息和局部細節(jié)信息,相比于原始PPM,采用4×4的卷積降低了運算成本。最后,利用數(shù)據(jù)集PASCAL VOC2012[13]進行消融實驗和對比實驗,檢驗了本文所提出的算法語義分割精度和泛化能力。
1" 網(wǎng)絡(luò)結(jié)構(gòu)和模型
為了提高HRNet在語義分割時的分割精度,降低分割時的運算成本,對HRNet模型進行了改進,提出了一種融合金字塔池化模塊的大核深度卷積的改進HRNet的語義分割算法。該模型主要構(gòu)成有:HRNet網(wǎng)絡(luò)模型、大核深度卷積模塊和金字塔池化模塊。整體模型結(jié)構(gòu)如圖1所示。模型包括四個階段:stage1是對輸入圖像進行一個預(yù)處理的單分支網(wǎng)絡(luò)。stage2、stage3分別為融合大核深度卷積的雙分支網(wǎng)絡(luò)和多分支網(wǎng)絡(luò),通過深度卷積的合理計算成本,增加有效感受野,顯著增加模型的準確性。stage4就是一個PPM模塊,對已收集好的特征信息再次進行處理,充分利用場景的上下文信息,提高模型的精度。在各個stage之間的連接處,通過不斷使多分辨率特征信息之間進行特征融合,來提升高分辨率和低分辨率特征信息的準確率,讓多分辨率特征信息之間更好地相互促進。
改進HRNet算法步驟如下。
1) 輸入圖像在stage1首先經(jīng)過兩個卷積層預(yù)處理,開展特征提取,獲得高分辨率尺度信息。
2) 對步驟1)中所得特征圖進行下采樣4倍和8倍操作,并增加一個尺度分支,同時原尺度經(jīng)過改進Basic Block獲得更深層次尺度信息。將下采樣2倍尺度分支較低分辨率尺度信息和處理后尺度信息再次輸入改進Basic Block,同時提取深層特征。之后將較低分辨率信息和維持高分辨率信息經(jīng)過Up和Down融合不同尺度信息。
3) 在步驟2)中兩個尺度分支基礎(chǔ)上再增加一個尺度分支,該尺度分支為原尺度經(jīng)下采樣4倍和較低分辨率尺度下采樣2倍后進行尺度融合所得。同時在之前兩個尺度分支再次進行特征融合。
4) 將步驟3)中三個尺度信息經(jīng)過改進Basic Block,得到深層次信息,再將三個尺度執(zhí)行步驟2)中尺度融合的操作,最后收集三個尺度的特征信息。
5) 將網(wǎng)絡(luò)收集到的特征信息輸入金字塔池化模塊,經(jīng)過池化操作后,將特征信息同時輸入大小為1×1、2×2、3×3、4×4的卷積核來增加感受野,再將這四種特征信息與原特征信息結(jié)合獲得全局的特征信息,即預(yù)測分割圖像。
1.1" HRNet
高分辨率網(wǎng)絡(luò)[14?15]在捕獲細粒度細節(jié)和空間上下文方面表現(xiàn)出了顯著的優(yōu)勢,并已成為提高人體姿勢估計和語義分割準確性的強大網(wǎng)絡(luò)框架。與經(jīng)典編碼器?解碼器結(jié)構(gòu)先進行從圖像中提取特征的空間下采樣過程然后恢復(fù)原始空間分辨率的恢復(fù)過程不同的是,HRNet是基于并行分解為多個空間分辨率圖像的子網(wǎng)絡(luò),并且通過重復(fù)使用模塊來融合子網(wǎng)絡(luò)的輸出來構(gòu)建特征圖,HRNet結(jié)構(gòu)圖如圖2所示。
1) 圖片首先通過3×3×2的卷積層進行4倍下采樣,并通過Layer1調(diào)整通道數(shù)。
2) 將預(yù)處理后的圖片通過Transition模塊增加尺度分支,再進入stage模塊。例如Transition1將圖片輸入并行結(jié)構(gòu)中3×3的卷積層得到下采樣4倍和8倍的尺度分支,并且在Transition2中將尺度分支添加到3個,新添加的尺度分支是以一個3×3×2的卷積層得到下采樣16倍的尺度。
3) stage是網(wǎng)絡(luò)中進行尺度信息融合的重要結(jié)構(gòu),以stage2為例,在不同尺度上的尺度信息融合前,將每個尺度分支通過4個Basic Block。例如將下采樣4倍的尺度信息和下采樣8倍的尺度信息通過Up×2并且將下采樣16倍的尺度信息通過Up×4上采樣4倍進行信息融合再通過ReLU得到下采樣4倍分支的融合信息。
HRNet通過連接高到低分辨率子網(wǎng)絡(luò)的方式維持高分辨率,而不用以上采樣的方式從低到高恢復(fù)分辨率,所以使預(yù)測的熱圖更加精確。并且交換各尺度的尺度信息,同水平的低分辨率尺度信息幫助高分辨率尺度信息,增強高分辨率尺度信息準確度,同時高分辨率尺度信息豐富低分辨率尺度信息,從而達到提高語義分割精度的目的。
1.2" 改進HRNet結(jié)構(gòu)
HRNet的殘差模塊對細節(jié)特征提取過少,無法獲得更深層次信息。通過改進其殘差模塊,提高模型細節(jié)特征提取能力。Basic Block是HRNet中的基本殘差塊,如圖3所示,由兩個3×3卷積層組成,每個卷積層后面跟著批歸一化層和激活函數(shù)。在前向傳播過程中,輸入通過第一個卷積層、批歸一化、激活函數(shù),然后通過第二個卷積層和批歸一化,最后與輸入進行殘差連接并通過激活函數(shù)輸出。其中第一個卷積層用于進行卷積操作,第二個卷積層的作用是將輸出通道數(shù)轉(zhuǎn)換為目標通道數(shù),而殘差連接則是把輸入直接加到輸出上,保留了輸入信息,避免信息丟失。同時,可以有效地減少梯度消失問題,使網(wǎng)絡(luò)訓練更加容易。
受RTMDet網(wǎng)絡(luò)模型啟發(fā),在該模型中重新審視Large?kernel Convolution大核卷積的使用,表示可以通過深度卷積[16?17]合理的計算成本擴大感受野。RTMDet在CSPDarkNet[15]的基本構(gòu)建塊中引入5×5深度卷積,提高了細節(jié)特征提取能力,以增加有效感受野,大幅提高了精度。因此,本文在Basic Block的基礎(chǔ)上將第二個3×3卷積替換為5×5的深度卷積,與3×3卷積相比,5×5深度卷積可以極大提高精度,但是計算成本相較于3×3并沒有提高很多。
1.3" 融合金字塔池化模塊(PPM)
PPM是一種有效的全局上下文先驗?zāi)K。金字塔池化生成不同尺度的特征信息,將特征信息在全連接層中進行拼接并分類。全局先驗的目的是消除對輸入圖片大小的限制,包含不同尺度和不同子區(qū)域之間變化的分層全局先驗,可以有效減少不同子區(qū)域間的上下文信息丟失。
PPM融合了4種不同金字塔尺度下的特征。該模塊將特征信息分成不同的子區(qū)域,池化后形成不同的表現(xiàn)形式。在不同級別的輸出分別輸出各自級別的特征信息。將每層金字塔所得特征信息使用1×1卷積層將維度縮小,若金字塔層級為[N],則縮小到原始維度的[1N],獲取全局特征。對底層維度特征信息進行上采樣,再以雙線性插值的方式得到特征信息,并使該特征信息與原始特征信息大小相同。最后,將不同維度的特征拼接,得到最終的金字塔池化全局特征信息。
金字塔池化模塊中金字塔級別的數(shù)量和每個級別的大小是可以調(diào)整的。在本文模型中采用四層卷積核大小為1×1、2×2、3×3、4×4的金字塔池化模塊。與原文6×6的卷積核相比,4×4的卷積核不僅減少了計算成本,而且對本文模型分割精度沒有影響。金字塔池化模塊結(jié)構(gòu)如圖4所示。
2" 實驗與分析
實驗環(huán)境配置如表1所示。
2.1" 數(shù)據(jù)集
本文使用PASCAL VOC2012數(shù)據(jù)集用于語義分割,用來檢驗算法的可行性。PASCAL VOC2012是PASCAL VOC官方挑戰(zhàn)數(shù)據(jù)集。數(shù)據(jù)集包括20類物體,并且每張圖片都有標注,包含人、動物、家具等20個類別。每個圖像評價有2.4個目標,每個被標注的圖片都有語義分割所需要的標簽。訓練集包含1 464個文件,驗證集包含1 449個文件。原始圖像包含17 125個文件,標簽圖包含2 913個文件。
2.2" 評價指標
本文使用mAcc、mIoU和aAcc來評價本模型的分割效果。
[mAcc=1k+1i=0kPiij=0kPij] (1)
[mIoU=1k+1i=0kPiij=0kPij+j=0kPji-Pii] (2)
[aAcc=i=0kPiii=0kj=0kPij] (3)
式中:[k+1]表示圖像類別個數(shù);[Pij]是實際像素類別[i]的像素被預(yù)測為[j]類別的總數(shù)量;[Pji]表示真實像素類別[j]的像素被預(yù)測為[i]類別的總數(shù)量;[Pii]表示真實像素類別為[i]的像素被預(yù)測為類別[i]的總數(shù)量。
2.3" 消融實驗結(jié)果分析
通過消融實驗對模型改進前后的語義分割效果進行對比。表2顯示了在不同改進程度下的消融實驗結(jié)果。結(jié)果表明方案一和方案二的語義分割各項指標值明顯低于最終方案。其中方案一即原始HRNet網(wǎng)絡(luò)精度最低,表明PPM模塊可以有效地擴大感受野,提高模型精度,并且由方案二和最終方案比較,證明改進Basic Block塊也可以明顯提升模型語義分割精確度。即改進Basic Block塊和PPM模塊提升了HRNet的圖片分割能力。
三種方案分割效果如圖5所示,最終方案相較于方案一、方案二,對細節(jié)更加敏感,尤其是多目標的圖像中誤判情況較少,并且全局信息獲取能力更強。
2.4" 對比實驗
為驗證改進HRNet的實際效果,與當前主流語義分割模型(HRNet、MobileNetv3[18]、DeepLabv3_plus[19]、DDRNet[20])進行了對比實驗。表3顯示了不同模型的實驗結(jié)果。由表3可知,本文算法在PASCAL VOC2012數(shù)據(jù)集中各項指標值高于目前主流模型,驗證了本文算法在語義分割上的優(yōu)勢。不同模型分割效果圖如圖6所示。
分析圖6,由第一行和第三行圖片可以看出,本文算法對于物體的邊緣分割更加精密,第三行圖片中HRNet、DeepLabv3_plus、DDRNet都存在將馬身錯判為人的情況,而MobileNetv3則是把人錯判為馬,本文算法則明顯區(qū)分了人和馬。由第二行圖片可以看出,在不同物體接觸時,本文算法對于接觸物體的邊緣分割更加精確。
3" 結(jié)" 論
本文針對現(xiàn)有語義分割存在的問題,提出了一種基于改進HRNet和金字塔池化模塊的圖像語義分割方法并進行實驗驗證,得到如下結(jié)論。
1) 通過引入大核深度卷積,將HRNet中Basic Block塊中第一個3×3替換為5×5卷積核,提高了模型殘差模塊的細節(jié)特征提取能力。
2) 引入了金字塔池化模塊,減少子域間上下文信息丟失,兼顧全局語義信息與局部細節(jié)信息。
本文設(shè)計的模型實現(xiàn)了aAcc精度2.67%的提升,其他各項指標也有顯著提升,并且性能優(yōu)于主流語義分割模型,具有一定的實際應(yīng)用價值。
注:本文通訊作者為劉曉悅。
參考文獻
[1] STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 7242?7252.
[2] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 3431?3440.
[3] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder?decoder architecture for image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481?2495.
[4] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer?assisted Intervention. Heidelberg: Springer, 2015: 234?241.
[5] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834?848.
[6] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1706.05587.
[7] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 833?851.
[8] SUN K, ZHAO Y, JIANG B R, et al. High?resolution representations for labeling pixels and regions [EB/OL]. [2023?11?13]. http://arxiv.org/abs/1904.04514.
[9] 岳明齊,張迎春,吳立杰,等.基于可變形卷積技術(shù)的街景圖像語義分割算法[J].計算機仿真,2024,41(3):219?226.
[10] 史健鋒,高治明,王阿川.結(jié)合ASPP與改進HRNet的多尺度圖像語義分割方法研究[J].液晶與顯示,2021,36(11):1497?1505.
[11] Lü C Q, ZHANG W W, HUANG H A, et al. RTMDet: An empirical study of designing real?time object detectors [EB/OL]. [2025?02?20]. https://doi.org/10.48550/arXiv.2212.07784.
[12] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 6230?6239.
[13] EVERINGHAM M, ESLAMI S M A, VAN GOOL L, et al. The pascal visual object classes challenge: A retrospective [J]. International journal of computer vision, 2015, 111(1): 98?136.
[14] WANG J D, SUN K, CHENG T H, et al. Deep high?resolution representation learning for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 43(10): 3349?3364.
[15] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020?04?28]. https://arxiv.org/abs/2004.10934.
[16] DING X H, ZHANG X Y, HAN J G, et al. Scaling up your kernels to 31×31: Revisiting large kernel design in CNNs [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 11963?11975.
[17] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s [EB/OL]. [2022?01?20]. https://arxiv.org/abs/2201.03545.
[18] KOONCE B. MobileNetV3 [M]// KOONCE B. Convolutional Neural Networks with Swift for Tensorflow. Berkeley, CA, USA: Apress, 2021: 125?144.
[19] LIU Y Y, BAI X T, WANG J F, et al. Image semantic segmentation approach based on DeepLabV3 plus network with an attention mechanism [J]. Engineering applications of artificial intelligence, 2024, 127: 107260.
[20] YAN S, WU C L, WANG L Z, et al. DDRNet: Depth map denoising and refinement for consumer depth cameras using cascaded CNNs [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 155?171.
作者簡介:師佳琪(2000—),男,河北保定人,在讀碩士研究生,研究方向為檢測技術(shù)與自動化裝置。
劉曉悅(1965—),女,河北唐山人,博士研究生,研究方向為復(fù)雜系統(tǒng)建模與控制。
收稿日期:2024?05?27" " " " " "修回日期:2024?06?19
基金項目:河北省重點基金項目(SJMYF202401);國家自然科學基金項目(42274056)