馮文彬,厲舒南,田 昊,楊 鑫,馬 超,于重重
(1.中煤科工集團(tuán)沈陽研究院有限公司,遼寧 撫順 113122;2.煤礦安全技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,遼寧 撫順 113122;3.北京工商大學(xué)人工智能學(xué)院,北京 100048)
近年來,計(jì)算機(jī)視覺算法不斷發(fā)展,圖像語義分割算法在煤礦井下圖像方面產(chǎn)生了大量的研究成果[1-4],雖然現(xiàn)有的語義分割算法在能見度良好的圖像上分割結(jié)果較好,但在低能見度的煤礦井下圖像上的分割精度較差。而且經(jīng)過清晰化處理之后的煤礦井下圖像仍然存在邊緣不清晰等問題,從而影響分割的精度。
對(duì)于基于深度學(xué)習(xí)的煤礦圖像語義分割,依據(jù)訓(xùn)練方法和數(shù)據(jù)集的標(biāo)簽形式的不同,主要分為以強(qiáng)監(jiān)督、弱監(jiān)督和無監(jiān)督為基礎(chǔ)的方法。現(xiàn)有的語義分割模型多是采用強(qiáng)監(jiān)督方法,帶有標(biāo)簽的訓(xùn)練圖像包含大量的語義信息,像素分類時(shí)可以利用充分的局部全局信息,因此強(qiáng)監(jiān)督語義分割模型現(xiàn)在使用最頻繁,且分割精度也能達(dá)到最好。強(qiáng)監(jiān)督學(xué)習(xí)的語義分割方法主要分為:擴(kuò)大感受野法[5-6]、概率圖模型法[7]、特征融合法[8-10]、編碼-解碼器法[11-14]和生成對(duì)抗網(wǎng)絡(luò)法[15-16]。Zhao 等人[17]基于特征融合的方法提出了PSPNet,空間金字塔池化(Spatial Pyramid Pooling,SPP)單元通過級(jí)聯(lián)操作融合多比例的特征圖,提取了足夠多的上下文信息;Lin 等人[18]基于編解碼的方法提出了RefineNet 模型,算法在解碼器中設(shè)計(jì)了多個(gè)路徑,充分利用了不同尺度的特征圖,具有更好的優(yōu)化分割結(jié)果?,F(xiàn)有的圖像語義分割方法在能見度良好的圖像上的語義分割效果良好,但是將它應(yīng)用在清晰化處理之后的煤礦井下圖像上時(shí),存在邊緣不清晰等問題,從而影響分割的精度。為了解決煤礦井下圖像邊緣分割不清晰的問題,提出一種基于融合邊緣優(yōu)化模塊的圖像語義分割方法。
基于融合邊緣優(yōu)化模塊的語義分割模型,基于編解碼的網(wǎng)絡(luò)結(jié)構(gòu),采用多尺度特征融合方法。模型網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1。編碼器部分包括常規(guī)特征提取分支和邊緣優(yōu)化分支2 部分,常規(guī)特征提取分支為標(biāo)準(zhǔn)分割網(wǎng)絡(luò),邊緣優(yōu)化分支以語義邊界的形式處理形狀信息,再融合常規(guī)特征提取分支中的語義區(qū)域特征和邊緣分支中的邊界特征,以提高圖像在邊界部分的分割結(jié)果。解碼器部分采用多路徑優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),由鏈?zhǔn)綒埐畛鼗K和融合模塊構(gòu)成。
圖1 融合邊緣優(yōu)化模塊的模型結(jié)構(gòu)圖Fig.1 Model structure diagram of fusion edge optimization module
為解決煤礦井下塵霧圖像在邊緣處分割精度不高的問題,在網(wǎng)絡(luò)中添加了邊緣優(yōu)化分支,即在原有常規(guī)特征提取分支上并行添加了1 個(gè)邊緣分支,2個(gè)分支之間用門控卷積層進(jìn)行連接,使用常規(guī)特征提取分支中的較高級(jí)別的激活來控制邊緣分支中的較低級(jí)別的激活,從而有效地去除噪聲,使得邊緣分支僅專注于處理相關(guān)的邊界信息。常規(guī)特征提取分支Rθ(I)具有參數(shù)θ,輸入為高度H 和寬度W 的圖像I∈RB×H×W,輸出像素特征。邊緣優(yōu)化分支Sφ具有參數(shù)φ,輸入為圖像梯度▽I 以及常規(guī)特征提取分支第1 個(gè)卷積層的輸出,輸出為生成的語義邊界。邊緣優(yōu)化模塊的網(wǎng)絡(luò)架構(gòu)如圖2。
圖2 邊緣優(yōu)化模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of edge optimization module
邊緣優(yōu)化模塊由門控卷積與3 個(gè)殘差模塊交錯(cuò)構(gòu)成,門控卷積保證邊緣分支僅處理邊界相關(guān)信息,邊緣優(yōu)化分支的輸出邊界圖用S∈RH×W表示,通過殘差結(jié)構(gòu)、門控卷積和監(jiān)督學(xué)習(xí)將注意力只關(guān)注在邊緣輪廓部分,考慮將圖像梯度也加入到網(wǎng)絡(luò)中,因此采用Canny 算子計(jì)算圖像的梯度,對(duì)圖像邊緣進(jìn)行檢測(cè),將檢測(cè)到的邊緣信息與邊緣分支的輸出進(jìn)行融合,并與常規(guī)特征提取分支的輸出一起作為解碼器部分的輸入。
多路徑優(yōu)化網(wǎng)絡(luò)模塊結(jié)構(gòu)圖如圖3。
圖3 多路徑優(yōu)化網(wǎng)絡(luò)模塊結(jié)構(gòu)圖Fig.3 Multi-path optimization network module structure diagram
解碼器部分采用Light-Weight RefineNet[19]中的多路徑優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),由鏈?zhǔn)綒埐畛鼗K和融合模塊構(gòu)成。鏈?zhǔn)綒埐畛鼗K由一系列的池化層與卷積層構(gòu)成,以殘差的形式排列。融合模塊則是對(duì)2 路數(shù)據(jù)分別執(zhí)行卷積并上采樣后求和。解碼器的特點(diǎn)是使用了一定數(shù)量的殘差連接,在整個(gè)語義分割網(wǎng)絡(luò)內(nèi)部形成了短距離連接的同時(shí),還與特征提取網(wǎng)絡(luò)形成了長(zhǎng)距離的連接,不僅有助于訓(xùn)練,還能讓梯度有效傳遞回網(wǎng)絡(luò)中。
門控卷積層是邊緣優(yōu)化分支結(jié)構(gòu)中的核心組件,以方便信息分支從常規(guī)特征提取分支流向邊緣分支,通過過濾其他信息幫助邊緣分支來處理相關(guān)信息。邊緣優(yōu)化分支使用門控卷積層禁止常規(guī)特征提取分支中特性的激活,這些特性的激活被常規(guī)特征提取分支中包含的更高級(jí)別的信息認(rèn)為是無關(guān)的。其中功能更強(qiáng)大的常規(guī)特征提取分支已經(jīng)形成了對(duì)場(chǎng)景的更高層次的語義理解,幫助邊緣分支只關(guān)注相關(guān)部分。這使得邊緣優(yōu)化分支即使采用淺層結(jié)構(gòu),也能以非常高的分辨率有效地處理圖像。
邊緣分支中多次使用門控卷積層,t 為位置編號(hào),t∈0,1,…,m 為運(yùn)行索引,rt和St為門控卷積處理的常規(guī)特征提取分支和邊緣分支的中間表示,‖為特征圖的串聯(lián)。如圖3(c),首先將rt和St連接,然后通過歸一化的1×1 卷積層C1×1和Sigmoid 函數(shù)δ,得到注意力圖αt∈RH×W,表達(dá)式如式(4):
將S^t輸入到邊緣分支中的下一層繼續(xù)處理。門控卷積和注意力映射計(jì)算都是可微的,上采樣常規(guī)特征提取分支中的特征映射時(shí)使用雙線性插值,因此反向傳播的時(shí)候可以實(shí)現(xiàn)端到端。
圖像邊緣信息主要集中在高頻段部分,高頻濾波通常用作圖像銳化或檢測(cè)邊緣。微分運(yùn)算求解信號(hào)的變化率,能夠加強(qiáng)高頻分量。在空域運(yùn)算中,對(duì)圖像的銳化就是計(jì)算微分,數(shù)字圖像的離散信號(hào)導(dǎo)致微分運(yùn)算變成計(jì)算差分或梯度。Canny 邊緣檢測(cè)算子比較常用,它是一種多級(jí)檢測(cè)算法。它通過高斯模糊去除邊界檢測(cè)的高頻噪聲,采用非最大值抑制和雙閾值的方法對(duì)邊緣進(jìn)行細(xì)化,利用滯后邊界跟蹤探索每個(gè)弱邊緣點(diǎn)的周圍8 連通域像素是否有強(qiáng)邊緣點(diǎn)從而判斷是否是真邊緣點(diǎn)。為此,利用Canny 邊緣檢測(cè)算子提取物體的邊緣信息,將信息添加到邊緣優(yōu)化分支輸出的特征圖中,輔助煤礦塵霧圖像輪廓的學(xué)習(xí)。
采用實(shí)際拍攝到的井下煤礦圖像制作煤礦圖像語義分割數(shù)據(jù)集,對(duì)相應(yīng)的類別進(jìn)行語義標(biāo)注,構(gòu)建的煤礦圖像語義分割數(shù)據(jù)集共包括1 800 幅圖像,每張圖像大小為640 像素×480 像素,其中1 300 幅作為訓(xùn)練集,500 幅作為測(cè)試集,共包含4 個(gè)語義分割的類標(biāo)簽,類別分別為:人、鉆桿、打鉆機(jī)器、手板。選擇平均交叉重疊率(mean IOU)作為語義分割圖的評(píng)價(jià)指標(biāo),mIoU 是求解標(biāo)簽值集合和預(yù)測(cè)值集合的交集與并集的比值,通常是基于類別進(jìn)行計(jì)算的,計(jì)算每個(gè)類別的交并比,累加后求平均,得到基于全局的評(píng)價(jià),mIoU 計(jì)算如式(6):
式中:TP 為預(yù)測(cè)正確,預(yù)測(cè)結(jié)果是正類,真實(shí)是正類的個(gè)數(shù);FP 為預(yù)測(cè)結(jié)果是正類的預(yù)測(cè)錯(cuò)誤,真實(shí)是負(fù)類的個(gè)數(shù);FN 為預(yù)測(cè)結(jié)果是負(fù)類的預(yù)測(cè)錯(cuò)誤,真實(shí)是正類的個(gè)數(shù)。
默認(rèn)情況下,選取隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò),對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行300 個(gè)時(shí)期的訓(xùn)練,默認(rèn)的編碼器初始學(xué)習(xí)率設(shè)置為0.000 5,默認(rèn)的解碼器初始學(xué)習(xí)率設(shè)置為0.005,所有試驗(yàn)均在1 個(gè)GPU 上使用默認(rèn)的批處理大小訓(xùn)練為6。在100 和200 個(gè)epoch 之后,將學(xué)習(xí)率降低了1/2,并持續(xù)訓(xùn)練直到300 個(gè)epoch,或者直到更早收斂為止。
為對(duì)煤礦井下圖像語義分割結(jié)果進(jìn)行定量和定性分析。在煤礦圖像測(cè)試集上測(cè)試網(wǎng)絡(luò)模型,并與最近的語義分割方法Light-Weight RefineNet 做了對(duì)比。煤礦圖像數(shù)據(jù)集語義分割原圖如圖4,Light-Weight RefineNet 方法語義分割結(jié)果圖如圖5,本文方法語義分割結(jié)果圖如圖6。
圖4 煤礦圖像數(shù)據(jù)集語義分割原圖Fig.4 Original images of semantic segmentation of coal mine image data set
圖5 Light-Weight RefineNet 方法語義分割結(jié)果圖Fig.5 Semantic segmentation result diagrams of Light-Weight Refinenet method
圖6 本文方法語義分割結(jié)果圖Fig.6 Semantic segmentation result diagrams of this method
對(duì)煤礦井下圖像語義分割結(jié)果進(jìn)行定量分析,圖4 展示了4 張煤礦圖像數(shù)據(jù)集的語義分割原圖。圖4(a)為井下人員背面圖,圖4(b)為井下人員正面圖,圖4(c)為作業(yè)人員更換鉆桿圖,圖4(d)為打鉆機(jī)器圖。圖5 和圖6 分別展示了Light-Weight RefineNet 方法和本文方法在煤礦圖像數(shù)據(jù)集上的語義分割結(jié)果圖,其中圖5(a)和圖6(a)為井下人員背面分割圖,圖5(b)和圖6(b)為井下人員正面分割圖,圖5(c)和圖6(c)為作業(yè)人員更換鉆桿分割圖,圖5(d)和圖6(d)為打鉆機(jī)器分割圖。
由圖4 和圖6 可以看出,提出的融合邊緣優(yōu)化模塊的語義分割算法能夠有效分割煤礦井下中的不同物體,針對(duì)清晰化處理之后的煤礦井下低能見度圖像仍然存在的邊緣不清晰導(dǎo)致分割精度低的問題,本文采用了融合邊緣優(yōu)化模塊的方法,由圖5 和圖6 可以看出提出的語義分割方法在邊緣處的分割效果更準(zhǔn)確。
煤礦圖像語義分割數(shù)據(jù)集平均交叉準(zhǔn)確率見表1,煤礦圖像語義分割數(shù)據(jù)集各類別分割準(zhǔn)確率見表2。
表1 煤礦圖像語義分割數(shù)據(jù)集平均交叉準(zhǔn)確率Table 1 Average cross accuracy of semantic segmentation dataset of coal mine images
表2 煤礦圖像語義分割數(shù)據(jù)集各類別分割準(zhǔn)確率Table 2 Classification accuracy of coal mine images semantic segmentation dataset
從表2 每類的分割準(zhǔn)確率上來看,提出的融合邊緣優(yōu)化模塊的語義分割算法在煤礦圖像語義分割數(shù)據(jù)集上的各個(gè)類別上面準(zhǔn)確率取得了比現(xiàn)有語義分割方法Light-Weight RefineNet 更高的分?jǐn)?shù),表明了提出的融合邊緣優(yōu)化模塊的語義分割算法在煤礦井下中的多個(gè)物體的語義分割上面都能取得較好的結(jié)果,且本文的改進(jìn)對(duì)不同物體的分割結(jié)果均有不同程度的提升,進(jìn)一步證明了提出的邊緣優(yōu)化模塊對(duì)分割結(jié)果起到了一定的優(yōu)化作用。
針對(duì)現(xiàn)有語義分割算法應(yīng)用在清晰化處理之后的低能見度圖像上分割精度低,提出了一種融合邊緣優(yōu)化模塊的語義分割算法。通過將邊緣信息連接為1 個(gè)單獨(dú)的邊緣分支處理分支,融合常規(guī)特征提取分支的常規(guī)信息和邊緣分支的邊緣信息,為邊緣分支采用單獨(dú)的二元交叉熵?fù)p失函數(shù),并與常規(guī)特征提取分支中的損失函數(shù)來共同優(yōu)化模型的分割效果。試驗(yàn)表明:采用不同的特征提取主干網(wǎng)絡(luò)時(shí)語義分割效果的客觀和主觀結(jié)果都較現(xiàn)有算法有所提升, 表明改進(jìn)對(duì)清晰化處理之后的低能見度圖像語義分割效果起到了良好的作用。為進(jìn)一步提高小物體特征的提取,獲取更高的小物體圖像分割精度提供方法支撐。