董紅月,張興忠,趙杰倫
太原理工大學(xué) 軟件學(xué)院,太原 030024
由于工業(yè)結(jié)構(gòu)(如道路、橋梁、電力元件等)長期工作于疲勞應(yīng)力、周期性載荷等惡劣環(huán)境中,其結(jié)構(gòu)表面上極易出現(xiàn)裂縫。裂縫會降低局部剛度并導(dǎo)致材料斷裂、性能下降等問題的出現(xiàn),嚴(yán)重影響工業(yè)系統(tǒng)的安全運行。高效精準(zhǔn)的裂縫檢測可以及時發(fā)現(xiàn)缺陷并進(jìn)行處理,對工業(yè)系統(tǒng)的安全運行具有重要意義[1-2]。
以輸配電線路中的瓷瓶為例,瓷瓶是輸配電線路中實現(xiàn)電氣絕緣和機械固定的重要部件,長期工作于強電立場、強機械應(yīng)力、風(fēng)吹日曬等共同構(gòu)成的惡劣環(huán)境中,極易出現(xiàn)裂縫。目前瓷瓶裂縫檢測主要依賴于人工巡檢,檢查員徒步行走并借助雙筒望遠(yuǎn)鏡目視檢查瓷瓶,存在巡檢效率低、勞動強度大、發(fā)現(xiàn)缺陷難,且特殊地形和氣象條件下巡檢困難等問題[3-4]。其他工業(yè)結(jié)構(gòu)也多采用人工檢測方法,效率低且漏檢嚴(yán)重。傳統(tǒng)的裂縫檢測方法已無法滿足日益增長的工業(yè)安全需求。
近幾年來,隨著圖像處理技術(shù)的發(fā)展和無人機等數(shù)據(jù)獲取設(shè)備的實現(xiàn),國內(nèi)外研究者對基于數(shù)字圖像的裂縫檢測進(jìn)行了大量深入的研究[5]。數(shù)字圖像處理技術(shù)(閾值提取法、邊緣檢測算法、濾波器等),根據(jù)裂縫光度、對比度等特征設(shè)定閾值,將裂縫與背景簡單分類。文獻(xiàn)[6]提出了一種基于二次閾值分割技術(shù)的裂縫檢測方法,通過閾值分割算法去除道路標(biāo)記并進(jìn)行圖像分割;文獻(xiàn)[7]通過改進(jìn)的Canny算子抑制干擾物邊緣點,并設(shè)置相對閾值去除噪聲;該類方法難以選定通用的閾值,準(zhǔn)確度不高,且對光照、陰影、噪聲等敏感,在背景復(fù)雜時性能有限。機器學(xué)習(xí)方法(支持向量機(support vector machine,SVM)、隨機森林等),通過人工設(shè)計裂縫特征,對提取的特征進(jìn)行分類。文獻(xiàn)[8]提出了一種基于隨機結(jié)構(gòu)森林的道路裂縫檢測框架CrackForest,該框架提出了一種裂縫描述子來描述裂縫并將其與噪聲進(jìn)行區(qū)分;文獻(xiàn)[9]利用基于多重特征的噪聲濾波方法以及基于SVM的特征分類法對裂縫圖像各成分進(jìn)行分類提取;該類方法需要人工設(shè)計裂縫特征,難以設(shè)計出適用于所有路面的通用特征,導(dǎo)致算法的適應(yīng)性和擴(kuò)展性較差。
基于深度學(xué)習(xí)的圖像處理技術(shù)主要包括目標(biāo)檢測和語義分割。目標(biāo)檢測使用滑動窗口卷積網(wǎng)絡(luò),預(yù)測是否包含裂縫。文獻(xiàn)[10]提出了一種基于視覺的方法,利用卷積神經(jīng)網(wǎng)絡(luò)來檢測裂縫,不需要缺陷特征計算方法但需要大量的訓(xùn)練數(shù)據(jù)來訓(xùn)練一個魯棒分類器;文獻(xiàn)[11]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的裂縫分類模型,結(jié)合窗口滑動算法對裂縫進(jìn)行檢測;該類方法以矩形框精準(zhǔn)定位裂縫,但由于裂縫的分布路徑、形狀和密度是不規(guī)則的,無法提供裂縫的高精度測量信息。語義分割是像素級檢測,基于圖像的每一個像素進(jìn)行預(yù)測。文獻(xiàn)[12]提出了特征金字塔和層次增強網(wǎng)絡(luò)(feature pyramid and hierarchical boosting network,F(xiàn)PHBN),對樣本進(jìn)行重新加權(quán),以平衡簡單樣本和困難樣本對損失函數(shù)造成的影響;文獻(xiàn)[13]提出了一種端到端可訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)DeepCrack,該網(wǎng)絡(luò)由全卷積網(wǎng)絡(luò)和深度監(jiān)督網(wǎng)絡(luò)組成,并采用引導(dǎo)濾波細(xì)化結(jié)果,在所提出的數(shù)據(jù)集上取得了很好的結(jié)果;該類方法為進(jìn)一步測量裂縫相關(guān)信息提供可能性,但由于語義分割基于獨立的像素進(jìn)行檢測,無法提供足夠的上下文信息引導(dǎo)預(yù)測,存在對細(xì)小裂縫檢測性能不足、孤立噪點等問題。
針對以上問題,本文提出了一種新的工業(yè)裂縫分割網(wǎng)絡(luò)——可逆金字塔和平衡注意力網(wǎng)絡(luò)(reversible pyramid and balanced attention network,RPBAN)。首先基于U-Net[14]進(jìn)行改進(jìn),構(gòu)建小樣本、像素級的檢測模型,解決數(shù)據(jù)不足的問題并為高精準(zhǔn)的裂縫測量提供可能性;其次提出可逆金字塔模塊(reversible pyramid model,RPM),在編碼器-解碼器階段引入特征金字塔(feature pyramid module,F(xiàn)PM)[15]與進(jìn)行改進(jìn)后的倒-特征金字塔(inverted feature pyramid module,IFPM),加深全局特征與細(xì)節(jié)特征的融合,解決細(xì)小裂縫檢測性能不足的問題;然后在解碼階段引入平衡注意力模塊(balanced attention model,BAM),將平衡特征作為引導(dǎo)信息,解決孤立噪點的問題;最后選取Focal Loss[16]作為損失函數(shù),控制正負(fù)樣本在訓(xùn)練中所占的權(quán)重,使模型更專注于裂縫樣本,解決類不平衡帶來的“虛假”損失率的問題。通過在自建的輸配電線路瓷瓶裂縫數(shù)據(jù)集和三個具有挑戰(zhàn)性的公開裂縫數(shù)據(jù)集上對本文提出的RPBAN進(jìn)行驗證和測試,實驗表明,與其他基準(zhǔn)方法相比,RPBAN能夠?qū)崿F(xiàn)更高精度的工業(yè)裂縫語義分割。
為實現(xiàn)高效精準(zhǔn)的工業(yè)裂縫分割,本文提出的工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN采用了編碼器-解碼器框架,如圖1所示。RPBAN由4部分組成:
圖1 工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN結(jié)構(gòu)Fig.1 Architecture of RPBAN
(1)基于U-Net的編碼器體系結(jié)構(gòu)(Conv1~Conv5),用于分層特征提?。?/p>
(2)可逆金字塔模塊RPM(FPM1~FPM4,IFPM1~I(xiàn)FPM4),用于特征融合;
(3)平衡注意力模塊BAM,用于檢測引導(dǎo);
(4)基于U-Net的解碼器體系結(jié)構(gòu)(Deconv1~Deconv5),用于特征解析,得到預(yù)測結(jié)果。
RPBAN的特點主要表現(xiàn)在2個方面:
(1)RPM基于FPM進(jìn)行改進(jìn),將深層的語義特征融入到淺層的細(xì)節(jié)特征中,并將更新后的淺層特征提取、融合復(fù)用;
(2)BAM將平衡特征分支引入注意力機制中,使不同層級的特征有效連接以平衡深層特征與淺層特征,進(jìn)而在計算過程中增強引導(dǎo)信息。
在構(gòu)建模型時,由于存在工業(yè)裂縫圖像不易獲取、數(shù)據(jù)不足的問題,選取了U-Net網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),其網(wǎng)絡(luò)的實用性以及從少量數(shù)據(jù)中學(xué)習(xí)的能力,可以有效解決工業(yè)裂縫數(shù)據(jù)少的問題。U-Net網(wǎng)絡(luò)基于編碼器-解碼器結(jié)構(gòu),通過拼接的方式實現(xiàn)淺層信息與深層信息的特征融合,在每個階段都允許解碼器學(xué)習(xí)編碼器的特征,保留在池化中丟失的相關(guān)信息。U-Net網(wǎng)絡(luò)的核心思想是跳躍連接機制,將前后層級跨層連接,使得細(xì)節(jié)特征在網(wǎng)絡(luò)流動中得到保留。在搭建本文所提網(wǎng)絡(luò)時,利用跳躍連接機制將不同模塊按級別跨層連接,加強全局特征與細(xì)節(jié)特征的保留,將模型各部分高效整合,并使信息在整個網(wǎng)絡(luò)流動起來,使得檢測性能得到有效提升。
將裂縫圖像輸入編碼器網(wǎng)絡(luò),以提取不同深度的特征。不同深度對應(yīng)著不同層次的語義特征,淺層網(wǎng)絡(luò)分辨率高,學(xué)的更多是細(xì)節(jié)特征;深層網(wǎng)絡(luò)分辨率低,學(xué)的更多是語義特征。編碼器模塊包括5個卷積層Conv1~Conv5。該模塊輸入圖像尺寸為256×256×1,每個卷積層都采用了兩個3×3的卷積核,通道數(shù)分別為64、128、256、512和1 024。每經(jīng)過一個卷積層,輸出特征圖尺寸縮小為輸入特征圖的1/2,通道數(shù)增加一倍。該模塊輸出特征圖尺寸為16×16×1 024。
解碼器模塊包括5個反卷積層Deconv1~Deconv5。每個反卷積層都采用了兩個3×3的卷積核,通道數(shù)分別為1 024、512、256、128和64。該模塊每層的輸入為其他模塊對應(yīng)層級輸出特征圖的連接結(jié)果。每經(jīng)過一個反卷積層,輸出特征圖尺寸擴(kuò)大為輸入特征圖的2倍,通道數(shù)縮減1/2。最后一層采用了三個3×3卷積與一個1×1卷積,獲取最終的裂縫檢測結(jié)果,輸出圖像尺寸為256×256×1。
實驗中存在細(xì)小裂縫檢測性能不足的問題,其產(chǎn)生原因是語義分割基于獨立像素檢測缺少全局特征,且計算過程中包含一系列卷積、池化操作容易損失細(xì)節(jié)特征,而裂縫在圖像中呈細(xì)長狀,在檢測時需要同時兼顧全局特征與細(xì)節(jié)特征。針對以上問題,本文構(gòu)建了可逆金字塔模塊,該模塊基于特征金字塔進(jìn)行改進(jìn),RPM將特征金字塔功能性倒置轉(zhuǎn)化為倒-特征金字塔,并將兩者按特定規(guī)則結(jié)合在一起。在模塊中,特征金字塔提取分層特征并將深層特征引入到淺層,將深層包含的上下文信息融入淺層的細(xì)節(jié)信息中;倒-特征金字塔連接在特征金字塔之后,利用更新后的分層特征再次進(jìn)行特征提取,并與特征金字塔進(jìn)行功能合并操作,加深上下文信息與細(xì)節(jié)信息的融合,使模型在保留細(xì)節(jié)特征的同時,增強全局特征,有效提升細(xì)小裂縫的檢測性能。
RPM包括FPM和IFPM,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。FPM主要包括自底向上和自頂向下兩個過程。自底向上過程主要利用卷積、池化對輸入圖像C1進(jìn)行前饋計算,形成一個分辨率遞減、維度遞增的特征金字塔{C2,C3,C4,C5}。自頂向下過程則以{C1,C2,C3,C4,C5}為輸入,通過上采樣和橫向連接的方式構(gòu)建與自底向上特征金字塔逐級對應(yīng)的特征圖{F1,F2,F3,F4,F5}。IFPM以FPM輸出的特征圖{F1,F2,F3,F4,F5}為輸入,通過下采樣和橫向連接的方式構(gòu)建與自頂向下特征金字塔逐級對應(yīng)的特征圖{I1,I2,I3,I4,I5}。
圖2 可逆金字塔結(jié)構(gòu)Fig.2 Architecture of RPM
FPM與編碼器逐級相連,包括FPM1~FPM4四層,每層都采用了一個3×3的卷積核,通道數(shù)分別為512、256、128和64。其每層的輸入為編碼器對應(yīng)層級輸出特征圖與特征金字塔鄰近層輸出特征圖的連接結(jié)果,連接操作如圖3所示(以FPM3為例)。其輸入是編碼器對應(yīng)層級Conv3輸出的特征圖C3(尺寸為64×64×256)和金字塔鄰近層FPM4輸出的特征圖F4(尺寸為32×32×512),首先對F4進(jìn)行上采樣操作,然后將其結(jié)果與C3連接,生成特征圖F3'(尺寸為64×64×512)輸入到FPM3中。
圖3 特征金字塔的連接操作Fig.3 Connection operation of FPM
IFPM與FPM逐級相連,包括IFPM1~I(xiàn)FPM4四層,每層都采用了一個3×3的卷積核,通道數(shù)分別為64、128、256和512。其每層的輸入為編碼器對應(yīng)層級輸出特征圖、特征金字塔對應(yīng)層級輸出特征圖與倒-特征金字塔鄰近層輸出特征圖的連接結(jié)果,連接操作如圖4所示(以IFPM3為例)。其輸入是編碼器對應(yīng)層級Conv3輸出的特征圖C3(尺寸為64×64×256)、特征金字塔對應(yīng)層級FPM3輸出的特征圖F3(尺寸為64×64×256)和倒-金字塔鄰近層IFPM2輸出的特征圖I2(尺寸為32×32×512),首先對I2進(jìn)行下采樣操作,然后將其結(jié)果與C3、F3連接,生成特征圖I3'輸入到IFPM3中。
圖4 倒-特征金字塔的連接操作Fig.4 Connection operation of IFPM
RPM的輸出特征圖表示為:
式中,γn為第n個經(jīng)IFPM結(jié)構(gòu)融合后的特征圖;h(?)為IFPM結(jié)構(gòu)函數(shù);w(?)是雙線性采樣函數(shù);φn為第n個經(jīng)FPM結(jié)構(gòu)融合后的特征圖;g(?)為FPM結(jié)構(gòu)函數(shù);v(?)是雙線性插值函數(shù);f1×1為卷積核為1×1大小的卷積層;f3×3為卷積核為3×3大小的卷積層;φn為特征提取網(wǎng)絡(luò)的第n層特征圖;I為原始圖像;fn為特征提取網(wǎng)絡(luò)的第n個卷積函數(shù)。
實驗中發(fā)現(xiàn)裂縫檢測存在孤立噪點的問題,其產(chǎn)生原因是獨立像素級分類模型基于局部特征提取相關(guān)信息,無法很好地描述裂縫區(qū)域的空間關(guān)系,缺少全局特征。為了解決這個問題,引入了平衡注意力機制,在特征圖中平衡細(xì)節(jié)特征與語義特征,加強獲取全局相關(guān)性的能力,進(jìn)而在計算過程中增強引導(dǎo)信息消除孤立噪點。
BAM基于注意力機制[17]進(jìn)行改進(jìn),并將其與平衡特征分支[18]及RPM相結(jié)合,其結(jié)構(gòu)如圖5所示。BAM共包含f、g、h三個子分支,其中f子分支為特征金字塔分支,輸出為FPM1輸出的特征圖Bf(即F1);g子分支為平衡特征分支,輸出為平衡特征圖Bg;h子分支為解碼器分支,輸出為Deconv1輸出的特征圖Bh。首先將f和g子分支用于計算注意力特征圖Ba,該圖包含每個成對的局部塊的交互信息;其次將h子分支用于獲取圖像的常規(guī)卷積特征圖Bh;然后將Ba與Bh相乘,獲取最終的平衡注意力特征圖Bs。
圖5 平衡注意力結(jié)構(gòu)Fig.5 Architecture of BAM
平衡特征分支作為g子分支,將不同層級的特征連接,平衡語義特征與細(xì)節(jié)特征,使得特征圖中深層特征與淺層特征相互補充,增強裂縫注意力,提升檢測性能,其結(jié)構(gòu)如圖6所示。首先將不同層級的特征圖{I1,I2,I3,I4,I5}經(jīng)過上采樣操作后生成尺寸相同的特征圖層,然后將特征圖層進(jìn)行連接,并對連接結(jié)果進(jìn)行特征提取,生成特征圖Bg(尺寸為256×256×64)。
圖6 平衡特征分支結(jié)構(gòu)Fig.6 Architecture of balanced feature branch
BAM的輸出特征圖表示為:
式中,x∈RD×N是編碼層輸出的特征,即原始特征;v是超參數(shù),用于平衡原始特征與自我注意特征;o是自我注意特征,按照以下過程計算。首先設(shè)f、g、h三個子分支的映射公式分別為式(5)~(7),式中Wf、Wg、Wh為三個子分支的權(quán)重矩陣,bf、bg、bh為偏差,用于提高自我注意機制的表達(dá)能力。將原始特征按照式(5)~(7)分別進(jìn)行不同的特征映射得到新的特征圖。
然后按照式(8)、式(9)計算圖像中不同局部區(qū)域之間的關(guān)系,s(i,j)表示f(x)與g(x)兩個特征圖形成的特征組合,r(j,i)表示模型在表示第j塊時對第i塊的關(guān)注程度。
為驗證RPBAN的有效性和通用性,本文在一個瓷瓶裂縫數(shù)據(jù)集InsulatorCrack和三個公共裂縫數(shù)據(jù)集CrackForest-Dataset(CFD)[8]、CrackTree200[19]和AEL[20]上進(jìn)行了測試。在實際使用數(shù)據(jù)時,首先對其進(jìn)行resize處理統(tǒng)一數(shù)據(jù)大小,然后輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,resize處理后圖像尺寸為256×256×1,如圖7。
2.1.1 InsulatorCrack數(shù)據(jù)集
本文首先對國家電網(wǎng)公司無人機巡檢過程中所拍攝的瓷瓶巡檢照片進(jìn)行采集整理,將圖像大小統(tǒng)一調(diào)整為512×512像素。其次,在巡檢專家指導(dǎo)下使用Labelme標(biāo)注工具對整理后的114張瓷瓶巡檢圖像進(jìn)行標(biāo)注。該數(shù)據(jù)集命名為InsulatorCrack,分為84張訓(xùn)練圖像、15張驗證圖像和15張測試圖像,部分示例見圖7(a)。由于圖像數(shù)量有限,對現(xiàn)有數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強,通過對圖像進(jìn)行微小的改變(旋轉(zhuǎn)、移位、翻轉(zhuǎn)、縮放等),在擴(kuò)增數(shù)據(jù)的同時,還可以阻止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不相關(guān)的特征,從根本上提升整體性能。
圖7 工業(yè)裂縫數(shù)據(jù)集Fig.7 Industrial crack dataset
2.1.2 公共裂縫數(shù)據(jù)集
CFD數(shù)據(jù)集由118張北京城市路面裂縫圖像組成,每個圖像大小為480×320像素,其中訓(xùn)練集包含88張圖像,驗證集包含15張圖像,測試集包含15張圖像,部分示例見圖7(b)。
CrackTree200數(shù)據(jù)集包含206張裂縫圖像,每個圖像大小為800×600像素,面臨陰影、遮擋、低對比度等挑戰(zhàn),其中訓(xùn)練集包含166張圖像,驗證集包含20張圖像,測試集包含20張圖像,部分示例見圖7(c)。
AEL數(shù)據(jù)集包含58張路面裂縫圖像,其中訓(xùn)練集包含38張圖像,驗證集包含10張圖像,測試集包含10張圖像,部分示例見圖7(d)。
2.2.1 實驗方法
本文實驗采用RedHat 4.8.5-39操作系統(tǒng)、GeForce RTX 2080 Ti顯卡進(jìn)行模型訓(xùn)練。所提出的方法基于TensorFlow和Keras實現(xiàn),其中,TensorFlow采用2.1.0版本,keras采用2.3.1版本,CUDA采用10.1版本,CUDNN采用7.6.5版本。在訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.000 1,優(yōu)化器選用Adam,損失函數(shù)采用Focal Loss函數(shù),α設(shè)置為0.25,η設(shè)置為2。
為驗證RPBAN在工業(yè)裂縫檢測中的有效性,將本文模型與其他模型進(jìn)行了比較,包括U-Net、FPHBN和DeepCrack。U-Net與本文基礎(chǔ)網(wǎng)絡(luò)保持一致;FPHBN基于HED引入特征金字塔與分層提升模塊,按照文獻(xiàn)[12]設(shè)置;DeepCrack基于U-Net引入分層卷積模塊,按照文獻(xiàn)[13]設(shè)置。這3種模型數(shù)據(jù)增強和訓(xùn)練方法均采用上述方法。
2.2.2 損失函數(shù)
實驗中存在損失率很小但精確度不高的問題,這是由于工業(yè)裂縫圖像中裂縫所占比例極小且特征復(fù)雜,而非裂縫占圖像的大部分且多容易分類,正負(fù)樣本極度不平均,負(fù)樣本Loss值主導(dǎo)整個梯度下降,因此模型的優(yōu)化方向并不是人們所希望的那樣。針對這個問題,本文利用Focal Loss來有效優(yōu)化檢測模型。Focal Loss通過控制正負(fù)樣本在訓(xùn)練中所占的權(quán)重,對小類別給予較大懲罰因子并對大類別給予較小懲罰因子,使得模型更專注于裂縫樣本,模型對裂縫具有更高的靈敏度,緩解了樣本不平衡帶來的問題。Focal Loss定義為式(11):
式中,W與H分別表示圖像的寬度與高度,y(w,h)與y?(w,h)分別表示圖像中(w,h)像素的標(biāo)簽與預(yù)測,α與η是兩個超參數(shù),用于控制權(quán)重。實驗發(fā)現(xiàn)當(dāng)α設(shè)置為0.25,η設(shè)置為2時取得最優(yōu)結(jié)果。
2.2.3 評估指標(biāo)
本文采用精確率(precision,P)、召回率(recall,R)與交并比(intersection over union,IoU)作為評估指標(biāo)對瓷瓶裂縫檢測結(jié)果進(jìn)行定量分析。精確率P是正確預(yù)測為真的樣本數(shù)占全部預(yù)測為真的樣本數(shù)的比例,衡量“找的對”程度,定義為:
召回率R是正確預(yù)測為真的樣本數(shù)占全部實際為真的樣本數(shù)的比例,衡量“找的全”程度,定義為:
交并比IoU是預(yù)測為真與實際為真樣本的交并比,衡量裂縫預(yù)測結(jié)果與真實情況的重疊程度,定義為:
其中,TP、FP、FN分別表示真正例(true positive)、假正例(false positive)、假反例(false negative),其定義如表1所示。
表1 分類結(jié)果混淆矩陣Table 1 Confusion matrix
2.3.1 消融實驗結(jié)果
對RPBAN中Focal Loss、RPM和BAM這3個模塊的有效性進(jìn)行了實驗驗證和分析,實驗結(jié)果如表2所示。比較表2結(jié)果可以發(fā)現(xiàn),采用Focal Loss損失函數(shù),模型在指標(biāo)R、IoU方面分別提升了13.69、3.11個百分點;增加RPM模塊,各指標(biāo)分別提升了0.56、1.86、1.99個百分點;增加BAM模塊,各指標(biāo)分別提升了3.57、2.85、5.62個百分點,本文所提出的RPBAN與基礎(chǔ)網(wǎng)絡(luò)U-Net相比各指標(biāo)分別獲得了3.58、18.4、10.72個百分點的增量,證明了本文提出的各模塊在瓷瓶裂縫檢測中的有效性。其部分對比結(jié)果如圖8(e)~(h)所示。從圖中可以看出,加入RPM和BAM模塊后的檢測模型裂縫檢測更完整,細(xì)節(jié)更豐富,尤其是細(xì)小裂縫檢測性能不足與孤立噪點的問題都得到了有效解決,以上實驗結(jié)果驗證了所提出組件的有效性。
表2 消融實驗定量比較結(jié)果Table 2 Quantitative comparison results of ablation experiments
本文方法的訓(xùn)練過程損失變化圖與指標(biāo)變化圖分別如圖9與圖10。該方法共訓(xùn)練50個epoch,每個epoch訓(xùn)練300代,共迭代15 000次,各損失在訓(xùn)練過程中趨于收斂。隨著訓(xùn)練的進(jìn)行,IoU指標(biāo)穩(wěn)步上升,最終達(dá)到61.42%。
圖9 RPBAN訓(xùn)練過程損失變化圖Fig.9 Changes in loss during RPBAN training
圖10 RPBAN訓(xùn)練過程各指標(biāo)變化圖Fig.10 Changes in precision,recall,IoU during RPBAN training
2.3.2 對比實驗結(jié)果
各對比方法在InsulatorCrack測試集上裂縫檢測結(jié)果的定量比較如表3所示。從表中可以看出,RPBAN的指標(biāo)P、R、IoU皆為對比模型中最高,其中指標(biāo)P分別比其他模型高3.58、2.38、10.48個百分點,指標(biāo)R分別高18.4、2.38、5.65個百分點,IoU分別高10.72、3.92、8.73個百分點,驗證了本文模型在瓷瓶裂縫檢測中的優(yōu)越性。圖8(c)~(e)、(h)是各模型在InsulatorCrack測試集上的部分檢測結(jié)果。在圖像裂縫清晰且干擾較少時,U-Net、FPHBN、DeepCrack和RPBAN都能夠較準(zhǔn)確地檢測出裂縫,如圖8中第1~2行所示,但當(dāng)圖像中裂縫較復(fù)雜或背景干擾較大時,各模型出現(xiàn)了不同程度的裂縫檢測不連續(xù)或孤立噪點,如圖8中第3~6行所示,但本文模型RPBAN則基本能夠保持裂縫的完整性,細(xì)節(jié)表現(xiàn)更好。InsulatorCrack數(shù)據(jù)集上各對比方法IoU指標(biāo)變化如圖11所示,從圖中可見RPBAN瓷瓶裂縫檢測性能最好。
圖8 InsulatorCrack數(shù)據(jù)集上定性比較結(jié)果Fig.8 Qualitative comparison results on InsulatorCrack dataset
圖11 InsulatorCrack數(shù)據(jù)集上IoU指標(biāo)變化圖Fig.11 Changes in loss on InsulatorCrack dataset
表3 InsulatorCrack數(shù)據(jù)集上定量對比結(jié)果Table 3 Quantitative comparison results on InsulatorCrack
為了驗證RPBAN的有效性與通用性,分別在CFD、CrackTree200和AEL數(shù)據(jù)集上將訓(xùn)練好的RPBAN與U-Net、FPHBN、DeepCrack方法進(jìn)行比較分析。各對比方法定量比較結(jié)果如表4所示。從表中可以看出,RPBAN的指標(biāo)IoU在各數(shù)據(jù)集上分別達(dá)到了58.36%、64.45%、53.44%,與各模型相比仍保持優(yōu)勢,說明了本文模型在裂縫檢測中的有效性與優(yōu)越性。圖12所示為各數(shù)據(jù)集上部分定性比較結(jié)果,前5行是CFD數(shù)據(jù)集,中間5行是CrackTree200數(shù)據(jù)集,后5行是AEL數(shù)據(jù)集。從圖中可以看出CFD數(shù)據(jù)集上,各對比方法細(xì)節(jié)損失較為嚴(yán)重,與之相比RPBAN細(xì)節(jié)表現(xiàn)更好;CrackTree200數(shù)據(jù)集上,對比方法檢測結(jié)果存在孤立噪點與細(xì)小裂縫消失問題,RPBAN與真實結(jié)果更為接近;AEL數(shù)據(jù)集上,對比方法受背景噪聲影響尤為嚴(yán)重,與之相比RPBAN檢測結(jié)果更好。由此可見RPBAN在細(xì)小裂縫檢測與孤立噪點消除方面較其他模型更為優(yōu)異。以上實驗結(jié)果均證明了所提出方法的有效性和優(yōu)越性。
表4 公開數(shù)據(jù)集上定量對比結(jié)果Table 4 Quantitative comparison results on public datasets
本文提出了一種新的工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN,實現(xiàn)了高效精準(zhǔn)的工業(yè)裂縫語義分割。RPBAN基于U-Net網(wǎng)絡(luò),在編碼器與解碼器之間增加可逆金字塔模塊,在解碼階段引入平衡注意力模塊,建立小樣本、像素級的工業(yè)裂縫分割網(wǎng)絡(luò),解決了孤立噪點、細(xì)小裂縫檢測性能不足的問題;同時選取Focal Loss作為損失函數(shù),解決了類不平衡帶來的“虛假”損失率的問題。最后,在四個數(shù)據(jù)集上進(jìn)行評估,實驗結(jié)果驗證了所提方法的有效性、優(yōu)越性與通用性。下一步將在本文所提方法的基礎(chǔ)上繼續(xù)進(jìn)行瓷瓶裂縫測量的相關(guān)研究,對瓷瓶裂縫相關(guān)信息進(jìn)行精細(xì)化測量。