陳法法,董海飛,潘瑞雪,楊蘊(yùn)鵬,陳保家*
(1.三峽大學(xué) 水電機(jī)械設(shè)備設(shè)計(jì)與維護(hù)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443002;2.國(guó)家大壩安全工程技術(shù)研究中心,湖北 武漢 430010)
水工機(jī)械裝備(如閘門、攔污柵等)長(zhǎng)期服役于水域環(huán)境,受水流沖擊、泥沙沖磨、水體浸泡、干濕交替、水生物侵蝕等水域特殊環(huán)境因素影響,其結(jié)構(gòu)表面會(huì)不可避免地產(chǎn)生銹蝕[1]。通常采用防護(hù)措施和定期維修制度來(lái)延長(zhǎng)其使用壽命。美國(guó)材料與試驗(yàn)學(xué)會(huì)(American Society of Testing Materials, ASTM)曾提出評(píng)定銹蝕性能并確定噴涂修復(fù)計(jì)劃的相關(guān)指南[2];中國(guó)也制定了類似于ASTM的銹蝕等級(jí)評(píng)測(cè)標(biāo)準(zhǔn)[3];其中,銹蝕程度是確定修復(fù)計(jì)劃的重要指標(biāo)因素[4]。
水工機(jī)械裝備的銹蝕程度輕微時(shí),對(duì)其承載能力、剛度和穩(wěn)定性影響極??;但當(dāng)其銹蝕程度嚴(yán)重時(shí),若不及時(shí)采取維修加固措施,則會(huì)縮短其使用壽命,威脅受損結(jié)構(gòu)周圍人員的生命安全。如:美國(guó)加利福尼亞州福爾瑟姆壩溢洪道弧形鋼閘門,由于閘門銹蝕嚴(yán)重,支臂不能有效承載扭曲彎矩,閘門在關(guān)閉時(shí)突然發(fā)生垮塌[5];中國(guó)江西省某水電站運(yùn)行30多年后發(fā)電主閘門因銹蝕嚴(yán)重而全部換新[6]。
傳統(tǒng)上,目視檢查是大型水工機(jī)械裝備常規(guī)的檢測(cè)方式,專業(yè)人員對(duì)銹蝕部位進(jìn)行外觀檢測(cè),并結(jié)合國(guó)家標(biāo)準(zhǔn)樣圖完成綜合測(cè)評(píng)[7]。然而,實(shí)際操作中人們很難近距離接觸銹蝕區(qū)域并進(jìn)行目測(cè)評(píng)估,檢測(cè)結(jié)果具有很強(qiáng)的主觀性。近年來(lái),數(shù)字圖像技術(shù)已開(kāi)始應(yīng)用于大型金屬結(jié)構(gòu)的銹蝕特征檢測(cè),如:Liao等[8]研究了非均勻光照條件下鐵橋表面銹蝕區(qū)域的檢測(cè),使用灰度變異系數(shù)和HIS(hue intensity and saturation)色彩空間下的色相分量作為檢測(cè)時(shí)分組處理的判斷依據(jù)。宋偉等[9]結(jié)合直方圖均衡化、形態(tài)學(xué)處理和RGB色彩空間建立了基于圖像處理技術(shù)的防震錘銹蝕缺陷檢測(cè)方法;為了使數(shù)字圖像技術(shù)更加實(shí)用,還需要結(jié)合模式識(shí)別技術(shù)來(lái)實(shí)現(xiàn)銹蝕區(qū)域及銹蝕程度的智能檢測(cè)和評(píng)估。
深度學(xué)習(xí)通過(guò)逐層特征變換,將原樣本空間的特征表示變換到新特征空間,使得樣本數(shù)據(jù)的內(nèi)在規(guī)律和層次表示更易描述[10]。深度學(xué)習(xí)的特質(zhì)為銹蝕圖像的銹蝕嚴(yán)重程度智能評(píng)估提供了新的思路。韓冬等[11]采用改進(jìn)的輕量化網(wǎng)絡(luò)對(duì)岸橋表面的銹蝕進(jìn)行檢測(cè),能夠分類識(shí)別高、中、低3種尺度的岸橋腐蝕;王達(dá)磊等[12]通過(guò)改進(jìn)的UNet網(wǎng)絡(luò)對(duì)銹蝕圖像進(jìn)行分割,通過(guò)銹蝕面積、銹蝕率等指標(biāo)實(shí)現(xiàn)了銹蝕的定量評(píng)估;Atha等[13]構(gòu)建CNN(convolutional neural networks)模型,使用滑動(dòng)窗口法對(duì)裁剪后的圖像塊進(jìn)行訓(xùn)練,實(shí)現(xiàn)了銹蝕圖像區(qū)域的二值分類。上述方法針對(duì)大面積的銹蝕缺陷取得了一定效果,但對(duì)于時(shí)間跨度較小的細(xì)微銹蝕圖像特征,其識(shí)別準(zhǔn)確率很難滿足工程實(shí)用要求,且實(shí)時(shí)性較差,泛化性不強(qiáng)。在深度學(xué)習(xí)領(lǐng)域,LeNet-5[14]、ZFNet[15]和VGG[16]系列神經(jīng)網(wǎng)絡(luò)是較為經(jīng)典的網(wǎng)絡(luò)模型,ZFNet在AlexNet的基礎(chǔ)上發(fā)展而來(lái),并在2013年大規(guī)模視覺(jué)挑戰(zhàn)賽(Imagenet Large Scale Visual Recognition Challenge,ILSVRC)獲得了優(yōu)異的成績(jī)[17];VGG-16網(wǎng)絡(luò)是牛津大學(xué)和DeepMind公司共同研發(fā)的用于ImageNet數(shù)據(jù)集[18]分類的一種卷積神經(jīng)網(wǎng)絡(luò),在2014年大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽中獲得了優(yōu)異的分類性能[19]。為此,本文將VGG-16網(wǎng)絡(luò)的特征標(biāo)記模式進(jìn)行改進(jìn)并用于銹蝕圖像特征提取,采用RGB和HSV兩種銹蝕色彩空間作為輸入,以VGG-16作為規(guī)整網(wǎng)絡(luò)并嵌入注意力機(jī)制和雙線性池化模塊,通過(guò)注意力機(jī)制的可訓(xùn)練權(quán)重對(duì)銹蝕圖像特征進(jìn)行重新標(biāo)定,結(jié)合雙線性池化使網(wǎng)絡(luò)聚焦于最相關(guān)的細(xì)粒度圖像特征進(jìn)行深度學(xué)習(xí),從而實(shí)現(xiàn)對(duì)時(shí)間跨度較小的細(xì)微銹蝕圖像特征銹蝕等級(jí)的準(zhǔn)確評(píng)估。
研究者在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)探索卷積神經(jīng)網(wǎng)絡(luò)的深度與網(wǎng)絡(luò)模型性能之間的關(guān)系,發(fā)現(xiàn)采用多個(gè)連續(xù)較小的卷積核替代大卷積核,以及采用更深的網(wǎng)絡(luò)層次(即VGGNet)可以在一定程度上提升模型的性能,從而大幅降低錯(cuò)誤率[20]。因此,本文所提網(wǎng)絡(luò)模型將VGG-16作為骨干網(wǎng)絡(luò)并在此基礎(chǔ)上進(jìn)行改進(jìn)。
VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,它由13個(gè)卷積層、5個(gè)最大池化層和3個(gè)全連接層構(gòu)成,其中,卷積層和池化層可以劃分為不同的塊,從左到右依次編號(hào)為block1~5。block1和2均包括2個(gè)卷積層和1個(gè)最大池化層,block3~5均包含3個(gè)卷積層和1個(gè)最大池化層。該模型要求輸入的原始圖片矩陣大小為224×224×3;網(wǎng)絡(luò)結(jié)構(gòu)中所有卷積層的卷積核大小均為3×3,步長(zhǎng)為1;最大池化層均采用2×2的池化核,步長(zhǎng)為2;激活函數(shù)選用ReLU函數(shù)。3個(gè)全連接層依次布置在block5之后,前兩層對(duì)應(yīng)提取圖像中的高層特征信息,第3層的結(jié)果輸入Softmax分類器進(jìn)行概率輸出以便實(shí)現(xiàn)圖像的分類。
圖1 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network architecture of VGG-16
在圖像的識(shí)別與分類領(lǐng)域中,注意力機(jī)制使用可訓(xùn)練的權(quán)重對(duì)特征進(jìn)行重標(biāo)定,調(diào)整不同通道或者不同空間位置之間的權(quán)重,使得網(wǎng)絡(luò)模型聚焦于最相關(guān)特征進(jìn)行深度學(xué)習(xí),抑制弱相關(guān)和不相關(guān)的特征信息[21-22]。本文引入了通道注意力模塊和空間注意力模塊,分別嵌入到兩路網(wǎng)絡(luò)block2和3之間,提高分類模型對(duì)銹蝕顏色和紋理特征的提取能力。
1.2.1 通道注意力機(jī)制
通道注意力需要對(duì)C個(gè)特征通道分配權(quán)重,本文將SENet(squeeze and excitation networks)的擠壓激勵(lì)模塊作為通道注意力的基礎(chǔ)模塊,并采用一個(gè)卷積核大小為1×1的卷積層替代全連接層以減少參數(shù)量。通道注意力機(jī)制分為壓縮、激勵(lì)和特征重標(biāo)定3個(gè)步驟[23]。
在壓縮步驟中,采用全局平均池化對(duì)輸入的特征圖進(jìn)行操作,從而將全局通道特征壓縮成一個(gè)通道描述符zc∈R1×1×C,如下式所示:
式中:uc為輸入通道c的特征圖,uc∈RH×W×C,其特征圖的高度和寬度分別為H和W;Fsq為壓縮函數(shù);zc為通道c的壓縮輸出特征圖。
在激勵(lì)步驟中,對(duì)壓縮步驟之后的輸出特征圖zc使用卷積核大小為1×1的卷積和ReLU激活函數(shù)進(jìn)行非線性表達(dá),再由Sigmoid函數(shù)生成通道注意力權(quán)重 ,從而對(duì)各個(gè)通道建立聯(lián)系,計(jì)算公式如下:
式中,Mc為 通道c的 注意力權(quán)重,F(xiàn)ex為 激勵(lì)函數(shù),f1×1(zc)表示使用大小為1×1的卷積核對(duì)特征圖zc進(jìn)行卷積操作。
在特征重標(biāo)定步驟中,將原始的輸入特征圖uc與通道注意力權(quán)重Mc進(jìn)行逐元素相乘實(shí)現(xiàn)特征映射,從而得到通道注意力加權(quán)圖Fcout∈RH×W×C:
式中,F(xiàn)scale為變換函數(shù)。
本文采用的通道注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 通道注意力模塊Fig.2 Channel attention module
1.2.2 空間注意力機(jī)制
空間注意力模塊需要對(duì)H×W個(gè)特征點(diǎn)分配權(quán)重,本文采用大小為1×1的卷積核對(duì)輸入特征矩陣進(jìn)行特征提取,從而使網(wǎng)絡(luò)模型獲得不同區(qū)域銹蝕形貌的多樣化特征和關(guān)聯(lián)信息??臻g注意力機(jī)制分為壓縮、激勵(lì)和特征重標(biāo)定3個(gè)步驟。
在壓縮步驟中,采用全局最大池化對(duì)輸入的特征圖進(jìn)行操作,從而將全局通道特征壓縮成一個(gè)通道描述符zs∈RH×W×1,計(jì)算方式如下所示:
式中:us為輸入通道序號(hào)為s的特征圖,us∈RH×W×C,s∈[1,C],其特征圖的高度和寬度分別為H和W,通道數(shù)為C;Fsq為壓縮函數(shù); MaxPool 為全局最大池化;zs為通道s的輸出特征圖。
在激勵(lì)步驟中,首先,對(duì)壓縮步驟之后的特征圖zs使用卷積核大小為1×1的卷積操作,以捕獲水平和垂直方向上的銹蝕圖像信息;然后,對(duì)該空間描述符進(jìn)行Sigmoid激活操作,將特征值壓縮至0~1,生成空間注意力權(quán)重圖Ms∈RH×W×1,Ms的計(jì)算公式如下:
式中:Fex為激勵(lì)函數(shù);f1×1(zs)表示使用大小為1×1的卷積核對(duì)特征圖zs進(jìn)行卷積操作。
在特征重標(biāo)定步驟中,將原始的輸入特征圖us與空間注意力權(quán)重Ms進(jìn)行逐元素相乘實(shí)現(xiàn)特征映射,從而得到空間注意力加權(quán)圖Fsout∈RH×W×C:
式中,F(xiàn)scale為變換函數(shù)。
本文采用的空間注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 空間注意力模塊Fig.3 Spatial attention module
在銹蝕圖像分類任務(wù)中,相鄰銹蝕等級(jí)的圖像由于時(shí)間相隔較短而形貌差異小,相同銹蝕等級(jí)圖像由于時(shí)間跨度較長(zhǎng)而形貌差異大。因此,可以將銹蝕圖像等級(jí)分類評(píng)估視為一種細(xì)粒度圖像分類任務(wù)[24]。本文引入細(xì)粒度圖像分類中常用的雙線性池化模塊,以提升網(wǎng)絡(luò)模型對(duì)于具有細(xì)微差異的銹蝕等級(jí)類別的分類效果。
雙線性池化模型采用兩個(gè)結(jié)構(gòu)相同的網(wǎng)絡(luò)分別提取特征,并對(duì)同一位置上的兩個(gè)特征采用雙線性池化進(jìn)行特征融合,其模型表達(dá)式為:
式中:M為雙線性模型;fA和fB為特征提取函數(shù),分別對(duì)應(yīng)CNN網(wǎng)絡(luò)A和CNN網(wǎng)絡(luò)B;P為池化函數(shù);E為分類函數(shù)。
特征提取函數(shù)f可以表示為一個(gè)函數(shù)映射:f:L×I→RC×D,將輸入圖像I和位置區(qū)域L映射成一個(gè)C×D維的特征,C為特征圖的通道數(shù),D為深度。采用一個(gè)雙線性操作將兩個(gè)特征提取函數(shù)得到的兩組特征在每一空間位置l(l∈L)按照矩陣的外積進(jìn)行組合,得到一個(gè)雙線性特征Bk,其計(jì)算公式如下:
式中:k為大于等于1的自然數(shù),其值的范圍由空間位置l的個(gè)數(shù)所確定;fA(l,I)為輸入圖像I至網(wǎng)絡(luò)A,在空間位置l輸出的特征圖;fB(l,I)為輸入圖像I至網(wǎng)絡(luò)B,在空間位置l輸出的特征圖。
池化函數(shù)P通過(guò)累加操作將所有位置的雙線性特征融合,得到原始圖像的一個(gè)全局特征。假設(shè)對(duì)于每個(gè)位置l,特征提取函數(shù)輸出的特征維度分別為a∈RC×X與b∈RC×Y,則池化的雙線性特征是x=aTb,池化函數(shù)P輸出的全局特征大小為X×Y,將其轉(zhuǎn)換成為一個(gè)XY×1 的雙線性向量 Φ(I)作為所提取的特征, Φ(I)計(jì)算公式如下:
本文采用的雙線性池化模型的框架如圖4所示。
圖4 雙線性池化模型Fig.4 Bilinear pooling model
基于VGG-16設(shè)計(jì)了一種用于銹蝕圖像等級(jí)評(píng)估的分類模型,其基本網(wǎng)絡(luò)架構(gòu)如圖5所示,模型分為雙色彩空間圖像輸入、嵌入注意力機(jī)制的VGG-16特征提取網(wǎng)絡(luò)及雙線性池化分類3個(gè)部分。
圖5 銹蝕等級(jí)評(píng)估網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of rust grade evaluation
圖像輸入部分中,根據(jù)文獻(xiàn)[25]可知,RGB中的藍(lán)色分量可反映局部銹蝕亮度變化,HSV中的飽和度分量可反映整體銹蝕顏色變化。因此,選擇將銹蝕圖像分為RGB和HSV兩種色彩空間分別輸入到VGG-16網(wǎng)絡(luò)A、VGG-16網(wǎng)絡(luò)B中進(jìn)行特征提取,以充分利用原始圖像的信息。
特征提取部分中,將傳統(tǒng)VGG-16網(wǎng)絡(luò)去除全連接層后在block2和3之間拆分開(kāi),其中:前半部分每個(gè)block均含2個(gè)卷積,稱為VGG16-F;后半部分每個(gè)block均含3個(gè)卷積,稱為VGG16-L。本文在VGG-16網(wǎng)絡(luò)A的VGG16-F與VGG16-L之間嵌入空間注意力模塊,在RGB空間圖像中提升網(wǎng)絡(luò)對(duì)于局部銹蝕細(xì)節(jié)的學(xué)習(xí);在VGG-16網(wǎng)絡(luò)B的VGG16-F與VGG16-L之間嵌入通道注意力模塊,在HSV空間圖像中提升網(wǎng)絡(luò)對(duì)于整體銹蝕顏色的學(xué)習(xí)。
雙線性池化分類中,采用雙線性池化模塊將兩路網(wǎng)絡(luò)輸出的網(wǎng)絡(luò)特征圖進(jìn)行融合,并將結(jié)果輸入到Softmax分類器進(jìn)行分類識(shí)別,完成銹蝕圖像等級(jí)分類評(píng)估。
基于注意力機(jī)制和雙線性池化的銹蝕圖像等級(jí)分類評(píng)估總體流程如圖6所示,主要包含3個(gè)主要步驟:數(shù)據(jù)集的建立、深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)與訓(xùn)練、分類結(jié)果的評(píng)價(jià)與分析。首先,通過(guò)鹽霧箱加速鋼板產(chǎn)生銹蝕并采集圖像建立數(shù)據(jù)集,將其劃分為訓(xùn)練集和測(cè)試集;然后,采用訓(xùn)練集對(duì)設(shè)計(jì)的銹蝕等級(jí)分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并結(jié)合測(cè)試集對(duì)模型進(jìn)行調(diào)整;最后,通過(guò)測(cè)試集的分類精度對(duì)結(jié)果進(jìn)行分析,同時(shí)引入不同的網(wǎng)絡(luò)模型進(jìn)行對(duì)比,并對(duì)本文所提網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)。
圖6 銹蝕圖像等級(jí)評(píng)估流程Fig.6 Rust image grade evaluation process
為了客觀地評(píng)估本文所構(gòu)建的銹蝕等級(jí)分類評(píng)估模型,選擇準(zhǔn)確率SACC、精確率SPRE、召回率SREC、F1系數(shù)作為評(píng)價(jià)指標(biāo),其計(jì)算公式如下:
式中,TP為預(yù)測(cè)結(jié)果為某個(gè)銹蝕、實(shí)際也為該銹蝕類別的樣本數(shù),F(xiàn)P為預(yù)測(cè)結(jié)果為某個(gè)銹蝕、實(shí)際卻為其他銹蝕類別的樣本數(shù),F(xiàn)N為預(yù)測(cè)結(jié)果為其他銹蝕、實(shí)際卻為該銹蝕類別的樣本數(shù),TN為預(yù)測(cè)結(jié)果為其他銹蝕類別、實(shí)際也為其他銹蝕類別的樣本數(shù)。
實(shí)驗(yàn)采用BS90C型鹽霧試驗(yàn)箱對(duì)24塊長(zhǎng)、寬、高分別為160 mm、120 mm、5 mm的Q235鋼板進(jìn)行加速銹蝕,采用分辨率為500萬(wàn)像素的CCD(charge coupled device)相機(jī)采集鋼板表面圖像,實(shí)驗(yàn)設(shè)備如圖7所示。實(shí)驗(yàn)采用循環(huán)式交替噴霧方法,噴霧采用質(zhì)量分?jǐn)?shù)為5%的氯化鈉溶液。實(shí)驗(yàn)持續(xù)66 d,總共得到1 584張大小為2 592像素×1 944像素的鋼板表面銹蝕圖像。
圖7 實(shí)驗(yàn)設(shè)備Fig.7 Experimental equipments
以24 h為1個(gè)時(shí)間單位,對(duì)66 d的樣本圖片進(jìn)行切片,切片結(jié)果與國(guó)際樣圖對(duì)比如圖8所示。
圖8中,依據(jù)國(guó)際標(biāo)準(zhǔn)《GB/T 8923.1—2011/ISO 8501—1:2007》[26],將銹蝕鋼板樣本劃分為4個(gè)等級(jí):A級(jí)銹蝕,鋼材表面存在大量氧化皮,銹蝕銹跡較少且程度較輕;B級(jí)銹蝕,鋼材表面出現(xiàn)大面積銹漬,氧化皮已出現(xiàn)剝落情況;C級(jí)銹蝕,鋼材表面出現(xiàn)少量嚴(yán)重的點(diǎn)狀銹斑;D級(jí)銹蝕,鋼材表面點(diǎn)狀銹斑增多且表層出現(xiàn)大面積脫落。為了后續(xù)描述方便,將無(wú)銹、A級(jí)銹蝕、B級(jí)銹蝕、C級(jí)銹蝕、D級(jí)銹蝕分別定義為L(zhǎng)V_0、LV_1、LV_2、LV_3、LV_4。
由圖8可以發(fā)現(xiàn):早期階段(7月14日—7月24日)試樣表面逐漸失去光澤并出現(xiàn)局部銹跡,隨著時(shí)間推移局部銹跡越來(lái)越多;中期階段(7月25日—9月5日)試樣表面已經(jīng)完全失去光澤,銹蝕已基本覆蓋所有表面,呈現(xiàn)出橙紅色的氧化物,顏色逐漸加深;后期階段(9月6日—9月21日)鋼材試樣中疏松的銹蝕氧化物逐漸消失,試樣表面變得十分粗糙,局部位置銹斑突起且表層出現(xiàn)脫落。實(shí)驗(yàn)現(xiàn)象與國(guó)標(biāo)描述完全一致,通過(guò)像素掃描對(duì)比發(fā)現(xiàn),實(shí)驗(yàn)項(xiàng)目中獲取的所有銹蝕樣本圖片與國(guó)標(biāo)中的標(biāo)準(zhǔn)樣圖像素重合度均高達(dá)95%以上,本文實(shí)驗(yàn)中的銹蝕樣本圖片可以作為擴(kuò)容后的標(biāo)準(zhǔn)樣圖進(jìn)行模型訓(xùn)練。
為了使深度學(xué)習(xí)模型的訓(xùn)練樣本更加聚焦于銹蝕等級(jí)(國(guó)家標(biāo)準(zhǔn)GB T8923.1—2011)[3]的典型樣圖,同時(shí)又盡可能完全覆蓋整個(gè)銹蝕歷程的所有樣圖,設(shè)置區(qū)間內(nèi)訓(xùn)練樣本的圖片數(shù)量與實(shí)驗(yàn)時(shí)間近似服從正態(tài)分布,由此構(gòu)造出深度學(xué)習(xí)模型的訓(xùn)練樣本集。
以2級(jí)銹蝕(LV_2)為例,通過(guò)像素掃描對(duì)比發(fā)現(xiàn),鹽霧銹蝕實(shí)驗(yàn)歷程中第12天至第37天的銹蝕圖片其典型像素特征明顯高于國(guó)家標(biāo)準(zhǔn)GB T8923.1—2011銹蝕等級(jí)樣圖2級(jí)銹蝕像素特征。因此,將鹽霧銹蝕實(shí)驗(yàn)歷程中第12天至第37天的銹蝕圖片作為2級(jí)銹蝕的訓(xùn)練樣本;為了聚焦國(guó)家標(biāo)準(zhǔn)中的2級(jí)銹蝕樣圖,設(shè)置第12天至第37天內(nèi)訓(xùn)練樣本的圖片數(shù)量近似服從正態(tài)分布。訓(xùn)練樣本數(shù)量設(shè)置如圖9所示。據(jù)此將原始數(shù)據(jù)集劃分為無(wú)銹蝕、A~D級(jí)銹蝕共5個(gè)類別,并依次對(duì)其綁定標(biāo)簽。
圖9 訓(xùn)練樣本數(shù)量設(shè)置Fig.9 Training sample number setting
將所有的圖像去除背景后按照256像素×256像素的大小分塊,共得到31 680張帶類別標(biāo)簽的小尺寸圖像。在每個(gè)類別中隨機(jī)選取400張圖像,總共得到2 000張銹蝕圖像樣本數(shù)據(jù)集,將其按照8∶2的比例劃分訓(xùn)練集(1 600張)和測(cè)試集(400張)。所有模型均在相同配置的計(jì)算機(jī)環(huán)境下運(yùn)行(Windows10+Рython3.6 +Рytorch1.0),使用內(nèi)存為24 G的GeForce RTX 3090顯卡進(jìn)行加速。損失函數(shù)為多分類交叉熵函數(shù),批大小為16,訓(xùn)練輪數(shù)為50,初始學(xué)習(xí)率為0.001,采用MultiStepLR動(dòng)態(tài)學(xué)習(xí)率調(diào)整策略實(shí)現(xiàn)學(xué)習(xí)率的自動(dòng)更新。
為驗(yàn)證本文所提方法在銹蝕圖像等級(jí)分類中的有效性,選擇圖像處理中經(jīng)典網(wǎng)絡(luò)模型ZFNet[15]、LeNet-5[14]、VGG-16[16]進(jìn)行對(duì)比測(cè)試,對(duì)于相同測(cè)試集進(jìn)行分類評(píng)估,其評(píng)價(jià)指標(biāo)均值見(jiàn)表1。由表1可知,與ZFNet和LeNet-5等骨干網(wǎng)絡(luò)相比,VGG-16在準(zhǔn)確率、精確率、召回率、F1系數(shù)等指標(biāo)上均有明顯優(yōu)勢(shì)。
表1 不同網(wǎng)絡(luò)模型評(píng)價(jià)指標(biāo)均值對(duì)比Tab.1 Comparision of evaluation indicator mean of different network models
不同深度學(xué)習(xí)網(wǎng)絡(luò)模型在測(cè)試集上的準(zhǔn)確率和損失函數(shù)值變化如圖10所示。由圖10可以看出:前20個(gè)訓(xùn)練周期內(nèi)各模型的準(zhǔn)確率和損失函數(shù)值均存在一定程度的波動(dòng),經(jīng)過(guò)50輪訓(xùn)練周期后所有網(wǎng)絡(luò)均趨于穩(wěn)定。其中:ZFNet前期波動(dòng)幅度大、收斂速度較慢,準(zhǔn)確率最低;LeNet-5雖然波動(dòng)幅度小,但是收斂較慢且準(zhǔn)確率較低;VGG-16波動(dòng)幅度大且波動(dòng)時(shí)間長(zhǎng),在40輪訓(xùn)練后仍存在小幅波動(dòng);本文方法前期訓(xùn)練波動(dòng)也較大,但在經(jīng)過(guò)10輪訓(xùn)練之后迅速收斂且后期波動(dòng)幅度小,收斂后在準(zhǔn)確率與穩(wěn)定性上均有較大優(yōu)勢(shì)。
圖10 不同網(wǎng)絡(luò)模型測(cè)試結(jié)果Fig.10 Test results of different network models
為進(jìn)一步驗(yàn)證本文方法的有效性,圖11繪制其在訓(xùn)練集和測(cè)試集上的準(zhǔn)確率和損失函數(shù)值。由圖11可以看出,模型在測(cè)試集第8個(gè)測(cè)試周期中的準(zhǔn)確率和損失函數(shù)均有大幅波動(dòng),隨后迅速回歸平穩(wěn)。分析可知,導(dǎo)致此次波動(dòng)的主要原因是有部分測(cè)試樣本為銹蝕圖片的奇異樣本,奇異樣本和常規(guī)樣本對(duì)比示例如圖12所示。由圖12可知,奇異樣本與常規(guī)銹蝕樣本在特征上存在較明顯差異。由此可見(jiàn),本文方法具有良好的泛化推廣能力。從整體上看,測(cè)試集的準(zhǔn)確率和損失函數(shù)值均優(yōu)于訓(xùn)練集,這是因?yàn)闇y(cè)試集的樣本數(shù)目遠(yuǎn)小于訓(xùn)練集。
圖11 本文方法的損失函數(shù)值和準(zhǔn)確率Fig.11 Loss function value and accuracy of the method in this paper
圖12 常規(guī)銹蝕樣本與奇異樣本對(duì)比Fig.12 Comparison of conventional rusted samples and odd samples
本文方法識(shí)別結(jié)果的混淆矩陣如圖13所示。由圖13可以看出:模型對(duì)未生銹圖像(LV_0)的識(shí)別效果最好,其識(shí)別準(zhǔn)確率達(dá)到1.000;模型對(duì)1級(jí)銹蝕(LV_1)和4級(jí)銹蝕(LV_4)的識(shí)別準(zhǔn)確率均達(dá)到0.959以上;對(duì)于工程中常見(jiàn)且目測(cè)難以區(qū)分的2級(jí)銹蝕(LV_2)和3級(jí)銹蝕(LV_3),識(shí)別準(zhǔn)確率也達(dá)到0.870以上;整體平均識(shí)別準(zhǔn)確率達(dá)到了0.953,具有良好的銹蝕識(shí)別能力。
圖13 本文方法的混淆矩陣Fig.13 Confusion matrix of the method in this paper
在消融實(shí)驗(yàn)中對(duì)比以下7個(gè)網(wǎng)絡(luò)結(jié)構(gòu):1)輸入為RGB圖像的VGG-16網(wǎng)絡(luò);2)輸入為HSV圖像的VGG-16網(wǎng)絡(luò),簡(jiǎn)寫為VGG16_HSV;3)單個(gè)VGG-16網(wǎng)絡(luò)先后輸入RGB與HSV圖像,對(duì)兩個(gè)輸出采用雙線性池化特征融合,簡(jiǎn)寫為BCNN_S;4)兩個(gè)VGG-16網(wǎng)絡(luò)分別輸入RGB與HSV圖像,對(duì)兩個(gè)輸出采用雙線性池化特征融合,簡(jiǎn)寫為BCNN_D;5)單個(gè)VGG-16網(wǎng)絡(luò)block2和3之間嵌入混合注意力機(jī)制,先后輸入RGB與HSV圖像,對(duì)兩個(gè)輸出采用雙線性池化特征融合,簡(jiǎn)寫為BACNN_M;6)在兩個(gè)VGG-16網(wǎng)絡(luò)的block5后分別融入空間注意力或通道注意力機(jī)制,隨后分別輸入RGB與HSV圖像,對(duì)兩個(gè)輸出采用雙線性池化特征融合,簡(jiǎn)寫為BACNN_D;7)本文方法,雙線性池化和注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)(bilinear pooling and attention mechanism convolutional neural network,BACNN)。
其中:VGG-16和VGG16_HSV用于對(duì)色彩空間的消融驗(yàn)證;BCNN_S和BCNN_D用于對(duì)雙線性池化的消融驗(yàn)證;BACNN_M和BACNN_D用于對(duì)注意力機(jī)制的消融驗(yàn)證;BACNN融合了色彩空間模塊、雙線性池化模塊與注意力機(jī)制模塊。
消融對(duì)比實(shí)驗(yàn)中,7個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的模型在相同測(cè)試集上的測(cè)試準(zhǔn)確率如圖14所示,損失函數(shù)值如圖15所示。由圖14和15可以得出以下結(jié)論:
圖14 不同網(wǎng)絡(luò)結(jié)構(gòu)模型的準(zhǔn)確率對(duì)比Fig.14 Comparison of accuracy of models with different network structures
圖15 不同網(wǎng)絡(luò)結(jié)構(gòu)模型的損失函數(shù)值對(duì)比Fig.15 Comparison of loss function values of models with different network structures
1)對(duì)于色彩空間模塊,當(dāng)銹蝕圖像以RGB色彩空間作為輸入時(shí),VGG-16網(wǎng)絡(luò)準(zhǔn)確率更高;而以HSV色彩空間為輸入時(shí),VGG16_HSV網(wǎng)絡(luò)損失函數(shù)值下降更快,波動(dòng)性更小。
2)對(duì)于雙線性池化模塊,當(dāng)雙線性網(wǎng)絡(luò)采用參數(shù)完全共享的VGG-16(BCNN_S)時(shí),網(wǎng)絡(luò)出現(xiàn)異常,模型損失函數(shù)值在訓(xùn)練周期內(nèi)逐步上升,準(zhǔn)確率逐步下降;而當(dāng)采用參數(shù)完全不共享的兩個(gè)VGG-16(BCNN_D)時(shí),其性能得到明顯改善。由此可見(jiàn),兩種色彩空間特征并不兼容。
3)對(duì)于注意力機(jī)制模塊,BACNN_M網(wǎng)絡(luò)中采用混合注意力機(jī)制,其模型準(zhǔn)確率相較于上述4個(gè)模型顯著降低,并且訓(xùn)練周期內(nèi)未收斂;BACNN_D結(jié)構(gòu)中兩個(gè)網(wǎng)絡(luò)分別采用空間注意力和通道注意力機(jī)制,與上述5個(gè)模型進(jìn)行對(duì)比,BACNN_D網(wǎng)絡(luò)模型收斂速度和識(shí)別準(zhǔn)確率均得到改善。
本文構(gòu)建的BACNN網(wǎng)絡(luò)充分利用上述6種網(wǎng)絡(luò)特點(diǎn),在BACNN_D的基礎(chǔ)上將注意力模塊嵌入于block2和3之間,其性能得到明顯提升,在10個(gè)訓(xùn)練周期后網(wǎng)絡(luò)迅速收斂并趨于平穩(wěn),識(shí)別準(zhǔn)確率達(dá)到了0.953。
為進(jìn)一步驗(yàn)證BACNN網(wǎng)絡(luò)中各模塊的作用,將其與VGG-16和BCNN_D進(jìn)行對(duì)比驗(yàn)證。在3個(gè)網(wǎng)絡(luò)中分別輸入相同的400張測(cè)試集銹蝕圖像,采用精確率指標(biāo)、召回率指標(biāo)和F1系數(shù)評(píng)估不同網(wǎng)絡(luò)的識(shí)別性能,驗(yàn)證結(jié)果見(jiàn)表2。
表2 不同網(wǎng)絡(luò)對(duì)不同銹蝕等級(jí)圖像的識(shí)別性能對(duì)比Tab.2 Comparison of the recognition performance of different networks for different rust grade images
由表2可以看出:傳統(tǒng)VGG-16網(wǎng)絡(luò)難以區(qū)分2級(jí)和3級(jí)銹蝕,其分類精確率不到0.800;當(dāng)單獨(dú)引入雙線性池化后,僅改善了2級(jí)銹蝕的精確率和3級(jí)銹蝕的召回率。在雙線性模塊中嵌入注意力機(jī)制構(gòu)成BACNN網(wǎng)絡(luò),該網(wǎng)絡(luò)對(duì)2、3級(jí)細(xì)粒度銹蝕圖像進(jìn)行了深度學(xué)習(xí),使得其識(shí)別精確率由0.710上升到0.840,召回率由0.780上升到0.870,F(xiàn)1系數(shù)由0.750上升到0.880,大大提高了2、3級(jí)細(xì)粒度銹蝕圖像的識(shí)別性能。
最后,驗(yàn)證消融實(shí)驗(yàn)中7個(gè)網(wǎng)絡(luò)的平均識(shí)別性能。在7個(gè)網(wǎng)絡(luò)中分別輸入相同的400張測(cè)試集銹蝕圖像,采用精確率指標(biāo),召回率指標(biāo)、F1系數(shù)和準(zhǔn)確率評(píng)估不同網(wǎng)絡(luò)的識(shí)別性能,驗(yàn)證結(jié)果見(jiàn)表3。
表3 不同網(wǎng)絡(luò)對(duì)銹蝕圖像的平均識(shí)別性能對(duì)比Tab.3 Comparison of the average recognition performance of rust images by different networks
由表3可以看出,本文方法準(zhǔn)確率達(dá)到0.953,精確率和召回率達(dá)到0.948,F(xiàn)1系數(shù)為0.946。相較于傳統(tǒng)VGG-16和單一模塊改進(jìn)網(wǎng)絡(luò),本文構(gòu)建的融合雙線性池化和注意力機(jī)制的BACNN網(wǎng)絡(luò),在銹蝕圖像的平均識(shí)別性能的各指標(biāo)提升方面均有明顯優(yōu)勢(shì),有效提高了銹蝕圖像的分類識(shí)別性能。
本文針對(duì)目前細(xì)微銹蝕圖像特征識(shí)別準(zhǔn)確率較低,且以人工目視檢測(cè)為主的現(xiàn)狀,基于VGG-16網(wǎng)絡(luò)提出融合注意力機(jī)制與雙線性池化的銹蝕等級(jí)評(píng)估方法。以水工機(jī)械裝備的常用材料Q235鋼為樣本,通過(guò)鹽霧銹蝕實(shí)驗(yàn)獲取銹蝕圖像數(shù)據(jù)集,并進(jìn)行消融和對(duì)比實(shí)驗(yàn),貢獻(xiàn)如下:
1)采用VGG-16作為規(guī)整網(wǎng)絡(luò),以RGB和HSV兩種色彩空間特征作為輸入,通過(guò)嵌入注意力機(jī)制和雙線性池化模塊,使網(wǎng)絡(luò)聚焦于最相關(guān)的細(xì)粒度圖像特征進(jìn)行深度學(xué)習(xí),由此加快了網(wǎng)絡(luò)模型的收斂速度,有效提升了網(wǎng)絡(luò)模型對(duì)細(xì)粒度銹蝕圖像銹蝕等級(jí)的評(píng)估指標(biāo),并增強(qiáng)了模型的泛化性。
2)通過(guò)鹽霧銹蝕實(shí)驗(yàn)獲取銹蝕圖像數(shù)據(jù)集,并進(jìn)行消融和對(duì)比實(shí)驗(yàn),從多個(gè)角度進(jìn)行綜合分析得出,相較于原模型及其他主流算法,改進(jìn)后網(wǎng)絡(luò)模型的分類準(zhǔn)確率達(dá)到了0.953,召回率和精確率達(dá)到了0.948,F(xiàn)1系數(shù)為0.946,多個(gè)評(píng)價(jià)指標(biāo)均顯示所提方法在銹蝕圖像等級(jí)評(píng)估中整體性能更優(yōu)。
本文實(shí)驗(yàn)的光照條件、空間分辨率等區(qū)別很小,工程實(shí)際應(yīng)用中通過(guò)成像傳感器獲取的水工機(jī)械裝備銹蝕圖像的光照條件和圖像分辨率可能存在差異,如何進(jìn)一步提升網(wǎng)絡(luò)模型的泛化推廣能力,使其適用于不同數(shù)據(jù)來(lái)源是未來(lái)進(jìn)一步拓展研究的重點(diǎn)。