李海豐,張凡,樸敏楠*,王懷超,李南莎,桂仲成
(1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.成都圭目機(jī)器人有限公司,成都 610101)
機(jī)場(chǎng)道面地下目標(biāo)主要包含兩類(lèi)[1]:1)地下病害,隨著航空業(yè)務(wù)量的發(fā)展,飛機(jī)頻繁起降會(huì)對(duì)機(jī)場(chǎng)道面地下的結(jié)構(gòu)造成損傷,長(zhǎng)期超負(fù)荷地使用容易破壞內(nèi)部結(jié)構(gòu);2)機(jī)場(chǎng)道面地下組成部分,如鋼筋和地?zé)舻饶繕?biāo)。隱蔽的地下病害可能會(huì)造成重大交通事故,帶來(lái)巨大的損失;而鋼筋是支撐機(jī)場(chǎng)道面的重要部件,會(huì)影響機(jī)場(chǎng)道面的安全性評(píng)估。因此對(duì)地下目標(biāo)的檢測(cè)是保障機(jī)場(chǎng)安全運(yùn)行的必要工作。
目前檢測(cè)機(jī)場(chǎng)道面地下目標(biāo)的物理方法有鉆芯取樣法[2]、彎沉儀法[3]和超聲探測(cè)法[4]。鉆芯取樣雖然能直觀地看到樣塊內(nèi)部的結(jié)構(gòu)情況,但是該方法對(duì)機(jī)場(chǎng)道面有損害,采樣塊的數(shù)量有限,很難代表整個(gè)機(jī)場(chǎng)道面地下的內(nèi)部情況,檢測(cè)精度不高。彎沉儀只能檢測(cè)出靠近地表層的脫空病害,且一般用于檢驗(yàn)機(jī)場(chǎng)道面的承受能力。超聲波檢測(cè)技術(shù)可以根據(jù)聲波的傳播時(shí)間、幅值和頻率等參數(shù)確定地下目標(biāo)的位置,但是該方法特別容易受到外界因素的干擾。而探地雷達(dá)(Ground Penetrating Radar,GPR)是一種無(wú)損檢測(cè)地下目標(biāo)的技術(shù),具有檢測(cè)速度快、分辨率高、覆蓋面積廣等特點(diǎn),在工程勘探領(lǐng)域應(yīng)用廣泛[5]。
有學(xué)者通過(guò)雷達(dá)信號(hào)對(duì)機(jī)場(chǎng)道面地下目標(biāo)進(jìn)行研究。曹蕓茜等[6]利用波變換和時(shí)延估計(jì)搜索局部峰值,抑制地下鋼筋的強(qiáng)反射回波,并結(jié)合時(shí)頻分析及最小距離分類(lèi)器識(shí)別地下目標(biāo),通過(guò)頻域波數(shù)域的波場(chǎng)逆推進(jìn)行目標(biāo)成像。何煒琨等[7]利用脫空病害的回波特性,將回波作S 變換,擬合出脫空的波形特征。Zou等[8]使用多基地雷達(dá)系統(tǒng)掃描機(jī)場(chǎng)瀝青道面,利用橫波特性檢測(cè)淺層道面的層間剝離。也有學(xué)者通過(guò)雷達(dá)B-scan 圖進(jìn)行研究,Pham等[9]采用二維Faster RCNN(Faster Region-based Convolutional Neural Network)提取灰度B-scan 圖像的雙曲線特征,對(duì)地下鋼筋進(jìn)行檢測(cè)。李海豐等[10]采用支持向量機(jī)(Support Vector Machine,SVM),并設(shè)定雙閾值對(duì)B-scan 圖進(jìn)行目標(biāo)分割。Dinh等[11]結(jié)合傳統(tǒng)圖像處理和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),在B-scan 上通過(guò)校正零偏、濾波和閾值分割等預(yù)處理操作確定地下目標(biāo)的范圍,再將提取到的目標(biāo)區(qū)域送入CNN進(jìn)行特征學(xué)習(xí)。在其他領(lǐng)域,與雷達(dá)C-scan 數(shù)據(jù)相似的有計(jì)算機(jī)斷層掃描(Computed Tomography,CT)數(shù)據(jù)和視頻數(shù)據(jù),Cai等[12]設(shè)計(jì)了Ghost-Light-3DNet 對(duì)心臟CT 數(shù)據(jù)集進(jìn)行檢測(cè)。Xu等[13]設(shè)計(jì)了三維Faster R-CNN 在CT 數(shù)據(jù)集上生成三維建議框,并對(duì)多類(lèi)別目標(biāo)進(jìn)行三維可視化。Al-Hammadi等[14]將一段視頻拆分為32 幀連續(xù)圖像,使用三維CNN 從連續(xù)的圖像中學(xué)習(xí)手勢(shì)特征。
基于雷達(dá)信號(hào)的研究需要經(jīng)過(guò)大量的預(yù)處理操作,計(jì)算量大且容易增加誤差。而僅基于B-scan 圖的研究雖然能避開(kāi)冗雜的電磁波特性,但是忽略了相鄰B-scan 間存在一定的特征關(guān)聯(lián)關(guān)系,導(dǎo)致特征信息丟失。機(jī)場(chǎng)道面地下結(jié)構(gòu)復(fù)雜多樣,生成的B-scan 和C-scan 往往包含大量噪聲,給地下目標(biāo)檢測(cè)帶來(lái)了挑戰(zhàn)。針對(duì)以上問(wèn)題,本文提出一種三維通道和空間注意力的UNet(Three-Dimensional Channel and Spatial Attention UNet,3D-CSA-UNet)模型,并應(yīng)用于機(jī)場(chǎng)道面地下目標(biāo)檢測(cè)。
本文研究的問(wèn)題是機(jī)場(chǎng)道面地下目標(biāo)檢測(cè),主要的工作如下:1)設(shè)計(jì)三維通道和空間注意力并行模塊(Three-Dimensional Channel and Spatial parallel attention Block,3DCS-Block)以充分提取相鄰B-scan 間的聯(lián)合特征,在保證地下目標(biāo)信息完整性的同時(shí),對(duì)背景和目標(biāo)進(jìn)行區(qū)分;2)根據(jù)3D-CS-Block 設(shè)計(jì)多尺度的三維分割模型,將模塊加入多個(gè)編碼器和解碼器中組合成模型,加強(qiáng)模型對(duì)雷達(dá)C-scan 中地下目標(biāo)特征提取的能力。
探地雷達(dá)在機(jī)場(chǎng)道面水平移動(dòng),通過(guò)天線向地下發(fā)射電磁波,當(dāng)遇到不同電磁特性的物體時(shí)會(huì)發(fā)生反射,天線接收回波信號(hào)。A-scan、B-scan 和C-scan 是探地雷達(dá)從一維到三維的數(shù)據(jù)保存形式。如圖1 所示:A-scan 記錄單組發(fā)射波和回波的信號(hào)強(qiáng)度和行進(jìn)時(shí)間;探地雷達(dá)在不同位置會(huì)產(chǎn)生一系列A-scan,多個(gè)A-scan 形成二維B-scan 數(shù)據(jù),如果將信號(hào)表示為灰度值,就能得到二維圖像[15];將B-scan 按照雷達(dá)通道順序進(jìn)行組合,可形成三維C-scan 數(shù)據(jù)。
圖1 探地雷達(dá)數(shù)據(jù)Fig.1 Ground penetrating radar data
機(jī)場(chǎng)道面地下情況復(fù)雜多樣,探地雷達(dá)在探測(cè)地下目標(biāo)時(shí)受到測(cè)量噪聲以及未知異物的干擾,導(dǎo)致生成B-scan 時(shí)目標(biāo)區(qū)域不明顯且背景紊亂,給地下目標(biāo)檢測(cè)帶來(lái)了挑戰(zhàn)。本文要檢測(cè)的地下目標(biāo)為脫空、鋼筋和鋼筋平行,它們的特征形態(tài)在B-scan 上如圖2 所示。圖2(a)為脫空病害,一般位于地下結(jié)構(gòu)的分層處,多呈現(xiàn)為黑白條紋疊加的形狀,黑白分明且橫向長(zhǎng)度較長(zhǎng);圖2(b)為鋼筋,具有明顯的雙曲線特征,黑白雙曲線疊加,當(dāng)多條鋼筋在地下并排時(shí),會(huì)出現(xiàn)一排連續(xù)的雙曲線;圖2(c)為鋼筋平行,它由于探地雷達(dá)在道面的運(yùn)行方向與鋼筋放置方向互相平行造成,特征一般為小塊狀且黑白相間,橫向長(zhǎng)度較短。
圖2 地下目標(biāo)的形態(tài)特征Fig.2 Morphological characteristics of underground targets
經(jīng)過(guò)預(yù)處理后的探地雷達(dá)數(shù)據(jù)往往包含了大量噪聲且背景十分復(fù)雜。為了抑制C-scan 中噪聲的干擾,引導(dǎo)模型更好地從三維C-scan 中提取出目標(biāo)特征,本文設(shè)計(jì)了三維通道和空間注意力并行模塊(3D-CS-Block),主要由三維通道注意力和三維空間注意力組成,模塊結(jié)構(gòu)如圖3 所示。兩種注意力對(duì)同一個(gè)三維特征矩陣集合進(jìn)行特征提取,各自生成新的特征矩陣集合,再將兩個(gè)新的特征矩陣集合相加得到最終的特征矩陣集合。三維通道注意力給不同通道的三維特征矩陣賦予不同的權(quán)重值,讓模型在訓(xùn)練過(guò)程中更加關(guān)注有用通道的特征信息;三維空間注意力對(duì)每個(gè)三維特征矩陣中的像素位置賦予不同的權(quán)重值,目的是區(qū)分地下目標(biāo)和背景,讓模型著重關(guān)注目標(biāo)的特征信息。為了從多維度引導(dǎo)模型學(xué)習(xí)地下目標(biāo)的特征,將兩種注意力的結(jié)果進(jìn)行求和,從而提高模型的目標(biāo)檢測(cè)能力。
圖3 3D-CS-Block結(jié)構(gòu)Fig.3 Structure of 3D-CS-Block
1.2.1 三維通道注意力模塊
模型訓(xùn)練過(guò)程中,通過(guò)卷積操作產(chǎn)生多個(gè)通道的特征矩陣,這些特征矩陣包含了豐富的特征信息。但是由于C-scan本身含有大量噪聲,導(dǎo)致生成的矩陣也含有很多噪聲信息,而且不同通道的特征矩陣對(duì)地下目標(biāo)的表現(xiàn)程度有差異,并不是所有的特征矩陣都能很好地表達(dá)目標(biāo)特征[16]。如果考慮所有通道的特征矩陣,反而會(huì)增大背景和噪聲的影響,不利于模型的訓(xùn)練。因此,本文加入三維通道注意力,賦予每個(gè)通道不同的權(quán)重值,讓模型有側(cè)重地學(xué)習(xí)目標(biāo)信息明顯的通道特征以提高訓(xùn)練效率。
如圖3 所示,三維通道注意力由一個(gè)全局池化、兩個(gè)全連接層、一個(gè)線性修正單元(Rectified Linear Unit,ReLU)激活函數(shù)和一個(gè)Sigmoid 激活函數(shù)組成。全局池化采用平均池化,它的作用是將每個(gè)特征矩陣在空間上進(jìn)行壓縮,而全連接層和激活函數(shù)則給不同通道的特征矩陣賦予不同權(quán)重值。對(duì)于輸入特征 集合U={U1,U2,…,Up,…,Uc},Up∈RD×H×W代表某個(gè)維度為(D,H,W)的特征矩陣。特征集合U首先經(jīng)過(guò)全局池化層變?yōu)閆c×1×1×1,即壓縮每個(gè)通道的空間特征:
輸入特征集合U被壓縮空間后變?yōu)閆c×1×1×1,再經(jīng)過(guò)兩個(gè)全連接層和激活函數(shù)變?yōu)閆*,如式(2)所示:
1.2.2 三維空間注意力模塊
機(jī)場(chǎng)道面地下環(huán)境復(fù)雜,探地雷達(dá)在生成B-scan 時(shí),往往包含了大量噪聲,且背景也比較紊亂。而C-scan 由B-scan組成,雖然C-scan 能有效還原地下目標(biāo)的三維特征,但是也增加了噪聲的干擾,模型很難從C-scan 中提取出有效的目標(biāo)特征。雷達(dá)C-scan 數(shù)據(jù)具有三維空間特性,一個(gè)C-scan 中可能包含一個(gè)或多個(gè)地下目標(biāo),相鄰的B-scan 具有一定的特征關(guān)聯(lián),而一般的空間注意力并不能滿足對(duì)C-scan 的檢測(cè)要求。因此,本文加入特殊的三維空間注意力,給C-scan 中不同像素位置賦予不同的權(quán)重值。對(duì)于地下目標(biāo)區(qū)域,權(quán)重值較大,而對(duì)于背景和噪聲,權(quán)重值則較小。這是為了讓模型自動(dòng)區(qū)分出地下目標(biāo),從而抑制噪聲的影響。
如圖3 所示,三維空間注意力由一個(gè)三維卷積核和Sigmoid 激活函數(shù)組成。三維卷積核的輸出通道和步長(zhǎng)都為1,它的作用是將輸入特征集合在通道上進(jìn)行壓縮,而Sigmoid 激活函數(shù)則給空間中的每個(gè)位置賦予不同的權(quán)重值。輸入特 征矩陣U=[U1,1,1,U1,1,2,…,Ui,j,k,…,UD,H,W],Ui,j,k∈R1×1×1×c,(i,j,k)為該像 素在三 維矩陣 空間的位置。特征矩陣U經(jīng)過(guò)一次三維卷積得到Q∈RD×H×W,如式(4)所示,其中:WConv3d∈R1×1×1×c×1為三維卷積核的權(quán)重。特征矩陣Q經(jīng)過(guò)一個(gè)Sigmoid 激活函數(shù)將權(quán)重值歸一化到[0,1],歸一化后的特征矩陣再和原始的特征矩陣U相乘,得到新的特征矩陣UsSE,如式(5)所示。
1.3.1 3D-CSA-UNet
一個(gè)尺度下的特征集合包含的特征信息較少,且具有局限性。為了提升3D-CS-Block 對(duì)復(fù)雜三維C-scan 目標(biāo)特征的提取能力,本文參考UNet 模型[17]和SSD(Single Shot Multibox Detector)模型[18],設(shè)計(jì)了多尺度的三維分割模型3D-CSAUNet。3D-CSA-UNet 可以提取出多個(gè)尺度下的C-scan 特征信息,控制不同大小的感受野,學(xué)習(xí)地下目標(biāo)的全局信息和局部信息,以增強(qiáng)提取目標(biāo)特征的能力,從而實(shí)現(xiàn)地下目標(biāo)精確檢測(cè)。
如圖4 所示,3D-CSA-UNet 由4 個(gè)編碼器(Encoder)、4 個(gè)解碼器(Decoder)和1 個(gè)三維卷積核組成。每個(gè)編碼器由三維卷積核(Conv3d)、注意力并行模塊(3D-CS-Block)和下采樣(Maxpool+ReLU)組成;每個(gè)解碼器由反卷積(Deconv3d)、注意力并行模塊和上采樣(Upsample+ReLU)組成。
圖4 3D-CSA-UNet結(jié)構(gòu)Fig.4 Structure of 3D-CSA-UNet
編碼器Encoder 1、2 可以提取C-scan 的淺層特征,而編碼器Encoder 3、4,則能夠提取C-scan 的深層特征,解碼器Decoder 1~4 負(fù)責(zé)對(duì)不同尺度的特征進(jìn)行特征還原。Encoder 1、2 和Decoder 2、3 的特征矩陣進(jìn)行相加融合,能夠提供地下目標(biāo)類(lèi)別信息。Encoder 3 和Decoder 1 的特征矩陣進(jìn)行相加融合,能夠提供地下目標(biāo)位置信息。線性融合編碼器和解碼器中相同尺寸的特征信息,可以抑制噪聲,增強(qiáng)模型對(duì)目標(biāo)的關(guān)注。最后通過(guò)一個(gè)三維卷積生成通道與類(lèi)別數(shù)目相同的特征集合,便于后續(xù)分類(lèi)識(shí)別。
1.3.2 多尺度特征損失計(jì)算
在多次卷積和下采樣后,一些小目標(biāo)區(qū)域的信息會(huì)丟失,如果只關(guān)注模型最終的輸出特征,而忽略模型中間層輸出特征的影響,會(huì)降低模型檢測(cè)的準(zhǔn)確率。針對(duì)該問(wèn)題,本文計(jì)算4 種尺度下的特征矩陣損失值,并且對(duì)不同尺度的損失賦予不同權(quán)重,再將所有損失求和得到最終損失。如圖4所示,Encoder 1 和Decoder 3 的輸出特征大小為32× 24×224× 224,Encoder 2 和Decoder 2 的輸出 特征大小為64×12× 112× 112,Encoder 3 和Decoder 1 的輸出 特征大小為128× 6× 56× 56,模型的 最終輸 出特征 大小為4× 48×448× 448,將以上4 種大小的特征矩陣分別標(biāo)記為a、b、c和d。式(6)~(7)為計(jì)算模型損失的公式:
式(6)為交叉熵?fù)p失函數(shù),其中:N為特征通道數(shù);M為類(lèi)別數(shù);yic取0 或者1,當(dāng)樣本i的真實(shí)類(lèi)別為c取1,否則取0;pic為樣本i屬于類(lèi)別c的預(yù)測(cè)概率。式(7)是總的損失值,最后輸出的特征權(quán)重為1,其他尺度的特征權(quán)重為0.1。
2.1.1 對(duì)比方法
將3D-CSA-UNet 與3D-SegNe[t19]、三維全卷積網(wǎng)絡(luò)(3DFully Convolutional Network,3D-FCN)[20]和3D-UNet[21]進(jìn)行對(duì)比實(shí)驗(yàn)。3D-SegNet 與SegNet 結(jié)構(gòu)一 致,3D-FCN 與FCN(Fully Convolutional Network)結(jié)構(gòu)一致,3D-UNet 與UNet 結(jié)構(gòu)一致,它們的區(qū)別在于前者使用了三維卷積核且輸入數(shù)據(jù)的維度更高。3D-SegNet 的每個(gè)編碼器都對(duì)應(yīng)一個(gè)解碼器,最終編碼器的輸出會(huì)被送入Softmax 分類(lèi)器進(jìn)行像素級(jí)分類(lèi)。3D-FCN 是典型的全卷積模型,且目標(biāo)分割能力較強(qiáng)。3DUNet 也是經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò),結(jié)合多尺度特征實(shí)現(xiàn)目標(biāo)精確分割。
2.1.2 數(shù)據(jù)集
本文使用的數(shù)據(jù)集為AUD(Airport Underground Data),包含的地下目標(biāo)有脫空、鋼筋和鋼筋平行。數(shù)據(jù)集由成都圭目機(jī)器人有限公司提供,采集于國(guó)內(nèi)多個(gè)機(jī)場(chǎng)道面。該公司自主研發(fā)的道路病害檢測(cè)機(jī)器人,搭載2D、3D 視覺(jué)融合系統(tǒng)以及不同頻段的三維探地雷達(dá),采集道面內(nèi)部結(jié)構(gòu)信息。機(jī)器人以20~30 km/h 的速度水平運(yùn)行,探地雷達(dá)不斷收發(fā)電磁波,成功收發(fā)一次電磁波稱為一個(gè)A-scan,多個(gè)A-scan 經(jīng)過(guò)編碼得到B-scan,相鄰B-scan 按照雷達(dá)通道順序組合形成C-scan。表1 為AUD 數(shù)據(jù)集的具體信息。
表1 AUD數(shù)據(jù)集詳細(xì)信息Tab.1 Details for AUD dataset
2.1.3 評(píng)價(jià)指標(biāo)
為了對(duì)3D-CSA-UNet 模型進(jìn)行量化評(píng)估,采用運(yùn)行時(shí)間、準(zhǔn)確率(Precision,P)、召回率(Recall,R)、F1 分值(F1-Score,F(xiàn)1)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。運(yùn)行時(shí)間指平均檢測(cè)一個(gè)C-scan 所需時(shí)間;準(zhǔn)確率指目標(biāo)區(qū)域被正確檢測(cè)出來(lái)的像素個(gè)數(shù)占被檢測(cè)出來(lái)的像素總數(shù)的比例;召回率指目標(biāo)區(qū)域被正確檢測(cè)出來(lái)的像素個(gè)數(shù)占應(yīng)該被準(zhǔn)確檢測(cè)出來(lái)的目標(biāo)區(qū)域像素個(gè)數(shù)的比例;F 對(duì)準(zhǔn)確率和召回率進(jìn)行綜合評(píng)價(jià)。指標(biāo)公式定義如下:
其中:TP(True Positive)為地下目標(biāo)區(qū)域被正確檢測(cè)出來(lái)的像素個(gè)數(shù);FP(False Positive)為背景區(qū)域被預(yù)測(cè)為地下目標(biāo)的像素個(gè)數(shù);FN(False Negative)為地下目標(biāo)區(qū)域被預(yù)測(cè)為背景的像素的個(gè)數(shù);TN(True Negative)為背景區(qū)域被正確檢測(cè)出來(lái)的像素個(gè)數(shù)。
2.1.4 實(shí)現(xiàn)細(xì)節(jié)
本文所有模型均使用Pytorch 框架進(jìn)行搭建,編程語(yǔ)言為Python,使用Geforce RTX 2080ti 顯卡進(jìn)行模型訓(xùn)練和測(cè)試。模型的學(xué)習(xí)率設(shè)置為0.000 1,采用Adam 優(yōu)化器。
本文用于訓(xùn)練的B-scan 數(shù)量為1 722 個(gè),為了增加訓(xùn)練樣本量,設(shè)定模型輸入的C-scan 大小為48× 448× 448。但是有些地下目標(biāo)只橫跨8 個(gè)或者16 個(gè)B-scan,因此需將它們進(jìn)行堆疊,合成到48 個(gè)。合成后用于訓(xùn)練的C-scan 數(shù)量一共150 個(gè)(相當(dāng)于7 200 個(gè)B-scan),數(shù)據(jù)量本身較大,所以模型的batch_size 設(shè)置為1 也能保證模型能夠充分訓(xùn)練。使用交叉熵?fù)p失函數(shù),即Cross-Entropy Loss。
所有模型在相同的實(shí)驗(yàn)環(huán)境下進(jìn)行測(cè)試,數(shù)據(jù)集都采用AUD 數(shù)據(jù)集。每個(gè)模型都訓(xùn)練至擬合狀態(tài),且都采用測(cè)試效果最好的模型權(quán)重進(jìn)行對(duì)比,表2 為4 個(gè)模型在測(cè)試集上的量化結(jié)果。實(shí)驗(yàn)結(jié)果表明,3D-CSA-UNet 對(duì)地下目標(biāo)檢測(cè)的各指標(biāo)都取得了最優(yōu)和次優(yōu)結(jié)果。相較于對(duì)比算法,3DCSA-UNet 對(duì)于脫空、鋼筋和鋼筋平行目標(biāo)預(yù)測(cè)的平均F1 至少提高12.33、9.05、11.05 個(gè)百分點(diǎn)。
表2 多個(gè)模型的量化結(jié)果 單位:%Tab.2 Quantified results of multiple models unit:%
圖5 展示了4 種模型檢測(cè)的可視化結(jié)果,實(shí)驗(yàn)結(jié)果表明,其他3 種模型容易受到噪聲和背景的影響,提取的目標(biāo)特征也不清晰。而3D-CSA-UNet 模型由于加入通道和空間注意力并行模塊,可以有效抑制噪聲的干擾,增強(qiáng)模型對(duì)地下目標(biāo)的關(guān)注。從雷達(dá)C-scan 中提取的多尺度的特征,也使分割效果更加細(xì)膩,輪廓更加明顯,有利于提升檢測(cè)精度。
圖5 不同模型的可視化結(jié)果對(duì)比Fig.5 Comparison of visualization results of different models
在運(yùn)行時(shí)間上,各模型的檢測(cè)速度都非常快。表3 展示了各模型平均檢測(cè)一個(gè)C-scan 所需時(shí)間,各模型的檢測(cè)速度相差都不大。3D-CSA-UNet 檢測(cè)一個(gè)C-scan 需要0.24 s,而一個(gè)C-scan 由48 個(gè)B-scan 組成,因此檢測(cè)一個(gè)B-scan 平均只需要0.005 s,可以較好地滿足工程實(shí)際需求。
表3 各模型平均檢測(cè)一個(gè)C-scan所需時(shí)間 單位:s Tab.3 Average time for each model to detect a C-scan unit:s
為了分別驗(yàn)證通道注意力和空間注意力對(duì)模型檢測(cè)的影響,設(shè)置了三組實(shí)驗(yàn),檢測(cè)的目標(biāo)如圖2 所示。針對(duì)3D-CSA-UNet 模型,實(shí)驗(yàn)A 為編碼器和解碼器都不加入兩種注意力;實(shí)驗(yàn)B 為編碼器和解碼器都只加入通道注意力;實(shí)驗(yàn)C 為編碼器和解碼器都只加入空間注意力。
從表4 中的實(shí)驗(yàn)A~C 的量化結(jié)果可以看出,在實(shí)驗(yàn)A 的模型中加入通道注意力或者空間注意力,各項(xiàng)指標(biāo)都有明顯提升。相較于實(shí)驗(yàn)A 的模型,當(dāng)只加入通道注意力時(shí),實(shí)驗(yàn)B 的模型對(duì)鋼筋平行檢測(cè)的召回率提高了6.84 個(gè)百分點(diǎn),有效減少了鋼筋平行的漏檢情況;當(dāng)只加入空間注意力時(shí),實(shí)驗(yàn)C 的模型對(duì)脫空檢測(cè)的準(zhǔn)確率提高了8.17 個(gè)百分點(diǎn),有效提高了脫空檢測(cè)的準(zhǔn)確率。從圖6 中展示的實(shí)驗(yàn)A~C 的可視化效果可以看出:通道注意力和空間注意力均能抑制背景和噪聲對(duì)目標(biāo)的干擾,能提高模型對(duì)鋼筋平行的檢出率。實(shí)驗(yàn)B 和實(shí)驗(yàn)C 的可視化效果表明,通道注意力的去噪能力比空間注意力強(qiáng),而空間注意力對(duì)目標(biāo)特征的學(xué)習(xí)能力更強(qiáng),甚至能夠提取出目標(biāo)的邊緣輪廓特征。因此,本文設(shè)計(jì)了三維通道和空間注意力并行模塊(3D-CS-Block),充分利用兩種注意力各自的優(yōu)勢(shì),幫助模型更好地檢測(cè)地下目標(biāo)。
為了進(jìn)一步驗(yàn)證3D-CS-Block 的有效性,設(shè)置實(shí)驗(yàn)D 只在編碼器部分加入3D-CS-Block;實(shí)驗(yàn)E 只在解碼器部分加入3D-CS-Block;實(shí)驗(yàn)F 中編碼器和解碼器都加入3D-CSBlock,即本文模型。
從表4 中實(shí)驗(yàn)A 和實(shí)驗(yàn)D、E、F 的量化結(jié)果可以看出:如果只在編碼器后加入3D-CS-Block,對(duì)3 類(lèi)地下目標(biāo)檢測(cè)的各項(xiàng)指標(biāo)都有明顯提升。如果只在解碼器后加入3D-CSBlock,雖然F1 提升較小,但是對(duì)于脫空病害檢測(cè)的召回率下降很多,說(shuō)明脫空的漏檢數(shù)量增加了。實(shí)驗(yàn)D 的模型的F1優(yōu)于實(shí)驗(yàn)E,說(shuō)明在編碼器后加入3D-CS-Block 比在解碼器后加入效果更佳。如果編碼器和解碼器后都加入3D-CSBlock,對(duì)鋼筋和鋼筋平行兩類(lèi)目標(biāo)的檢測(cè)指標(biāo)都有明顯提高,而且檢測(cè)脫空病害的召回率也是最高,有效減少了脫空病害漏檢的數(shù)目。從圖6 中的實(shí)驗(yàn)A、D、E、F 的部分可視化效果可以看出:實(shí)驗(yàn)A 的模型沒(méi)有加入3D-CS-Block,容易受到噪聲的影響,將一些背景區(qū)域也會(huì)識(shí)別為地下目標(biāo),且對(duì)于鋼筋平行的檢測(cè)效果不好。實(shí)驗(yàn)D 和E 的可視化效果表明,在編碼器后加入3D-CS-Block 比在解碼器后加入3D-CSBlock,能更好地學(xué)習(xí)目標(biāo)的輪廓特征,有助于提升模型檢測(cè)精度。由實(shí)驗(yàn)D~F 的可視化結(jié)果可知,在實(shí)驗(yàn)A 的模型中每個(gè)編碼器和解碼器后都加入3D-CS-Block,模型的去噪能力變強(qiáng)了,對(duì)地下目標(biāo)的關(guān)注也增多了,且分割的效果也變得更加細(xì)膩。
表4 消融實(shí)驗(yàn)的量化結(jié)果 單位:%Tab.4 Quantified results of ablation experiments unit:%
圖6 消融實(shí)驗(yàn)可視化結(jié)果Fig.6 Visualization results of ablation experiments
綜上所述,通過(guò)加入3D-CS-Block,模型在訓(xùn)練過(guò)程中會(huì)自動(dòng)賦予目標(biāo)和背景不同的權(quán)重值,讓模型有側(cè)重地學(xué)習(xí)地下目標(biāo)特征,減少?gòu)?fù)雜背景和噪聲的影響。同時(shí),模型能夠提取出地下目標(biāo)不同尺度的特征,從不同大小的感受野學(xué)習(xí)目標(biāo)的細(xì)節(jié)特征,使分割效果更加清晰。
為了從復(fù)雜的雷達(dá)C-scan 中檢測(cè)出地下目標(biāo),本文設(shè)計(jì)了三維通道和空間注意力并行模塊,從兩個(gè)角度提取出地下目標(biāo)的三維特征,抑制復(fù)雜背景和噪聲帶來(lái)的干擾。同時(shí)基于該注意力并行模塊設(shè)計(jì)了多尺度的三維分割模型(3D-CSA-UNet),加強(qiáng)對(duì)目標(biāo)特征的提取,從淺層的語(yǔ)義特征中得到目標(biāo)的類(lèi)別信息,從深層的語(yǔ)義特征中得到目標(biāo)的位置信息,從而實(shí)現(xiàn)對(duì)地下目標(biāo)的精確檢測(cè)。實(shí)驗(yàn)結(jié)果表明,3D-CSA-UNet 模型在機(jī)場(chǎng)道面地下目標(biāo)檢測(cè)任務(wù)中有較好的效果。同時(shí),模型存在參數(shù)量較大、訓(xùn)練速度較慢等問(wèn)題,這值得在后續(xù)研究中進(jìn)行改善。