張曉宇,李立明,柴曉冬,鄭樹(shù)彬,汪晨曦
(上海工程技術(shù)大學(xué)城市軌道交通學(xué)院,上海 201620)
鐵路是國(guó)家重要基礎(chǔ)設(shè)施、國(guó)民經(jīng)濟(jì)大動(dòng)脈和大眾化交通工具,對(duì)我國(guó)社會(huì)經(jīng)濟(jì)快速發(fā)展和國(guó)防起著不可替代的全局性支撐作用。我國(guó)高速鐵路和高速列車技術(shù)研究建設(shè)經(jīng)過(guò)了近20 年的發(fā)展歷程,截至2021年底,全國(guó)鐵路營(yíng)業(yè)里程達(dá)到15萬(wàn)km以上,其中,高鐵運(yùn)營(yíng)里程突破4萬(wàn)km。2021年新增高鐵(快鐵)通車?yán)锍碳s2 452 km,除貴陽(yáng)環(huán)線外均為時(shí)速250 km及以上線路。長(zhǎng)期的高速行駛會(huì)引起車輛振動(dòng),從而使鋼軌頂面形成孔洞、擦傷和疤痕等各種缺陷[1]。這些缺陷不僅會(huì)影響鋼軌頂面的外觀,還會(huì)對(duì)鋼軌的性能和安全性產(chǎn)生長(zhǎng)期不利影響。因此,鋼軌頂面缺陷檢測(cè)是檢測(cè)鋼軌質(zhì)量安全的重要環(huán)節(jié)。由于人工檢測(cè)需耗費(fèi)大量人力物力,而鋼軌頂面的檢測(cè)對(duì)在線檢測(cè)精度和實(shí)時(shí)性要求又很高,故手工檢測(cè)技術(shù)很難滿足這種嚴(yán)格要求。視覺(jué)檢測(cè)具有速度快、成本低、性能好等優(yōu)點(diǎn),典型的應(yīng)用包括螺栓檢測(cè)[2]、波紋檢測(cè)[3]和裂縫檢測(cè)[4]。
其中,針對(duì)灰度圖像分布不均問(wèn)題,張輝等[5]提出了基于改進(jìn)MRF的鋼軌表面缺陷自動(dòng)分割方法。針對(duì)難以區(qū)分缺陷與鋼軌表面其他區(qū)域的難題,LI等[6-7]設(shè)計(jì)了一種鋼軌表面缺陷實(shí)時(shí)視覺(jué)檢測(cè)系統(tǒng),分別使用投影法和分層提取器得到缺陷對(duì)象,在一定程度上可將縱向背景信息與橫向缺陷信息進(jìn)行區(qū)分,但當(dāng)鋼軌表面背景過(guò)于復(fù)雜時(shí),準(zhǔn)確率有待提高。隨著深度學(xué)習(xí)方法在視覺(jué)檢測(cè)領(lǐng)域的應(yīng)用與發(fā)展,越來(lái)越多的研究人員開(kāi)始使用深度學(xué)習(xí)方法來(lái)檢測(cè)鋼軌表面缺陷,蘇燁、金俠挺等[8-9]分別運(yùn)用Faster R-CNN卷積神經(jīng)網(wǎng)絡(luò)和語(yǔ)義分割框架DeepLab v3識(shí)別鋼軌表面缺陷,補(bǔ)償和抑制了前景與背景的損失,但當(dāng)缺陷區(qū)域較小時(shí)識(shí)別的效果不佳,容易被誤判,該方法精度有待進(jìn)一步提高。以上方法根據(jù)鋼軌表面缺陷的一種或幾種典型特征,比傳統(tǒng)算法有所改進(jìn),但鋼軌表面背景干擾復(fù)雜或缺陷對(duì)象較小時(shí),效果不盡如人意,會(huì)出現(xiàn)缺陷邊界模糊、缺陷區(qū)域分散的情況,且計(jì)算量較大。
針對(duì)其他檢測(cè)方法存在的缺陷邊界模糊及缺陷區(qū)域分散等問(wèn)題,使用級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行鋼軌頂面缺陷檢測(cè)。采用的RSDDs[10]數(shù)據(jù)集樣本中主要缺陷類型是軋疤、腐蝕、劃痕、孔洞、凹坑等,且缺陷的類型和位置是隨機(jī)的。首先,采用圖像垂直微分投影法,在無(wú)砟軌道圖像中精確定位并分割出鋼軌頂面區(qū)域;然后,使用級(jí)聯(lián)網(wǎng)絡(luò)(Encoder-Decoder Residual)模型[11],用于檢測(cè)鋼軌頂面的疤痕缺陷。其中,為更準(zhǔn)確地提取特征,在第1個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中加入了卷積注意力機(jī)制[12];為得到邊界特征清晰的顯著性圖,在第2個(gè)網(wǎng)絡(luò)中將一維濾波器[13]與空洞卷積[14]相結(jié)合。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,可以發(fā)現(xiàn)本文使用的模型檢測(cè)精度更高、魯棒性更強(qiáng)、實(shí)時(shí)性更好。方法流程如圖1所示。
圖1 基于級(jí)聯(lián)網(wǎng)絡(luò)的鋼軌頂面缺陷檢測(cè)算法流程
在無(wú)砟軌道圖像中包含軌枕、扣件、鋼軌區(qū)域等多種部件,如圖2(a)所示,非鋼軌區(qū)域的圖像信息會(huì)干擾后續(xù)缺陷檢測(cè),且直接對(duì)整個(gè)軌道圖像進(jìn)行缺陷識(shí)別會(huì)耗費(fèi)大量的內(nèi)存和時(shí)間[15]。為更好地檢測(cè)出鋼軌頂面的疤痕缺陷,先使用圖像垂直微分投影法分割得到鋼軌頂面區(qū)域。具體過(guò)程如表1所示。
表1 圖像垂直微分投影法
經(jīng)過(guò)垂直投影后得到的鋼軌頂面區(qū)域圖、垂直投影圖、一階導(dǎo)數(shù)投影圖分別如圖2(b)~圖2(d)所示。
圖2 鋼軌頂面區(qū)域提取
金閎奇等[16]針對(duì)缺陷樣本較少的問(wèn)題,提出一種結(jié)合隨機(jī)子空間和級(jí)聯(lián)殘差網(wǎng)絡(luò)的缺陷檢測(cè)方法,不僅能在一定程度上解決小樣本問(wèn)題,同時(shí)能獲得較高的識(shí)別性能;針對(duì)缺陷種類多樣、邊界模糊等問(wèn)題,方鈞婷等[17]提出一種基于注意力機(jī)制的級(jí)聯(lián)網(wǎng)絡(luò)缺陷檢測(cè)算法,對(duì)金屬表面缺陷進(jìn)行高質(zhì)量分類和定位。針對(duì)軌道缺陷較小的特點(diǎn),侯博文等[18]提出了一種基于深度殘差網(wǎng)絡(luò)的軌道結(jié)構(gòu)病害識(shí)別算法,提高了檢測(cè)效率。同樣,針對(duì)鋼軌頂面缺陷數(shù)據(jù)集樣本有限、檢測(cè)得到的鋼軌缺陷邊界不清晰以及鋼軌頂面疤痕缺陷特征較小等特點(diǎn),使用ResNet-34[19]為主干的級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行特征提取和特征恢復(fù)。該檢測(cè)算法流程如圖3所示。
圖3 鋼軌頂面缺陷檢測(cè)模型
在特征提取階段,由于殘差網(wǎng)絡(luò)使用跳躍層進(jìn)行連接,易于實(shí)現(xiàn)更深層次的網(wǎng)絡(luò),故使用ResNet-34[19]作為特征提取器的主干,相較于以往使用VGG-16[20]模型來(lái)提取不同分辨率特征圖,殘差網(wǎng)絡(luò)可涵蓋更多的缺陷對(duì)象信息,提高缺陷檢測(cè)準(zhǔn)確性的同時(shí)降低了模型的復(fù)雜度。特征提取階段的模型如圖4(a)所示。
圖4 特征提取及特征恢復(fù)
如圖4(a)所示,整個(gè)特征提取部分包含1個(gè)輸入卷積層、4個(gè)殘差注意力塊和1個(gè)橋接模塊。輸入層有64個(gè)通道,卷積核大小為3×3,步長(zhǎng)為1。
輸入圖像I∈H×W×C,其中,H、W、C分別為鋼軌頂面圖像的高度、寬度和通道數(shù)量。分別在6個(gè)層級(jí)上抽象出多尺度特征,表示為{fi,i=0,1,2,3,4,5},分辨率為[H/2i,W/2i]。陳慶文[21]提出一種基于深度聚類注意力機(jī)制的顯著對(duì)象檢測(cè)算法DCANet,可以更好地建立特征級(jí)別的像素上下文關(guān)聯(lián);孫美君[22]通過(guò)三線性全局注意力模塊進(jìn)一步細(xì)化淺層特征的空間位置信息,最終達(dá)到高效準(zhǔn)確的自動(dòng)化表面缺陷檢測(cè)目的。于是,為有效降低訓(xùn)練誤差,使得模型收斂速度更快,將輕量級(jí)卷積注意力模塊(CBAM[23])嵌入ResNet-34的每個(gè)殘差基本塊中,以快速收斂形成殘差注意力塊,記為Res_cbam-i(i∈{1,2,3,4}),其結(jié)構(gòu)如圖5所示。具體來(lái)說(shuō),給定一個(gè)中間特征圖F∈H×W×C,注意力機(jī)制模塊會(huì)依次推斷一維通道注意力圖Mc∈C×1×1以及二維空間注意力圖Ms∈1×H×W,整個(gè)注意過(guò)程可總結(jié)為
圖5 殘差注意力塊
F′=Mc(F)?F,
F″=Ms(F′)?F′
(1)
式中,?為元素乘法。
為恢復(fù)先前多尺度特征中編碼的疤痕缺陷對(duì)象顯著性信息,在特征恢復(fù)階段設(shè)計(jì)了信道加權(quán)塊和殘差解碼器塊兩大模塊,在提高檢測(cè)效率,降低模型復(fù)雜度和維度的同時(shí),又提高了跨渠道的信息交互能力。特征恢復(fù)階段的模型如圖4(b)所示。
2.2.1 信道加權(quán)塊
由特征提取階段直接提取出的疤痕缺陷特征圖更多地聚焦于不顯著的鋼軌背景區(qū)域,主要原因是未充分考慮全局上下文信息,導(dǎo)致預(yù)測(cè)結(jié)果不正確。為解決這個(gè)問(wèn)題,使用信道加權(quán)塊來(lái)濾除背景噪聲的干擾,使得模型更加關(guān)注疤痕缺陷對(duì)象區(qū)域及其邊界,從而獲得更有效的特征區(qū)域。信道加權(quán)塊的輸入是當(dāng)前編碼特征X和來(lái)自下一解碼器級(jí)的輸出特征Y的級(jí)聯(lián)特征映射。為保持與X相同的分辨率,將特征Y進(jìn)行2倍的上采樣操作。信道加權(quán)模塊結(jié)構(gòu)如圖6所示。形式上,信道加權(quán)塊Z定義為
圖6 信道加權(quán)塊
(2)
式中,Cat為上采樣-連接操作;G為全局池化層;fconv為特征融合的瓶頸結(jié)構(gòu);σ為sigmoid激活函數(shù);?為元素乘法;⊕為逐元素求和運(yùn)算。
2.2.2 殘差解碼器塊
殘差解碼器塊用來(lái)恢復(fù)在先前的多級(jí)特征中編碼的疤痕缺陷對(duì)象信息。如圖7所示,為增強(qiáng)模型的泛化能力,挖掘出更多潛在的疤痕缺陷特征信息,在兩個(gè)3×3卷積層之間增加了通道隨機(jī)混合[24]操作。通道隨機(jī)混合不包含任何其他復(fù)雜的運(yùn)算,可實(shí)現(xiàn)更高的檢測(cè)效率,降低模型復(fù)雜度。此外,為實(shí)現(xiàn)降維的同時(shí)提高跨渠道的信息交互能力,增加了一個(gè)1×1卷積層。
圖7 殘差解碼器塊
對(duì)于輸入的鋼軌頂面圖像,通過(guò)特征提取和恢復(fù)階段獲得6個(gè)維度的輸出特征圖。由于最后一個(gè)維度輸出的特征圖(圖8中粗值圖所示)具有更高的檢測(cè)精度和更豐富的缺陷特征信息,將其作為邊界精細(xì)化網(wǎng)絡(luò)的輸入,進(jìn)一步優(yōu)化粗值圖中缺少的邊界和區(qū)域細(xì)節(jié)。
圖8 特征邊界精細(xì)化階段模型
如圖8所示,邊界精細(xì)化網(wǎng)絡(luò)同樣使用了編解碼形式的網(wǎng)絡(luò)結(jié)構(gòu),受到ANON[13]的啟發(fā),為有效地平衡細(xì)化性能和計(jì)算效率,將殘差精細(xì)化結(jié)構(gòu)與一維濾波器相結(jié)合。其中,為實(shí)現(xiàn)更深層的網(wǎng)絡(luò)并減少計(jì)算量,使用最大池化層進(jìn)行下采樣;為匹配特征維數(shù),使用雙線性插值進(jìn)行上采樣。此外,為能夠獲得更大的感受野并提高準(zhǔn)確性,使用空洞卷積[14](擴(kuò)張率r=2,4)代替普通卷積。空洞卷積與普通卷積的對(duì)比如圖9所示。與使用更大的卷積核相比,使用空洞卷積在計(jì)算成本和參數(shù)復(fù)雜度方面更合理有效。通過(guò)標(biāo)識(shí)映射分支將輸出與輸入粗映射相加,然后將經(jīng)sigmoid 激活函數(shù)映射后的精細(xì)化特征圖作為模型最終輸出。經(jīng)過(guò)特征邊界精細(xì)化處理前后的檢測(cè)效果對(duì)比如圖10所示。
圖9 空洞卷積與普通卷積對(duì)比
圖10 特征邊界精細(xì)化前后檢測(cè)效果對(duì)比
已有方法大多使用交叉熵作為訓(xùn)練損失,很難獲得缺陷對(duì)象的全局信息,可能產(chǎn)生模糊的邊界或不完整的檢測(cè)結(jié)果。針對(duì)這一問(wèn)題,在QIN等[25]工作的啟發(fā)下,構(gòu)造了一個(gè)融合損失函數(shù)來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過(guò)程,以便在缺陷邊緣學(xué)習(xí)和獲得更詳細(xì)的顯著性信息。
融合損失由3部分組成,包括二元交叉熵(BCE[26])損失、聯(lián)合邊界交點(diǎn)(邊界IOU[27])損失和結(jié)構(gòu)相似性(SSIM[28])損失。模型的總損失被定義為
(3)
BCE用來(lái)反映預(yù)測(cè)值和實(shí)際標(biāo)簽之間的概率分布差異。其定義為
(4)
BCE難以處理缺陷對(duì)象檢測(cè)中常見(jiàn)的類不平衡問(wèn)題,于是進(jìn)一步采用邊界IOU損失來(lái)懲罰不準(zhǔn)確的分類,并增強(qiáng)區(qū)域一致性和邊界響應(yīng),被定義為
Liou=1-
(5)
SSIM用來(lái)預(yù)測(cè)顯著圖和真實(shí)圖像之間的結(jié)構(gòu)相似性,被定義為
(6)
經(jīng)過(guò)多次訓(xùn)練后,模型所得各損失值及總的損失值如表2所示。
表2 檢測(cè)模型訓(xùn)練損失值
實(shí)驗(yàn)采用PyTorch作為深度學(xué)習(xí)框架,使用GPU加速訓(xùn)練過(guò)程,其使用的硬件配置為Intel(R)Xeon(R)Silver 4214 CPU @ 2.20 GHz處理器、64G運(yùn)行內(nèi)存、NVIDIA GeForce RTX 2080 Ti顯卡;軟件環(huán)境為Windows 10系統(tǒng),Python 3.7;GPU加速器為CUDA10.1。使用檢測(cè)模型的初始參數(shù)值設(shè)定如表3所示。
表3 檢測(cè)模型初始參數(shù)值設(shè)定
將本文使用的檢測(cè)模型與其他6種較為先進(jìn)的基于深度學(xué)習(xí)檢測(cè)方法進(jìn)行了比較,包括BASNet[25]、PFANet[29]、PoolNet[30]、R2Net[31]、U2Net[32]以及SOD[33]。為公平比較,使用默認(rèn)參數(shù)運(yùn)行源代碼或可執(zhí)行文件,所有比較的模型均在相同的訓(xùn)練集上重新訓(xùn)練得到。
所使用的RSDDs[10]數(shù)據(jù)集樣本中缺陷的主要類型是軋疤、腐蝕、劃痕、孔洞、凹坑等,且缺陷的類型和位置是隨機(jī)的。該數(shù)據(jù)集主要由從快速鐵路和重載鐵路捕獲的二維灰度圖像組成,包括2個(gè)子數(shù)據(jù)集:Ⅰ型和Ⅱ型。相較于Ⅰ型數(shù)據(jù)集,Ⅱ型數(shù)據(jù)集的背景更窄且更一致,但卻包含了更復(fù)雜的缺陷。其中,選取160張(包括110張Ⅰ型、50張Ⅱ型)作為訓(xùn)練數(shù)據(jù)集;剩下的35張(包括18張Ⅰ型、17張Ⅱ型)作為測(cè)試訓(xùn)練集。
使用幾個(gè)普遍認(rèn)可的指標(biāo)來(lái)評(píng)估各種檢測(cè)方法的性能,包括精確召回率(PR[34])曲線、F測(cè)度曲線(F-measure[35])、平均絕對(duì)誤差(MAE)[36]、ROC[37]及AUC[38]。所使用評(píng)價(jià)指標(biāo)的參數(shù)定義如表4所示。
表4 評(píng)價(jià)指標(biāo)參數(shù)定義
精確率(Precision)為檢測(cè)出的鋼軌頂面疤痕缺陷準(zhǔn)確率,召回率(Recall)為在所有的疤痕缺陷中有多少被正確檢測(cè)出來(lái),其定義如下
(7)
(8)
ROC曲線橫坐標(biāo)為FPR(False Positive Rate),表示所有非疤痕缺陷中有多少被預(yù)測(cè)為疤痕缺陷;縱坐標(biāo)為TPR(True Postive Rate),表示有多少真正的疤痕缺陷被預(yù)測(cè)出來(lái)。
(9)
(10)
F測(cè)度曲線被定義為精確率和召回率的加權(quán)調(diào)和平均值,用于綜合評(píng)估特征圖的質(zhì)量。
(11)
式中,β2一般取值為0.3,相當(dāng)于增大了Precision的重要性。每對(duì)P-R,都可以計(jì)算出1個(gè)Fβ,通常取最大的(或取均值)Fβ作為評(píng)價(jià)指標(biāo),記為maximumF-measure(或meanF-measure)。
將ROC曲線下的面積記為AUC(Area Under Curve),其取值范圍為[0.5,1],其值越大代表該方法效果越好。
平均絕對(duì)誤差用來(lái)測(cè)量歸一化特征圖S和真實(shí)值G之間的相異度,定義為
(12)
如圖11所示,文中使用的模型獲得了最佳檢測(cè)結(jié)果,在各種挑戰(zhàn)性的情況下,該結(jié)果與相應(yīng)的標(biāo)簽真值圖情況非常接近。具體來(lái)說(shuō),對(duì)于對(duì)比度低、前景雜亂的圖像,以往大多數(shù)方法都錯(cuò)誤地將一些背景區(qū)域視為缺陷對(duì)象,而本文所使用的模型可有效地消除背景噪聲的干擾,不會(huì)出現(xiàn)過(guò)大的錯(cuò)誤檢測(cè)。當(dāng)圖像遭受復(fù)雜背景干擾時(shí),大多數(shù)檢測(cè)方法會(huì)產(chǎn)生模糊輪廓或分散顯著斑塊等不良結(jié)果。相比之下,本文所使用的模型有效地從復(fù)雜背景中識(shí)別出疤痕缺陷對(duì)象,并生成高對(duì)比度的疤痕缺陷特征圖。最后,對(duì)于具有復(fù)雜對(duì)象邊界和精細(xì)結(jié)構(gòu)的圖像,在所提出的邊界精細(xì)化網(wǎng)絡(luò)結(jié)構(gòu)幫助下,能夠精確地分割具有清晰邊界的整個(gè)疤痕缺陷對(duì)象。以上結(jié)果證明了該模型的合理性和優(yōu)越性。
圖11 各種方法在Ⅰ型、Ⅱ型數(shù)據(jù)集下所得檢測(cè)效果對(duì)比
為定量對(duì)比評(píng)估檢測(cè)出的缺陷對(duì)象的質(zhì)量,在表5及圖12(a)~圖12(c)中分別展示了本文所使用的模型相對(duì)于其他6種方法的性能,其中1~7分別代表本文方法、BASNet[26]、PFANet[30]、POOLNet[31]、R2Net[32]、U2Net[33]以及SOD[34]??梢钥闯?,所提出的模型在MAE和AUC方面始終優(yōu)于其他方法。特別是,本文使用模型的PR值在一個(gè)大的閾值范圍內(nèi)保持在90%以上。即使對(duì)于目前最好的SOD[34]方法,本文所使用的模型仍然具有很大優(yōu)勢(shì)。這些結(jié)果客觀地驗(yàn)證了該模型的有效性和魯棒性。
圖12 多種方法進(jìn)行鋼軌頂面檢測(cè)效果評(píng)價(jià)對(duì)比
表5 多種方法進(jìn)行鋼軌頂面檢測(cè)效果評(píng)價(jià)對(duì)比值
本文方法在RSDDs[10]數(shù)據(jù)集上所得到的實(shí)驗(yàn)結(jié)果如表6所示,對(duì)于Ⅰ型和Ⅱ型鋼軌頂面缺陷的檢測(cè)精度分別達(dá)到了98.6%和96.4%;單張圖像的檢測(cè)速度分別為0.037 s和0.046 s。
表6 Ⅰ、Ⅱ型鋼軌頂面缺陷檢測(cè)結(jié)果
(1)研究提出一種基于級(jí)聯(lián)網(wǎng)絡(luò)的鋼軌頂面缺陷檢測(cè)方法。首先,通過(guò)使用圖像垂直微分投影法較為準(zhǔn)確地從無(wú)砟軌道圖像中定位并分割出鋼軌頂面區(qū)域,接著通過(guò)訓(xùn)練以ResNet-34[18]為主干的級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行特征提取和特征恢復(fù),獲得鋼軌頂面疤痕缺陷的特征細(xì)節(jié)信息,從而實(shí)現(xiàn)對(duì)鋼軌頂面疤痕缺陷的檢測(cè)。
(2)在特征提取階段引入卷積注意力機(jī)制模塊,在降低訓(xùn)練誤差、提高收斂速度的同時(shí)提取出更加精確的鋼軌頂面疤痕缺陷特征;采用信道加權(quán)模塊與殘差解碼器模塊相結(jié)合的方式進(jìn)行缺陷特征恢復(fù);在特征恢復(fù)后設(shè)計(jì)了一個(gè)邊界精細(xì)化網(wǎng)絡(luò),以此得到邊界清晰明確的缺陷特征圖。此外,構(gòu)造了一個(gè)融合損失函數(shù)來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過(guò)程,以便在缺陷邊緣學(xué)習(xí)過(guò)程中獲得更詳細(xì)的顯著性信息。
(3)通過(guò)多種方法對(duì)比,結(jié)果表明:本文方法有較高的檢測(cè)效率,平均絕對(duì)誤差僅為0.001 2,對(duì)于Ⅰ型和Ⅱ型鋼軌頂面疤痕缺陷的檢測(cè)精度分別達(dá)到了98.6%和96.4%,平均檢測(cè)速度僅為0.041 s,為鋼軌頂面缺陷檢測(cè)提供了一種新的解決方案。