喬彥涵,陳 文,鄒勁柏,季國一
(上海應(yīng)用技術(shù)大學(xué) 軌道交通學(xué)院,上海 201418)
近年來,我國鐵路營業(yè)里程不斷增加,線路覆蓋范圍持續(xù)擴大,鐵路成為促進各地區(qū)經(jīng)濟發(fā)展的重要交通運輸工具[1]。鐵路運輸高度依賴軌道線路,軌道線路直接關(guān)系到列車行駛的安全和穩(wěn)定,因此,有必要對軌道線路進行定期檢測。
軌道緊固件作為軌道線路的重要組成部分,是保障軌道線路運營安全的重要一環(huán)。傳統(tǒng)的軌道緊固件檢查方式是人工巡檢,雖然精度較高,但效率低下,且存在安全隱患[2]。為解決該類問題,主要有基于計算機視覺和圖像處理技術(shù)結(jié)合的方法,以及利用卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)的方法。前者對不同軌道緊固件的故障類型檢測效果較差,普適性不強[3-4];后者計算量較大,且受限于傳統(tǒng)感受野,在捕獲全局特征表示方面有一定的局限性[5-6]。目前,基于自注意力機制的Transformer從自然語言處理領(lǐng)域到計算機視覺領(lǐng)域都取得了成功,成為繼CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN ,Recurrent Neural Network)之后又一個高效的特征提取器,其優(yōu)點是能夠直接捕捉到全局的聯(lián)系,因為它直接把序列作兩兩比較(代價是計算量變?yōu)镺(n2));相比之下,RNN需要進行一步步遞推才能捕捉到全局的聯(lián)系,而CNN則需要通過層疊來擴大感受野[7]。與RNN和CNN相比,Transformer的訓(xùn)練效率更加顯著,因此,可使用Transformer來完成視覺任務(wù),以降低結(jié)構(gòu)的復(fù)雜性,探索可擴展性。
常見的軌道緊固件缺陷有缺失和損壞兩種情況。其中,軌道緊固件缺失包括鋼軌扣壓件缺失和螺栓缺失,鋼軌扣壓件缺失后會遺留軌下墊層,螺栓缺失后會遺留下螺孔,遺留物的背景信息復(fù)雜多樣且會帶來干擾,導(dǎo)致常規(guī)目標(biāo)檢測算法產(chǎn)生誤檢[8];軌道緊固件損壞指鋼軌扣件損壞、凸出或凹陷,由于鋼軌扣件整體型材相近,裂紋或裂縫難以被常規(guī)目標(biāo)檢測算法識別,導(dǎo)致發(fā)生漏檢情況[9]。
綜上,本文提出一種基于Transformer與局部特征融合的方法來識別軌道緊固件缺陷,建立軌道緊固件缺陷檢測模型,通過卷積獲取局部特征信息,結(jié)合Transformer提取全局特征,從而減少缺失誤識別和損壞漏識別情況的發(fā)生。
軌道緊固件缺陷檢測模型架構(gòu)如圖1所示。該模型由基于CNN的淺層局部特征提取模塊、基于Transformer的全局特征提取模塊和基于多層感知機(MLP,Multilayer Perceptron)的分類模塊組成。
圖1 軌道緊固件缺陷檢測模型架構(gòu)
由于本文使用的數(shù)據(jù)集規(guī)模較小,易出現(xiàn)過擬合的情況[10],故本模塊由3個大小為3×3的卷積、1個ReLU激活函數(shù)及最大池化層組成。
局部特征提取過程為:(1)利用卷積函數(shù)Conv提取圖像的淺層特征,獲取局部信息,為防止下采樣過程中的圖像信息丟失,設(shè)置步長為2,保留圖片完整信息;(2)通過ReLU激活函數(shù)進行非線性增強;(3)利用MaxPool的特征不變性對圖像進行降維,壓縮圖像的空間冗余信息,避免了梯度爆炸和消失問題。將局部特征圖輸出結(jié)果g(x)用公式表示為
1.2.1 Patch Embedding
ViT(Vision Transformer)是將Transformer應(yīng)用在圖像分類的模型[11],將輸入圖片分為多個大小相同的塊,再將每個塊投影為固定長度的向量輸入Transformer,同時,在輸入序列中加入Token,實現(xiàn)對圖片的分類, Token對應(yīng)的輸出即為類別預(yù)測。當(dāng)訓(xùn)練數(shù)據(jù)足夠多時,ViT的表現(xiàn)可超過CNN,突破Transformer缺少歸納偏置的限制,在下游任務(wù)中可獲得較好的遷移效果,但當(dāng)訓(xùn)練數(shù)據(jù)集不夠大時,其表現(xiàn)通常比同等大小的ResNets要差一些。
Patch Embedding過程中,ViT將輸入圖像切分成大小相同的塊,然后線性映射為 Token向量作為輸入,但這些Token無法直接適用于不同尺寸圖像輸入,當(dāng)圖像大小改變時,序列長度也隨之改變,造成邊緣信息丟失[12]。因此,本文將ViT模型中圖像Token 化的Patch Embedding 過程替換為利用CNN提取底層特征的過程來進行 Patch Embedding,每一階段的Token序列由上一階段的Token序列卷積而來,這樣進行卷積操作不會丟失圖像的邊緣信息。
具體操作為:(1)設(shè)定用卷積核大小為7×7的卷積對輸入的特征圖像塊進行卷積操作,映射結(jié)果輸入到新的Token map中;(2)利用全局平均池化將Token map展平,得到最終的Token序列;(3)通過 Transformer 的多頭注意力機制(MHA ,Multi-Head Attention),獲取對全局的理解。
1.2.2 Transformer block
Transformer 利用注意力機制建立起序列間的遠距離依賴關(guān)系,能夠提高缺陷識別的準(zhǔn)確率。Token序列進入到Transformer block中,為防止模型過擬合和輸入數(shù)據(jù)特征分布的不斷變化,通過Layer Norm實現(xiàn)歸一化,使數(shù)據(jù)分布更加穩(wěn)定,對Token序列進行標(biāo)準(zhǔn)化處理,保留不同特征間的大小關(guān)系。
圖1中Transformer block的具體結(jié)構(gòu)如圖2所示,其功能主要由多頭注意力(MHA,Multi-Head Attention)和MLP實現(xiàn),層與層之間使用ResNet中的殘差結(jié)構(gòu)進行連接。每一層的MHA塊和 MLP 塊中的殘余連接之前都使用層歸一化處理[13]。
圖2 Transformer block具體結(jié)構(gòu)
MHA是Transformer架構(gòu)的核心。其計算過程為
式(2)、式(3)中,XA為上層輸入的Token特征序列,矩陣WQ、WK、WV∈R,Q(query)、K(key)、V(value)分別為Token特征序列投影到不同的權(quán)重矩陣所對應(yīng)的查詢向量、鍵值向量和值向量;為得到不同特征位置的概率分?jǐn)?shù),將Q與K相乘,計算出不同輸入矩陣間的注意力分?jǐn)?shù),同時引入比例因子保障數(shù)據(jù)穩(wěn)定性,dk為K向量的維度;引入Softmax函數(shù)將各特征位置上的注意力分?jǐn)?shù)轉(zhuǎn)為概率,再與V矩陣相乘,得到加權(quán)后的特征圖矩陣[14],Attention(Q,K,V)表示單頭注意力機制的輸出結(jié)果。
與單頭注意力機制相比,MHA能夠計算整張?zhí)卣鲌D的所有特征間的相關(guān)性,從而獲得全局視野和充足的上下文信息,因此需將多個獨立的自注意力頭拼接成多頭自注意力機制(MHSA,Multi-Head Self-Attention),計算過程為
最后,通過reshape操作改變張量維度和形狀,將包含特征信息的圖像特征整合,輸入到基于MLP的分類模塊中。
將圖像特征輸入到分類模塊中,用于實現(xiàn)軌道緊固件缺陷的分類識別。在分類模塊中搭建MLP模型,模型輸出層采用Sigmoid函數(shù),優(yōu)化器采用Adam,通過對擴增數(shù)據(jù)集的訓(xùn)練與測試,得到缺陷所屬類別,同時,引入Softmax函數(shù),將各類別的注意力分?jǐn)?shù)轉(zhuǎn)為概率,最終得到缺陷所屬類別及其概率。
因軌道緊固件沒有公開的數(shù)據(jù)集,所以本文收集了大量軌道緊固件近景圖,通過修改圖片亮度和對比度來模擬不同光照和不同天氣情況下的軌道情況。由于異常緊固件在實際軌道上出現(xiàn)較少,因而通過樣本擴增的策略對損壞、缺失的軌道緊固件圖像采用平移、旋轉(zhuǎn)、縮放、裁剪、鏡像等方式來擴充訓(xùn)練集,最終得到1 800張圖像,并按照7∶2∶1的比例劃分為訓(xùn)練集、驗證集和測試集。使用LabelMe標(biāo)注軟件進行標(biāo)注,標(biāo)注類型分為正常緊固件(Normal)、損壞緊固件(Damage)、丟失緊固件(Lost),共3類。
本文實驗環(huán)境如表1所示,模型參數(shù)設(shè)置如表2所示。
表1 實驗環(huán)境
表2 模型參數(shù)設(shè)置
2.3.1 模型對比實驗
為驗證本文軌道緊固件缺陷檢測模型的缺陷檢測能力,選擇傳統(tǒng)的CNN模型(ResNet-50)、經(jīng)典的YOLO(You Only Look Once)模型(YOLOv3)和原始的Transformer模型(ViT)與本文模型進行對比實驗。評價內(nèi)容為Normal、Damage和Lost,共3類,采用的評價指標(biāo)為準(zhǔn)確率P、召回率R和平均準(zhǔn)確率均值mAP。3者的計算公式為
式(7)~式(9)中,TP表示檢測正確的數(shù)量;FN表示未檢測出的數(shù)量;FP表示誤檢測的數(shù)量;AP表示某一類別缺陷檢測的平均準(zhǔn)確率,即P和R積分的結(jié)果。i表示評價內(nèi)容的類別,本文共有3種類別,故i=3。
4種方法的檢測結(jié)果對比如表3所示。由表3可知,相對于傳統(tǒng)的CNN、YOLO及Transformer模型,本文方法的準(zhǔn)確率、召回率及平均準(zhǔn)確率均值均有所提升,準(zhǔn)確率達到了90%以上,相較于ResNet-50、YOLOv3、ViT 模型分別提升了6.6%、3.6%、1.9%,mAP值相對于次好的ViT模型也提升了1.4%。實驗結(jié)果表明,本文提出的方法在軌道緊固件缺陷檢測效果上具有良好表現(xiàn)。
表3 4種方法的檢測結(jié)果對比
2.3.2 可視化分析
為驗證模型在真實場景下的缺陷檢測效果,從測試集中隨機選取圖片,使用本文的模型進行缺陷檢測,并將輸出結(jié)果可視化。4 種方法對軌道緊固件缺陷檢測效果定性對比,如圖3和圖4所示。
圖3 軌道緊固件缺失檢測
圖4 軌道緊固件損壞檢測
圖3展示了 4 種方法對軌道緊固件缺失的檢測效果。 ResNet-50 模型對于近距離的緊固件檢測效果較好, 但是對于遠距離的軌道緊固件存在漏檢;YOLOv3 模型與 ViT模型相對于ResNet-50 模型遠距離檢測的置信度更高,但對于部分遮擋下的軌道緊固件存在誤檢;本文方法的檢測效果最佳, 無論軌道緊固件的距離遠近,均能有效檢測出缺失情況, 部分遮擋下的軌道緊固件也不存在誤檢測。
圖4展示了 4 種方法對軌道緊固件損壞的檢測效果。 ResNet-50 模型未能識別圖中的緊固件損壞情況;YOLOv3 模型將軌道緊固件損壞誤檢為軌道緊固件缺失;ViT模型雖然識別到軌道緊固件損壞的情況,但檢測的置信度偏低;本文方法不僅能夠檢測到軌道緊固件損壞的情況,同時檢測的置信度值也較高。
由圖3、圖4可看出,本文提出的方法可在鐵路軌道復(fù)雜環(huán)境下更準(zhǔn)確地檢測到軌道緊固件缺失及損壞的情況。
為提升軌道緊固件的巡檢效率和準(zhǔn)確率,本文提出一種基于Transformer與局部特征融合的軌道緊固件缺陷檢測方法。構(gòu)建軌道緊固件缺陷檢測模型,在擴充數(shù)據(jù)集上進行的模型對比實驗及可視化實驗表明,該方法檢測精確率達91.4%,平均準(zhǔn)確率均值達86.1%,高于原始的 CNN和Transformer模型,證明本文方法在軌道緊固件缺陷檢測方面的有效性,對軌道線路的安全檢測具有參考意義。同時,由于軌道線路環(huán)境的不確定性,在檢測過程中仍存在誤檢或漏檢等現(xiàn)象,因此,需要進一步克服不確定環(huán)境對檢測結(jié)果造成的影響,研究更高準(zhǔn)確率的檢測方法。