摘要:盡管近年來目標檢測技術(shù)已取得顯著進展,但在復雜環(huán)境中的多目標檢測仍面臨諸多挑戰(zhàn)。為了解決這些問題,文章對Faster RCNN模型進行了改進。選擇ResNet101作為特征提取網(wǎng)絡(luò),替代傳統(tǒng)的VGG16,以緩解因網(wǎng)絡(luò)深度增加而引起的信息傳遞衰減問題,提高特征學習效率。此外,還引入了多尺度融合模塊,該結(jié)構(gòu)能夠更有效地處理不同尺寸的目標,從而增強檢測性能。實驗結(jié)果表明,在橋梁缺陷檢測任務(wù)中,經(jīng)過這2項改進的Faster RCNN模型表現(xiàn)優(yōu)異,準確率達到了91.4%,平均準確率均值達到了90.6%。這對于及時發(fā)現(xiàn)并修復橋梁結(jié)構(gòu)問題具有重要的實際應(yīng)用價值。
關(guān)鍵詞:橋梁缺陷;缺陷檢測;深度學習
中圖分類號:TP311" 文獻標志碼:A
0 引言
橋梁作為交通運輸網(wǎng)絡(luò)中的關(guān)鍵基礎(chǔ)設(shè)施,其結(jié)構(gòu)安全對于保障社會經(jīng)濟活動的正常運轉(zhuǎn)及人民群眾的生命財產(chǎn)安全至關(guān)重要。然而,在長期使用過程中,橋梁結(jié)構(gòu)會因為環(huán)境侵蝕、材料老化以及荷載作用等多種因素影響而產(chǎn)生各種缺陷。如果不及時發(fā)現(xiàn)并妥善處理這些缺陷,將會嚴重影響橋梁的承載能力和使用壽命。傳統(tǒng)的橋梁檢測手段主要依賴人工視覺檢查,這種方式不僅效率低下,而且檢查結(jié)果極易受到檢查人員經(jīng)驗及主觀判斷的影響,容易導致漏檢和錯檢。因此,如何利用現(xiàn)代信息技術(shù)提升橋梁缺陷檢測的效率與準確性,已成為當前橋梁維護管理工作中亟待解決的關(guān)鍵問題。
近年來,深度學習領(lǐng)域取得了顯著進展,在圖像識別等多個應(yīng)用領(lǐng)域得到廣泛推廣。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被認為是目前功能強大且應(yīng)用廣泛的深度學習方法之一,現(xiàn)已發(fā)展出多種成熟的CNN架構(gòu)可供選擇。1998年,Lecun等[1]設(shè)計并實現(xiàn)了第一個CNN模型,名為LeNet-5,它成功地實現(xiàn)了手寫數(shù)字的準確識別。2012年,Krizhevsky等[2]引入了AlexNet,這是一個成功地采用ReLU激活函數(shù)取代Sigmoid函數(shù)的里程碑式的模型,從而取得了更好的訓練效果。2015年,微軟研究院的Kaiming He和其團隊提出了ResNet模型,顯著提高了計算速度和準確率。同一年,Joseph Redmon和其團隊推出了YOLO(You Only Look Once)模型,這個模型顯著地提升了計算速度,計算幀率已經(jīng)足夠支持對視頻的實時檢測。
當前,眾多研究人員正在開展廣泛而深入的目標檢測算法研究。宋冬梅[3]在其研究中,創(chuàng)新性地提出了一種基于機器視覺的指針式儀表檢測模型。對YOLO v3檢測方法進行優(yōu)化,該模型有效提升了指針儀表的識別精度。然而,在面對同一圖像中存在多個儀表需同時檢測的情況時,該算法仍存在一定比例的漏檢問題。
楊彬等[4]對Mask RCNN焊縫缺陷檢測模型進行了優(yōu)化,研究人員在模型的殘差網(wǎng)絡(luò)后端引入了變形卷積操作,這使得模型能夠更全面地提取各種類型的焊接缺陷信息,從而降低對微小節(jié)點的遺漏。然而,在這個過程中,研究人員并未充分考慮目標檢測的實時性需求。
趙麟坤等5]為了解決碳纖維編織物的缺陷檢測難題,提出了一種優(yōu)化過的Faster RCNN檢測模型。該模型使用ResNet 50作為特征提取網(wǎng)絡(luò),有效地克服了在卷積運算過程中小尺寸缺陷特征失真問題。然而,雖然模型有所改進,但在加快缺陷檢測速度方面,該模型并未實現(xiàn)顯著突破。
總體而言,盡管研究者們已在目標檢測算法上取得了顯著進展,但在復雜環(huán)境下的多目標檢測精度方面,仍面臨諸多挑戰(zhàn),需要進一步優(yōu)化和突破。
1 Faster RCNN模型
在目標檢測領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用主要分為2種類型:一種是單階段檢測算法,例如YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)等,這些方法試圖直接從輸入圖像中一次性預測出目標的類別和邊界框;另一種是雙階段檢測算法,如RCNN系列(包括RCNN、Fast RCNN等)以及更先進的Faster RCNN。
Faster RCNN是一種深度學習模型,主要由特征提取網(wǎng)絡(luò)、區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network,RPN)和檢測網(wǎng)絡(luò)組成。特征提取網(wǎng)絡(luò)通常選擇VGG16作為基礎(chǔ),用于從輸入圖像中提取高級視覺特征。在預處理階段,對圖像數(shù)據(jù)集進行標準化處理,然后將其輸入特征提取網(wǎng)絡(luò)中用以提取圖像特征。得到的特征圖將供RPN層和感興趣區(qū)域池化層(Region of Interest Pooling,ROI Pooling)進行進一步分析。RPN作為一個子網(wǎng)絡(luò),接收特征圖并生成一組可能包含目標對象的候選區(qū)域。這個過程的關(guān)鍵是錨框,目的是覆蓋圖像上所有可能的目標位置和尺寸。RPN通過卷積運算,對每個錨框進行類別預測和邊界框回歸,最終生成一系列精確的候選框。這些候選框在特征圖上的相應(yīng)區(qū)域被ROI Pooling層進行池化操作,得到固定尺寸的特征向量。在此步驟之后,局部特征層將通過全連接層進行進一步處理,包括分類預測層和回歸預測層,用于確定物體的類別和微調(diào)候選框的坐標。
2 改進 Faster RCNN 模型
Faster RCNN算法在處理圖像中小目標和低質(zhì)量圖像時存在識別精度下降、檢測性能不足等問題,該研究提出了針對性的2項改進措施。
該研究選擇了ResNet101網(wǎng)絡(luò)作為替代方案。ResNet101利用殘差塊設(shè)計有效地緩解了深度網(wǎng)絡(luò)訓練中的梯度消失問題,能夠?qū)崿F(xiàn)更深的層次結(jié)構(gòu)和更高的特征學習效率,從而有望提升整體檢測性能并降低存儲需求。
為了有效應(yīng)對各類尺寸目標檢測任務(wù)中的挑戰(zhàn),該研究引入多尺度融合特征模塊。這一設(shè)計的核心在于確保無論目標物體尺寸大小如何,都能夠充分提煉出詳盡豐富的特征描述,進而顯著增強對多種尺度目標的檢測精確度與魯棒性。
改進的Faster RCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖 1所示。
2.1 使用 Resnet101 殘差網(wǎng)絡(luò)
原始的Faster RCNN特征提取網(wǎng)絡(luò)通常使用經(jīng)典的VGG16架構(gòu)。然而,隨著網(wǎng)絡(luò)層數(shù)的增加,梯度在反向傳播過程中會逐漸減弱,導致梯度消失現(xiàn)象,從而引起細節(jié)信息丟失,降低網(wǎng)絡(luò)的整體性能。相比之下,ResNet通過引入殘差模塊來進行網(wǎng)絡(luò)構(gòu)建,殘差模塊如圖2所示。在這些模塊中,輸入X經(jīng)過一系列變換F(X),通過“短路連接”(即跳躍連接)直接與輸出相連。這種方式使得每一層只需學習輸入與輸出之間的殘差部分,從而減少了計算復雜度。即使在某些情況下出現(xiàn)了梯度消失,由于短路連接的存在,網(wǎng)絡(luò)仍然能夠保持輸入到輸出的恒等映射,保證后續(xù)的學習過程不受影響??紤]到整個特征提取過程的需求,本研究選擇了 ResNet101作為特征提取網(wǎng)絡(luò)。相較于ResNet18和ResNet34這種淺層網(wǎng)絡(luò)以及ResNet50 這種較為深層的網(wǎng)絡(luò),ResNet101 擁有更多的層次,能夠捕捉更加復雜的特征,從而提高檢測的準確性。與此同時,相比于ResNet152這樣更深的網(wǎng)絡(luò),ResNet101在保持較高檢測性能的同時,需要的計算資源較少,可以更快地完成訓練和推理過程。因此,ResNet101在特征提取性能、計算效率以及任務(wù)需求之間實現(xiàn)了良好的平衡。該網(wǎng)絡(luò)包含卷積層、激活層、池化層以及全連接層,通過堆疊殘差模塊增強了對橋梁缺陷目標圖像中的細節(jié)信息和深層特征的識別能力。此外,實驗證明,相比于 VGG16,ResNet101能夠提供更好的目標檢測效果。
2.2 多尺度融合特征模塊
在Faster RCNN中,雖然深層特征包含了豐富的語義信息,但往往忽視了許多重要的細節(jié)特征。這些細節(jié)可能對系統(tǒng)的安全性和穩(wěn)定性產(chǎn)生重大影響。為此,本文使用構(gòu)建特征金字塔的方法,用于融合不同尺度的特征,從而增強目標的檢測和定位精度[6]。特征金字塔通過對多層次特征進行整合,不僅能夠在保留高層語義信息的同時,提取出更多的底層細節(jié)信息,而且由于其主要涉及卷積等輕量級運算,因此在計算成本上增加得非常有限。此外,這種方法因其涵蓋了從底層到高層的各種細節(jié)特征,所以具備較強的泛化能力,進一步提升了目標檢測和定位的效果。
3 實驗與結(jié)果
3.1 數(shù)據(jù)集及預處理
為了增強數(shù)據(jù)集中小目標的代表性,該研究使用了多種數(shù)據(jù)增強技術(shù)來顯著增加含有小目標的樣本數(shù)量。具體采用的方法有隨機縮放、隨機裁剪以及隨機翻轉(zhuǎn)等。此外,為了確保圖片命名的一致性和標準化,該研究對所有圖片進行了統(tǒng)一的命名處理,使其易于管理及后續(xù)的數(shù)據(jù)處理工作。在準備訓練流程時,采用了常見的80/20數(shù)據(jù)分割策略,即數(shù)據(jù)集的80%作為訓練集,用于模型的學習和優(yōu)化;剩余的20%則作為驗證集,在訓練過程中用于定期評估模型的表現(xiàn),監(jiān)測其泛化能力,根據(jù)評估結(jié)果調(diào)整訓練策略。
為了增加圖像的語義信息,該研究利用了開源的標注工具Labeling來精細地標記每一張圖片中的目標物體及其屬性。此標注過程不僅包括目標物體輪廓的精確勾勒和類別標記,還可能包括更為復雜的屬性標注,例如:物體的姿態(tài)和動作等。完成標注后,Labeling工具會自動生成符合特定標準格式(如PASCAL VOC或YOLO格式)的XML文件。這些文件詳細記錄了每張圖片中每個目標的位置、類別以及其他相關(guān)信息,形成了與原始圖像配對存儲的結(jié)構(gòu)化標簽數(shù)據(jù)。
3.2 實驗環(huán)境及訓練策略
實驗環(huán)境如表1所示。
在訓練深度學習模型的過程中,該研究對所使用的神經(jīng)網(wǎng)絡(luò)制定了具體的參數(shù)配置,批量大小設(shè)置為8,迭代次數(shù)設(shè)定為10000次,最大學習率設(shè)定為0.001,權(quán)重衰減系數(shù)設(shè)定為0.0002。
在評價改進后的Faster RCNN檢測算法應(yīng)用于橋梁缺陷檢測任務(wù)的實際效果時,該研究選擇了以下3項關(guān)鍵性能指標進行全面且精準的評估:精確率(Precision, P)、召回率(Recall, R)、平均準確率均值(Mean Average Precision, mAP)。
精確率P、召回率R計算如下。
P=TPTP+FP(1)
R=TPTP+FN(2)
其中,TP為圖像中成功檢測到的有缺陷的圖片數(shù)量;FP為錯誤地檢測出的圖片數(shù)量;FN為圖像中未能檢測出的有缺陷的圖片數(shù)量。
平均準確率是Precison-Recall曲線與坐標軸所圍成的面積,公式如下:
AP=∫10Prdr(3)
mAP是目標檢測任務(wù)中的常用評價指標,尤其適用于多類別檢測問題。它綜合考慮了各個類別在不同閾值下的Precision-Recall曲線,取其平均值。mAP反映了模型在不同類別缺陷檢測中的總體性能,數(shù)值越高,說明模型在各類別缺陷檢測中達到的Precision-Recall平衡越好,整體檢測性能越優(yōu)秀。公式如下:
mAP=1k∑ki=1APi(4)
3.3 實驗結(jié)果
不同模型算法在數(shù)據(jù)集上的實驗結(jié)果如表2所示。
實驗結(jié)果顯示,將VGG網(wǎng)絡(luò)替換為ResNet101后,模型的準確率從89.6%提升到了90.8%,mAP從88.8%提升到了89.8%。在改進網(wǎng)絡(luò)模型的基礎(chǔ)上進一步進行多尺度融合,可以使準確率進一步提升至91.4%,mAP提升至90.6%。
4 結(jié)語
該研究通過對Faster RCNN模型進行了一系列改進,旨在提升橋梁缺陷檢測的準確性和效率。實驗結(jié)果表明,采用ResNet101作為特征提取網(wǎng)絡(luò),結(jié)合多尺度融合特征模塊,能夠顯著提高模型的檢測性能。改進后的模型在橋梁缺陷檢測任務(wù)中展現(xiàn)出了優(yōu)異的準確率和mAP值,分別為91.4%和90.6%,這表明該模型具有較高的實際應(yīng)用價值,能夠為橋梁維護工作提供強有力的技術(shù)支持。
未來的研究可以進一步探索更多有效的特征融合技術(shù)和優(yōu)化方法,以期在保證高精度的同時,提高檢測速度,滿足實時檢測的需求。此外,還可以嘗試將更多的數(shù)據(jù)增強技術(shù)和更復雜的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于橋梁缺陷檢測,進一步提升模型的魯棒性和泛化能力。
參考文獻
[1]LECUN Y, BOTTOU L, BENGIYO Y. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998(11): 2278-2324.
[2]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017(6): 84-90.
[3]宋冬梅.基于機器視覺的指針式儀表檢測[J].中國儀器儀表,2023(1):69-72.
[4]楊彬,亞森江·木沙,安波.改進Mask RCNN的焊縫缺陷檢測[J].機械設(shè)計與制造,2023(6):157-161.
[5]趙麟坤,陳玉潔,張玉井,等.基于改進的Faster RCNN碳纖維編織物缺陷檢測[J].棉紡織技術(shù),2023(2):48-54.
[6]陳幻杰,王琦琦,楊國威,等.多尺度卷積特征融合的SSD目標檢測算法[J].計算機科學與探索,2019(6):13.
(編輯 王永超編輯)
Research on bridge defect detection based on deep learning
WANG" Ying, ZHANG" Hua
(Jiangsu Shipping College, Nantong 226010, China)
Abstract: Despite significant advancements in object detection technology in recent years, multi-object detection in complex environments still faces numerous challenges. To address these issues, this study improved the faster RCNN model. Researchers opted for ResNet101 as the feature extraction network, replacing the traditional VGG16, to alleviate problems caused by information decay due to increased network depth and to enhance the efficiency of feature learning. Additionally, a multi-scale fusion module was introduced in the study, which can more effectively handle targets of different sizes, thereby enhancing detection performance. Experimental results show that the improved faster RCNN model performs excellently in bridge defect detection tasks, achieving an accuracy rate of 91.4% and mean average precision of 90.6%.It has significant practical application value for timely identification and repair of structural issues in bridges, providing strong technical support for bridge maintenance and management work.
Key words: bridge defects; defects detection; deep learning