摘" 要: 針對復雜背景下鐵路貨運車輛車號定位復雜、定位準確率低的問題,提出一種采用ResNet50作為基本特征提取網(wǎng)絡,同時引入空殘差塊對學習樣本進行多層特征融合,構造了一種新的特征提取網(wǎng)絡和改進算法,提高目標檢測網(wǎng)絡的特征表達能力,實現(xiàn)了快速車號目標檢測。實驗數(shù)據(jù)集采用自建數(shù)據(jù)集,并通過三個對比實驗驗證了該方法的可靠性。當IoU閾值為0.5時,改進算法的平均精度值為97.1%,分別比F?VGG和F?ResNet50高9.4%和6.8%,同時采用改進算法對我國鐵路常用不同車型貨運車輛進行車號定位測試實驗,從實驗結果可以看出優(yōu)化方法沒有誤分類或漏檢。改進后的算法可以提高復雜背景下鐵路貨運車輛車號的定位精度,具有較強的泛化能力,對實現(xiàn)復雜背景下車輛車號快速定位具有一定的參考意義。
關鍵詞: 車號定位; 特征提取網(wǎng)絡; RCNN; ResNet50; 空殘差塊; 多層特征融合
中圖分類號: TN911.73?34; TP391.4"" """"""""""""文獻標識碼: A""""""""""""""""""" 文章編號: 1004?373X(2024)09?0082?04
0" 引" 言
目標檢測是機器視覺中的一項核心任務,主要用于判斷物體的位置與類別,目標檢測技術發(fā)展迅速[1]?;谌斯ど窠?jīng)網(wǎng)絡的深度學習技術快速發(fā)展,有效地解決了傳統(tǒng)目標檢測中的問題。
傳統(tǒng)圖像目標檢測算法主要包括六個模塊[2]:圖像預處理模塊、滑動窗口確定候選區(qū)域、候選區(qū)域特征提取、進行特征選擇、完成特征分類和后處理模塊,采用的方法主要是特征點匹配和基于滑動窗口確定候選區(qū)域的經(jīng)典算法,特征提取是目標檢測與識別的關鍵環(huán)節(jié)[3]。但是,傳統(tǒng)圖像處理方法主要基于人工篩選實現(xiàn)特征選擇,如針對特定檢測對象的方法中,HOG特征主要用于圖像中的行人檢測[4],類似其他的目標則需要人為選擇其他特征實現(xiàn)目標表示,從而造成傳統(tǒng)圖像處理和機器學習算法的泛化性較差,無法廣泛應用于通用的目標檢測算法。自2012年以來,深度學習發(fā)展給目標檢測領域帶了新的契機,研究者提出了大量基于深度網(wǎng)絡的目標檢測方法[5]。
然而,現(xiàn)有的算法(包括深度學習)在檢測復雜背景圖像時無法直接獲得良好的效果。為了使工業(yè)實踐中的目標識別算法具有更好的適應性,除了提高圖像質量外,還可以通過從原始圖像中有選擇地提取特征,提高目標檢測對不同環(huán)境的適應性。事實上,在深度學習網(wǎng)絡訓練過程中提取太多與領域相關的特征會導致模型在領域中過度擬合[6]。為了降低擬合度,有必要設計合適的網(wǎng)絡訓練算法。文獻[7]通過增強特征空間上跨域的穩(wěn)健性來改進分類網(wǎng)絡,并使用對抗性訓練方法。這是增強特征空間對抗學習領域自適應首次解決不同領域級別的問題。
考慮到復雜背景檢測問題,本文選擇了基于滑動窗口候選區(qū)域的目標檢測算法,對傳統(tǒng)RCNN進行了改進。采用ResNet50作為基本特征提取層,然后介紹了孔卷積。殘差塊融合多層特征提高了鐵路貨運車輛車號的定位效果,包括誤分類、漏檢和定位不準等都得到改善,該算法應用于復雜不確定背景下的車輛車號定位和識別,驗證了該方法的有效性。
1" 實現(xiàn)方法
1.1" 卷積神經(jīng)網(wǎng)絡框架選取
由于鐵路貨運車輛車號定位精度直接決定車號識別準確度,為此選用Faster RCNN作為卷積神經(jīng)網(wǎng)絡框架[8],如圖1所示。該框架主要由區(qū)域特征提取、區(qū)域生成網(wǎng)絡(RPN)、興趣區(qū)域池化層(ROI Pooling)和檢測模塊組成。通過卷積神經(jīng)網(wǎng)絡實現(xiàn)對輸入圖像的特征提取和學習;RPN網(wǎng)絡層用于產(chǎn)生目標對象的可能候選區(qū)域;卷積池化層(ROI)實現(xiàn)了卷積特征長度統(tǒng)一處理;目標檢測網(wǎng)絡推理部分用于車輛車號的定位結果輸出。
Faster RCNN檢測過程:首先,把預處理過后的測試圖像輸入到網(wǎng)絡進行特征提取;其次,進行特征映射再傳遞到RPN層,RPN層基于設置的IoU閾值選擇候選幀;然后,RPN層輸出的候選幀進入到ROI的池化網(wǎng)絡層,獲得候選幀的卷積特征圖;最后,輸入推理網(wǎng)絡部分經(jīng)過ROI池化層返回候選幀,得到最終幀位置,同時進行目標類別識別,生成分類結果。
1.2" 區(qū)域特征提取網(wǎng)絡
ResNet50網(wǎng)絡層數(shù)多,可用于提取更多抽象特征[9]。而ResNet50的殘差結構可以提升網(wǎng)絡學習效率,減少了梯度消失、梯度爆炸問題,從而提升網(wǎng)絡學習性能[10]。本文選擇ResNet50作為基礎網(wǎng)絡,其網(wǎng)絡結構如表1所示。
表1中,Conv1~Conv5作為特征提取層并應用于Faster RCNN,實際中不能顯著提高目標檢測的準確性。為了解決這一目標檢測精度沒有明顯提高的問題,將Conv1~Conv4作為區(qū)域特征提取層,Conv5和全連接層作為檢測網(wǎng)絡,具體結構如圖2所示。本文的檢測網(wǎng)絡能夠提高分類性能和目標檢測準確率。
1.3" 改進的特征提取網(wǎng)絡
圖3a)和圖3b)中的空洞卷積殘差塊是在ResNet50的基礎上,以2的膨脹率形成的空洞卷積結構[11]??斩淳矸e殘差塊可以實現(xiàn)高層語義信息抽取。本文還使用了如圖3c)所示的空洞卷積殘差塊的特征融合模型。
為此,ResNet50中的Conv5模塊進行移動處理到檢測網(wǎng)絡,而只用特征提取層的前4層,這樣網(wǎng)絡相對變少,因此在Conv4之后形成了一個具有1×1演化層映射的孔殘差區(qū)塊,如圖3a)所示,還在RPN網(wǎng)絡的第5層使用了空洞卷積殘差塊(如圖3b)所示)。其優(yōu)點體現(xiàn)在空間分辨率的一致性并減少了信息損失。為了減少計算量和存儲器空間,設置殘差塊的通道數(shù)為512。其次,為了便于車號目標的檢測,經(jīng)過對Conv1~Conv4這4層進行下采樣后,空間分辨率變小導致目標語義信息大量丟失[12]。為此,將Conv1和Conv3與新引入的第5層進行融合,用來提取新的卷積特征,該特征涵蓋了高空間分辨率下的淺層紋理和幾何信息以及低空間分辨率的深層語義信息[13]。為了提升方法表達能力和目標檢測精度,融合了深淺特征和上采樣的特征,有效地改善了特征提取網(wǎng)絡的能力。
2" 實驗與分析
2.1" 數(shù)據(jù)集和實驗環(huán)境
實驗數(shù)據(jù)采用自建鐵路貨運車輛圖像數(shù)據(jù)集。數(shù)據(jù)集中鐵路貨運車輛樣本圖像如圖4所示,從圖中可以看出,車體圖像包含強光、雨滴、非車號字符等復雜干擾背景[14],對車號定位造成嚴重影響。圖像數(shù)據(jù)集由設置在中鐵南昌局集團有限公司向塘西站鐵路高清圖像貨檢系統(tǒng)完成采集,這些圖片包含了我國鐵路貨運敞車、棚車、平板車等常用車輛類型[15],其中敞車圖像10 000張,棚車圖像5 000張,平板車圖像2 000張。訓練數(shù)據(jù)和測試數(shù)據(jù)按8∶2劃分。
實驗使用的硬件環(huán)境圖形卡是Tesla V100,軟件部分主要基于Linux Ubuntu 16.04和Python 3.6。基于Tensor Flow作為深度學習框架進行卷積神經(jīng)網(wǎng)絡的實現(xiàn)。Faster RCNN最大迭代次數(shù)為70 000次,并進行調整和算法性能的比較。
在實驗中將對比VGG16卷積神經(jīng)網(wǎng)絡方法的目標檢測器,即F?VGG16。以ResNet50為區(qū)域特征提取層的方法稱為F?ResNet50,采用本文提出的結合空殘差塊進行特征提取網(wǎng)絡優(yōu)化的算法稱為F?F?ResNet50方法。
2.2" 實驗結果與分析
實驗一:為了驗證所提出的優(yōu)化Faster RCNN算法在鐵路貨運車輛車號定位的準確性,采用上述三種不同的檢測算法對鐵路貨運車輛圖像數(shù)據(jù)集進行交叉檢查。三種檢測算法的測試指標對比如表2所示。
從表2中可以看出,當IoU閾值為0.5時,本文算法的平均精度值為97.1%,分別比F?VGG16和F?ResNet50高9.4%和6.8%。因此,本實驗基于ResNet50代替VGG進行特征提取,同時利用空洞卷積殘差塊進行多層特征融合,進一步提高了目標檢測的性能。
實驗二:采用所提出的優(yōu)化Faster RCNN算法對我國鐵路常用不同車型貨運車輛進行車號定位測試實驗。圖5顯示了3種不同車型車號定位測試結果,圖中白色框為模型的正確檢測結果,測試圖像包含集裝箱箱號字符、銹蝕、粉筆標記等對象,背景復雜且具有較大的不確定性。從檢測結果可以看出,本文的優(yōu)化方法沒有誤分類或漏檢。
由不同車型車號定位結果可以看出,使用本文提出的算法進行鐵路貨運車輛車號定位具有較高的車輛車號定位精度,并在復雜場景下具有較強的魯棒性和適應性,更有利于貨運車輛車號的定位。
3" 結" 論
為了提高復雜場景下鐵路貨運車輛車號定位精度,本文對Faster RCNN算法進行了改進。本文以ResNet50為基本特征提取網(wǎng)絡,引入空殘差塊結構,在不同尺度下進行多層特征融合,進一步提高了貨運車輛車號定位精度。
通過交叉驗證實現(xiàn)在自建鐵路貨運車輛圖像數(shù)據(jù)集上的比較實驗,本文提出的算法平均準確率為97.1%,取得了非常好的目標檢測效果。同時,采用所提出的優(yōu)化Faster RCNN算法對我國鐵路常用不同車型貨運車輛進行車號定位測試實驗,驗證了本文方法在鐵路貨運車輛車號定位的通用性,可以看出,本文提出的算法對復雜背景干擾具有較好的適應性和良好的魯棒性。在未來的發(fā)展中,將繼續(xù)深入研究利用深度學習技術實現(xiàn)大規(guī)模鐵路貨運車輛圖像車號目標的快速定位。
參考文獻
[1] LIU Z G, Lü Y, WANG L Y, et al. Detection approach based on an improved faster RCNN for brace sleeve screws in high?speed railways [J]. IEEE transactions on instrumentation and measurement, 2020, 69(7): 4395?4403.
[2] 賈迪,朱寧丹,楊寧華,等.圖像匹配方法研究綜述[J].中國圖象圖形學報,2019,24(5):677?699.
[3] 張陽婷,黃德啟,王東偉,等.基于深度學習的目標檢測算法研究與應用綜述[J].計算機工程與應用,2023,59(18):1?13.
[4] 李文書,韓洋,阮夢慧,等.改進的基于增強型HOG的行人檢測算法[J].計算機系統(tǒng)應用,2020,29(10):199?204.
[5] ZOU Z X, SHI Z W, GUO Y H, et al. Object detection in 20 years: A survey [EB/OL]. [2019?05?16]. https://arxiv.org/abs/1905.05055v2.
[6] 馬崠奡,唐娉,趙理君,等.深度學習圖像數(shù)據(jù)增廣方法研究綜述[J].中國圖象圖形學報,2021,26(3):487?502.
[7] GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation [EB/OL]. [2015?12?30]. https://www.doc88.com/p?9052394403026.html.
[8] REN S Q, HE K M, GIRSHICK R, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137?1149.
[9] 辜瑞帆,李祥,任維民.基于ResNet50改進模型的圖像分類研究[J].現(xiàn)代電子技術,2023,46(4):107?112.
[10] BACHLECHNER T, MAJUMDER B, MAO H, et al. ReZero is all you need: Fast convergence at large depth [EB/OL]. [2020?06?25]. https://arxiv.org/abs/2003.04887.
[11] 楊昊,張軼.基于上下文信息和多尺度融合重要性感知的特征金字塔網(wǎng)絡算法[J].計算機應用,2023,43(9):2727?2734.
[12] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]// 15th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2018: 833?851.
[13] 盧麒,秦軍,姚雪東,等.基于多層次感知網(wǎng)絡的GF?2遙感影像建筑物提取[J].國土資源遙感,2021,33(2):75?84.
[14] 張汝榛,張建林,祁小平,等.復雜場景下的紅外目標檢測[J].光電工程,2020,47(10):128?137.
[15] 何春雨,余偉,唐荻.鐵路貨車車體用鋼的現(xiàn)狀及研究發(fā)展趨勢[J].熱加工工藝,2020,49(16):15?20.
Method for locating train number of railway freight vehicles in complex background
CAI Kangcheng1, LAI Yihui2, ZHOU Shumin1, LAN Xiangui1
(1. School of Information Engineering, East China University of Technology, Nanchang 330013, China; 2. Nanchang Normal University, Nanchang 330032, China)
Abstract: Railway freight vehicle number localization is a challenging problem and it suffers from an inferior recognition performance in complex background, so a new feature extraction network is established and an improved algorithm is proposed by using ResNet50 as the basic feature extraction network and by introducing 1 residual blocks to fuse the multi?layer features of the learning samples. This method aims to improve the feature expression ability of the object detection network and realize fast object detection of the vehicle number. The self?built data set is taken as the data set for the experiment. The effectiveness of the proposed method is verified by three contrastive experiments. When the threshold value of IOU (intersection over union) is 0.5, the average accuracy of the improved algorithm is 97.1%, which is higher than F?VGG and F?ResNet50 by 9.4% and 6.8%, respectively. The proposed method is also used to test the vehicle number location of different types of freight vehicles commonly used in China′s railways. From the experimental results, it can be seen that the optimization method has no misclassification or missing detection cases. The improved algorithm can improve the localization accuracy of railway freight vehicle number in complex background. It has strong generalization ability. Therefore, it provides a positive example to realize rapid localization of vehicle number in complex background.
Keywords: vehicle number localization; feature extraction network; RCNN; ResNet50; 1 residual block; multi?layer feature fusion
DOI:10.16652/j.issn.1004?373x.2024.09.015
引用格式:蔡康程,賴毅輝,周書民,等.一種復雜背景下的鐵路貨運車輛車號定位方法[J].現(xiàn)代電子技術,2024,47(9):82?85.
收稿日期:2023?12?06""""""" """修回日期:2023?12?27
基金項目:江西省技術創(chuàng)新引導類項目(科技合作專項)(20212BDH80008);江西省新能源工藝及裝備工程技術研究中心2022年度開放基金(JXNE2022?06);江西省科技計劃項目(重點研發(fā)計劃)(20232BBE50013)
蔡康程,等:一種復雜背景下的鐵路貨運車輛車號定位方法
作者簡介:蔡康程(1999—),男,江西贛州人,碩士,研究方向為計算機視覺。
賴毅輝(1991—),男,江西吉安人,碩士,助教,研究方向為智能測控與信息處理。
周書民(1971—),男,遼寧開原人,碩士,教授,研究方向為核電子學與信息技術。
藍賢桂(1979—),男,江西大余人,碩士,副教授,研究方向為機器視覺。
蔡康程,等:一種復雜背景下的鐵路貨運車輛車號定位方法