袁 航,胡 偉,趙 龍,琚中超,卜旭輝
(1.河南理工大學,河南焦作 454003;2.鄭州鐵路局鄭州機務段,河南鄭州 450053)
鐵路作為國家經(jīng)濟發(fā)展的大動脈,已經(jīng)成為交通運輸不可或缺的一部分。在鐵路運行時,常發(fā)生接觸網(wǎng)懸掛異物、異物侵限,甚至地陷等安全隱患。如果可以實現(xiàn)遠距離對侵限異物快速、準確、高效的檢測,就可以有效減少碰撞異物問題,降低損失。目前,對侵限異物的檢測主要分為接觸式和非接觸式兩類[1]。徐偉等[2]提出的高鐵接觸網(wǎng)異物自動化智能檢測方法,通過訓練接觸網(wǎng)安全巡檢裝置(2C),采集圖像數(shù)據(jù),并由Softmasx 進行目標分類,實現(xiàn)異物識別。劉力[3]提出的基于YOLOv4 的鐵道侵限障礙物檢測方法,研究通過改進YOLOv4,提高檢測精度及速度。于晨[4]提出的基于深度學習的機場跑道異物檢測與識別技術研究,通過融合FOD 圖像檢測算法與多屬性識別算法,實現(xiàn)對FOD目標的準確檢測,再通過對抗生成網(wǎng)絡對樣本進行識別分類。上述研究實現(xiàn)了異物檢測功能,但由于攝像頭鋪設線路費用高、維修困難、面對突發(fā)情況來不及通知司機等問題,使在列車運行中的諸多突發(fā)情況仍需要依靠司機進行判斷并采取措施。
如果可以實現(xiàn)在列車運行中實時遠距離檢測異物,就可以為司機留有足夠的判斷時間,及時采取停車或者降弓通過等措施規(guī)避異物,避免長時間停留而引發(fā)大規(guī)模晚點的事故發(fā)生。
AlexNet 網(wǎng)絡[5]在ImageNet 大賽中一舉奪冠后,深度卷積神經(jīng)網(wǎng)絡取得高速發(fā)展,如工程病害檢測等任務[6]。主流檢測網(wǎng)絡分為單階段檢測以及以YOLO 為代表的雙階段檢測[7]。YOLOv5以其簡潔的網(wǎng)絡結構、簡單的環(huán)境配置、較快的檢測速度以及較好的識別精度被本次研究所采用。本文將顯示模塊、識別模塊、語音報警模塊、視頻傳輸模塊、定位模塊相結合,構建了鐵路遠距離異物識別報警裝置,可以實現(xiàn)列車在運行中遠距離圖像實時傳輸并識別異物。構建鐵路異物數(shù)據(jù)集并進行訓練,部署YOLOv5 深度學習算法,實現(xiàn)常見異物的檢測識別。針對路外人員配合背景優(yōu)化和離線增廣,探究了背景及數(shù)據(jù)擴容對目標檢測的影響,從而實現(xiàn)了高精度、高魯棒性的目標檢測。
YOLOv5 權重訓練使用的計算機配置如表1 所示。
表1 權重訓練計算機配置
語音報警模塊選用Risym 的MP3 語音播放模塊,定位模塊選用亞博智能的GPS 北斗雙模定位模塊,圖像傳輸模塊選用??低旸S-2DC4423IW-D 型,顯示模塊選用7″高清觸摸屏,檢測模塊選用Jetson Nano,具體硬件設計如圖1 所示。在接通電源后,通過雙攝像頭模塊進行遠、近圖像傳輸,通過RTSP 推流將視頻送入邊緣計算設備進行預測。由于存在誤判的可能,增設一個閾值,在預測概率大于閾值時進行報警。在報警信號發(fā)出后,為方便觀察異物,添加延時程序。由定位模塊進行設備定位,實現(xiàn)位置信息識別并判定,通過與預設的位置區(qū)間相比較,控制遠距離傳輸攝像頭云臺旋轉至預設位置。
圖1 硬件設計
YOLOv5_6.1 網(wǎng)絡結構主要由輸入端、Backbone(骨干)網(wǎng)絡、Neck 網(wǎng)絡、Head 網(wǎng)絡構成(圖2)。
圖2 YOLOv5_6.1 網(wǎng)絡結構
2.1.1 輸入端
在網(wǎng)絡訓練中,每個模型文件會設定有預設框。在YOLOv5 中,將自適應錨框計算融入到代碼中,每次訓練時都會在初始錨框的基礎上與真實框進行比較,反向迭代網(wǎng)絡參數(shù),用來計算數(shù)據(jù)集中最佳錨框值。
2.1.2 Backbone 骨干網(wǎng)絡
YOLOv5_6.1 骨干網(wǎng)絡采用New CSP-Darknet53。New CSPDarknet53 相較于YOLOv4 的骨干網(wǎng)絡,將網(wǎng)絡原本第一層的FOCUS 模塊替換為一個6×6 的卷積層,兩者在理論及實際準確率相同,但隨著GPU 的普及,6×6 的卷積層更加高效。同時將SPP結構替換為SPPF(圖3)。
圖3 SPP、SPPF 網(wǎng)絡結構
2.1.3 Neck 網(wǎng)絡和Head 網(wǎng)絡
Neck 網(wǎng)絡位于Head 網(wǎng)絡與骨干網(wǎng)絡之間,主要用來特征融合以在不同尺度下都可以獲取豐富的語義信息,在YOLOv5 中采用FPN+PAN 結構。通過FPN(Feature Pyramid Network,特征圖金字塔網(wǎng)絡)可以融合高分辨率的淺層結構和具有豐富語義的深層結構;而PAN 自底向上傳達強定位特征,兩者結合對不同分辨率大小的檢測層進行融合,方便實現(xiàn)各個尺寸的目標檢測。
2.2.1 鐵路異物數(shù)據(jù)集類別構成
在設計鐵路異物數(shù)據(jù)集時,通過大量事故案例以及咨詢業(yè)內(nèi)相關人士,構建出鐵路異物數(shù)據(jù)集類別及屬性(表2)。
表2 鐵路異物數(shù)據(jù)集類別及屬性
2.2.2 鐵路異物數(shù)據(jù)集統(tǒng)計
鐵路異物數(shù)據(jù)集的標組工作采用Labelimg 軟件進行。在標注完成后對標注圖片進行篩查、修改等,確保標注圖片準確可靠。鐵路異物數(shù)據(jù)集包括9 類異物,共計2000 張圖片,選取各類型圖片文件夾前70%作為訓練集、后30%作為驗證集。
2.2.3 權重訓練
選用yolov5s.pt 作為預訓練權重,修改類別以及分類個數(shù),epochs 設定300 輪,batch_size 為4,輸入圖像分辨率為640×640,訓練權重PR 曲線及各類AP(Average Precision)值如圖4 所示。
圖4 鐵路異物權重PR 曲線及AP 值
選取數(shù)據(jù)量較大的路外人員為例,選用路外人員數(shù)據(jù)集500 張,采用PS、PPT 分別進行更換背景,并通過高斯模糊、銳化、對比度等方法模擬不同天氣、不同時間段的圖像情況。每張圖片進行離線增廣后為擴大5 倍,結合原圖共計3000 張,其中訓練集2400 張、測試集600張,增強效果如圖5 所示。
圖5 離線增強示意
在模擬真實背景的情況下,初始訓練集、統(tǒng)一背景、統(tǒng)一背景且離線增廣權重的AP0.5、AP0.5~0.95 如表3 所示。
表3 不同權重AP 值
2.2.4 魯棒性測試
為驗證權重的魯棒性,構建圖片包含大、中、小三種目標并進行檢測(圖6),分別進行遮擋、旋轉、模糊、拉伸及高亮度修改,實驗結果如圖7 所示。圖7a)進行隨機遮擋約1/4,準確率分別為0.78、0.53、0.80、0.83、0.54;圖7b)為旋轉,在旋轉9%的情況下準確率分別為0.89、0.78、0.84、0.92、0.93;圖7c)高斯模糊,進行三輪高斯模糊半徑為10、閾值20,準確率為0.90;圖7d)長度拉伸一倍情況下準確率分別為0.92、0.80,圖7e)寬度拉伸一倍情況下準確率分別為0.79、0.92;圖7f)為高亮度,準確率分別為0.89、0.90、0.80、0.65、0.51。
圖6 原圖測試
圖7 魯棒性測試
通過觀察圖7 可以觀測到,權重在魯棒性測試中準確度分別下降17.9%、-2.8%、-28.6%、1.7%(長度拉伸)、2.3%(寬度拉伸)、-0.5%,由精度下降可以看出,在進行部分遮擋時,精度下降較大,而在其他測試中精度總保持在較高水平,甚至有提高。為剔除偶然因素,依次構建20 張圖片并統(tǒng)計,隨機遮擋、旋轉、模糊、拉伸及高亮度修改平均準確度下降為19.1%、-1.3%、-5.6%、5.8%(長度拉伸)、6.1%(寬度拉伸)、1.7%。
將軟件與硬件相結合后,使用Jetson Nano 調(diào)用YOLOv5,在攝像頭傳輸距離為2~2.5 km 范圍內(nèi)調(diào)用YOLOv5s 權重,輸入分標率為640 情況下,檢測效果如圖8 所示,基本檢測出所有待檢測目標。
圖8 遠距離檢測效果
截取真實鐵路運行視頻幀,構建圖片并檢測,效果如圖9所示。
圖9 模擬鐵路檢測效果
實驗發(fā)現(xiàn),檢測時存在3 s 延時,面對運行的列車,尤其是對高速列車而言,3 s 可前進約290 m,無法達到實時監(jiān)測的目的。本文采用的Jetson Nano 設備采用ARM 架構,經(jīng)查閱資料,其SDK 僅適用于x86 架構,無法通過官方SDK 調(diào)用rtsp 推流加速。由于無法使用SDK,造成無法通過調(diào)用SDK 控制攝像頭旋轉。通過對檢測代碼重新梳理并改進后,實現(xiàn)了攝像頭實時圖像傳輸,并取消緩存檢測,修改后的延遲約為0.5 s。編寫Python 代碼,通過對網(wǎng)頁發(fā)出請求實現(xiàn)攝像頭根據(jù)位置信息,實現(xiàn)旋轉至預設點,滿足實時檢測條件要求。
(1)構建鐵路異物數(shù)據(jù)集平均檢測精度均值為63.8%,通過離線增廣,可將路外人員平均檢測精度均值由85.1%提升至93.7%;通過Python 代碼解決在ARM 架構下攝像頭無法旋轉以及攝像頭延時的問題,將延遲降低至0.5 s 以內(nèi),滿足實時檢測條件。
(2)構建基于YOLOv5 的鐵路遠距離異物識別報警裝置,有效解決了人工瞭望的局限性,通過遠距離圖像傳輸,實現(xiàn)提前20 s 發(fā)現(xiàn)異物,留給司機足夠反應時間,甚至達到在異物前停車,減弱了異物侵限所成的損害。
(3)以檢測分辨率640、YOLOv5s 權重為例,使用NVIDIA GeForce RTX 2060 顯卡,同時調(diào)用2 個攝像頭,幀率可達31 fps,滿足實時檢測需求。而使用入門級的Jetson Nano 幀率只有6 fps,無法滿足實時觀測的條件,實際使用中需采用Jetson AGX Orin或Jetson AGX Xavier 版本,以滿足實時檢測的需求。
(4)在天氣不良或瞭望困難的場景下,檢測距離會極度縮短。