張喬木,鐘倩文,孫 明,羅文成,柴曉冬
(1.上海工程技術大學 城市軌道交通學院,上海201620;2.上海申通地鐵維護保障公司 供電分公司,上海200031;3.常州路航軌道交通科技有限公司,江蘇 常州213164)
高速列車在區(qū)段的運行過程中,可能會出現(xiàn)受電弓弓網放電、受電弓跌落、受電弓部件脫落、碳滑板磨耗、接觸點位置異常等問題。對受電弓及接觸網進行視頻監(jiān)測能有效保障列車行車安全。目前對于受電弓的監(jiān)測主要是非車載系統(tǒng)。非車載系統(tǒng)只能在列車通過檢查地點時進行瞬時檢測,實時性較差。在受電弓檢測方面,對受電弓與接觸網的接觸點的監(jiān)測研究取得了一定的進展,但列車運行中環(huán)境復雜且多變,因此在復雜環(huán)境下達到有效的監(jiān)測變得尤為重要。
目前對受電弓的監(jiān)測主要包括:(1)采用紅外熱成像技術監(jiān)測弓網接觸點發(fā)熱情況;(2)運用力學傳感器來監(jiān)測受電弓運動過程中的受力狀態(tài);(3)采用雙目測量技術以及圖像處理的方法監(jiān)測受電弓的磨損狀況。文獻[1]運用Harr檢測原理,通過增大滑窗來增大接觸點火花檢測實時性。文獻[2]通過一次標定靶平面,采用單目相機與線激光器來進行磨耗檢測。文獻[3]利用圖像采集模塊采集滑板磨耗圖像和裂紋圖像,對其用改進的Canny算法提取滑板磨耗邊緣,并計算裂紋長度,繪制磨耗曲線。文獻[4]用圖像二值化法區(qū)分弧光與背景,并用改進的Canny算子檢測弧光邊緣,得到了燃弧重心橫坐標,達到識別燃弧的目的。文獻[5]對單目紅外圖像中的弓網接觸線、點的檢測與跟蹤算法進行了深入研究,提出了接觸線和碳滑板的特征增強方法,解決了接觸線被定位器拉折時直線檢測不準確的問題。文獻[6]對受電弓脫落、羊角缺失等追蹤進行研究,引入了一種檢測機制對KCF(Kernel Correlation Filter)追蹤算法進行矯正,并取得了良好的檢測效果。
本文針對復雜環(huán)境下對受電弓與接觸線的接觸點進行識別監(jiān)測的問題,提出一種復雜環(huán)境下弓網接觸位置動態(tài)監(jiān)測方法。本文通過對高速列車采集到的視頻數據進行幀間差運算得到圖片數據;然后,為了加強復雜環(huán)境下接觸點特征,通過PSPNet(Pyramid Scene Parsing Network)語義分割構建新特征數據集;最后,通過優(yōu)化YOLOv4(You Only Look Once)網絡結構對數據集進行訓練,得到檢測模型,以此權重模型對受電弓與接觸網的接觸位置進行跟蹤,達到監(jiān)測的目的。
弓網位置動態(tài)實時監(jiān)測算法的流程圖如圖1所示。本文通過幀間差提取視頻中的圖像,并通過PSPNet網絡進行語義分割,構建特征數據集,然后利用優(yōu)化的YOLOv4網絡訓練對目標進行識別、定位。
圖1 算法流程框圖Figure 1. Block diagram of algorithm
為了構建受電弓數據集,對受電弓視頻圖像做特征幀提取。在視頻圖像空間域中提取視頻的每一幀圖像,并采用等量幀間差運算來提取出受電弓視頻圖像[7],如圖2所示。
圖2 幀間差提取受電弓圖像Figure 2. Extraction of pantograph images by frame difference
將RGB空間轉換到HSV空間,并通過H、S、V構造綜合分量[8]
G=HQsQv+SQv+V
(1)
綜合分量G的各值在圖像中像素的直方圖為
Hi=(hi1,hi2,…,hik)T
(2)
Hj=(hj1,hj2,…,hjk)T
(3)
直方圖幀間差為式(4)。
(4)
在列車高速運行情況下采集受電弓視頻圖像。然后,通過空間分量幀提取方法[9],可從不同區(qū)間列車運行的視頻中分離出3 000張背景良好,且包含支柱架或橋洞的弓網圖像,如圖3所示。
圖3 視頻圖像幀提取效果圖Figure 3. Video image frame extraction renderings
基于深度學習的圖像分割算法主要分為兩種:一種是基于卷積神經網絡(Convolutional Neural Networks,CNN)特征編碼對目標圖片進行特征提取的框架[9];另一種是基于全卷積網絡(Fully Convolutional Networks,F(xiàn)CN)的上采樣與反卷積分割框架。前者在卷積和池化過程中易丟失圖像細節(jié),且采用全連接層獲取類別概率的方式不能標識每個像素類別,因此無法做到精確分割。后者在CNN基礎上把全連接層改為卷積層,在多次池化操作前加入了上采樣,雖然解決了精確分割問題,但邊緣提取效果不佳[10]。
目前,基于FCN模型的主要問題是缺乏合適的策略來利用全局場景中的類別線索[11]。運行列車動態(tài)視頻的弓網目標較小,通過局部和全局線索的共同作用可提高預測準確率。
以原始數據集圖像中的受電弓和接觸網為前景,其余的為背景。在前景中,接觸網的電線是很小的物體且易與支柱架和橋洞混為一體,而受電弓在圖像中是相對固定區(qū)域。分割圖像前,需要給圖像中的每個像素標定一個類別標簽。通過對圖像中的動態(tài)對象分割,實現(xiàn)逐像素分類。由于受電弓接觸線具有單一的直線型結構,使得其對大片連續(xù)區(qū)域的對象在語義理解上有所不足。PSPNet通過對不同區(qū)域的上下文進行聚合,提升了網絡提取全局特征信息的能力,能夠完成有效分割。PSPNet模型的結構如圖4所示。
圖4 PSPNet模型結構(a)輸入 (b)特征圖 (c)金字塔池化模塊 (d)輸出Figure 4. PSPNet model structure(a)Input (b)Feature map (c)Pyramid pooling module (d)Output
PSPNet主要結構可分為特征提取模塊、金字塔池化模塊和輸出模塊。在PSPNet中,使用ResNet提取圖像特征。ResNet具有較大的深度,能有效地提取圖像深層特征[12]。在進行卷積操作時,通過卷積核權值共享減少網絡中參數,防止過卷積操作的計算式為
(5)
ReLU為激活函數,其計算式為
rectifier(x)=max{0,x}
(6)
池化操作為
(7)
其中,H×W為池化核大小。
通過使用不同窗口大小的池化操作,得到不同尺寸的輸出,然后縮放到相同的尺寸,再進行特征融合。
對于原始特征圖,所通過的池化大小分別為1×1、2×2、3×3、6×6。然后分別使用1×1卷積調整通道數至1/N(N為池化層個數,本網絡為4)。然后將這些特征圖通過雙線性插值的方法完成上采樣。再將這些池化特征圖和原始的特征圖(跳躍連接)全部concat(特征融合的方式,即通道數合并)起來,得到最終輸出的特征圖。concat的作用是防止因為池化和上采樣丟失過多的接觸網和受電弓的細節(jié)信息。通過上述處理,最終可以得到分割的預測結果。
PSPNet提取受電弓前景的過程如圖5所示:首先輸入鐵路受電弓的原始圖像;經過一系列的卷積池化后,提取4種尺度的金字塔特征;經過特征融合,最后輸出受電弓的前景部分。目標分割速度能穩(wěn)定達到42 fps,可滿足正常高鐵運行的實時分割要求。
圖5 語義分割后的弓網圖像Figure 5. The image of the bow net after semantic segmentation
YOLOv4屬于one-stage檢測算法。檢測時,首先將待測圖片分割成n×n的網格,每個網格負責不同的區(qū)域。當待檢測目標的中心落在某個網格中,則由該網格完成對目標的檢測[13]。YOLOv4的主干網絡CSPDarknet53(Cross Stage Partial Darknet53)是算法的核心。YOLOv4在上一個YOLO版本上,對每個殘差塊網絡增加CSP結構,將其特征映射劃分為兩部分,再通不同階段層次結構合并來提高準確率。YOLOv4的激活函數是比ReLU計算量更大的Mish函數,這種改變可提高目標檢測的準確率。
在特征金字塔結構部分,YOLOv4構建了SPP(Spatial Pyramid Pooling)結構和PANet(Path Aggregation Network)結構。SPP結構可對特征層P5輸出的特征圖經過卷積后的結果進行最大池化。池化過程中共使用4種不同尺度的池化層進行處理,其池化核大小分別為1×1、5×5、9×9、13×13。SPP結構可有效增加感受野,便于分離出顯著的上下文特征。PANet結構是由卷積操、上采樣、下采樣、跨層的特征層融合構成的循環(huán)金字塔結構。在YOLOv4的網絡結構中,PANet可實現(xiàn)高層特征與底層特征信息融合,達到提高小目標檢測物的檢測精度的目的。最后,對每個特征層的3個先驗框進行判別,判斷是否包含目標及目標種類,并進行非極大抑制處理和先驗框調整,從而得到最終的預測框。YOLOv4的網絡結構如圖6所示。
圖6 YOLOv4網絡結構Figure 6. YOLOv4 network structure
YOLOv4網絡的損失函數為
(8)
其損失函數由回歸框預測誤差、置信度誤差、分類誤差組成。
對于回歸框預測
(9)
(10)
式中,a為度量trade-off的參數;ν度量長寬比的相似性;gt表示ground truth;wgt為真實框寬度;hgt為真實框高度;w為預測框寬度;h為預測框高度。當真實框和預測框的寬高相似,則ν為0,該懲罰項就不起作用。所以這個懲罰項的作用就是控制預測框的寬高,使預測框寬高能夠盡可能快速接近真實框的寬高。
ρ2(Actr,Bctr)為預測框與真實框中心點的歐式距離。參數ρ2(Actr,Bctr)/m2通過最小化兩個檢測框中心點的標準化距離, 加速損失的收斂過程。
3.2.1 K-means聚類
原始YOLOv4算法的先驗框是在VOC數據集的標注上進行聚類得到的。由于VOC數據集包含的目標多樣,目標的長寬比例不同,其先驗框的大小也不同[15]。對于受電弓與接觸網的接觸點位置檢測而言,接觸點特征在不同幀基本一致,因此無法直接使用原模型的先驗框。通過K-means算法對語義分割后的數據集標注框聚類能起到較好的效果,因此本文用K-means算法來獲取與接觸點特征比例相匹配的基準框。本文對數據進行迭代,得到聚類中心[15],并用聚類中心與標簽的交并比IOU(1,c)作為聚類的相似度參數來代替歐式距離以減少誤差。聚類距離計算式如下所示[16]。
dIoU=1-IOU(1,c)
(11)
3.2.2 改進網絡結構
在YOLOv4的基礎上,對其結構進行了優(yōu)化,使其更加適用于受電弓圖視頻識別。YOLOv4算法使用CSPDarknet53作為主干特征提取網絡,并輸出3個不同大小的特征層[17]。特征層P3、P4、P5的寬和高分別為原始輸入尺寸的1/8、1/16、1/32。特征層P3和P4分別經過一次1×1的卷積操作后進入PANet結構中進行特征融合。特征層P5經過1×1、3×3、1×1的3次卷積操作后進入SPP結構中進行最大池化。這些操作在一定程度上可對受電弓與接觸網特征進行提取,但由于區(qū)段上的接觸網線較多,且支柱架與受電弓特征比較相近,若直接使用原始YOLOv4算法進行訓練與檢測,則無法獲得理想的檢測結果。
因此,針對經過橋洞和支柱架時,前景與背景特征區(qū)分度不明顯的問題,本文借鑒原始YOLOv4算法中卷積層的設計思想,在網絡的P1和P2中間加入了1×1卷積層和3×3卷積層這兩層網絡來加強對淺層特征的提取。將CSPDarknet53輸出的特征層P3、P4后的1個卷積層增加為3個卷積層,卷積核分別為1×1、3×3、1×1、3×3、1×1。上述多次小卷積改進處理,不僅可加深網絡深度,進而增加網絡容量和復雜度,還能獲得更大的感受野,增強提取全局及語義層次更高特征的能力,從而更加有效地提取接觸點目標的特征。
相比YOLOv3,YOLOv4對特征提取能力的增強,使得網絡的檢測平均精度mAP(Mean Average Precision)得到了提升。將修改后的模型與YOLOv4、YOLOv3、SSD(Single Shot MultiBox Detector)和FastR-CNN進行對比,結果如表1所示。
表1 網絡模型mAP對比表Table 1. Comparison of mAP of network models
本文對5個網絡進行了橫向對比,經過語義分割后,由于接觸特征加強,檢測效果得到明顯提高。對于同一語義分割后的數據集訓練后的檢測效果,F(xiàn)astR-CNN檢測精度相比于YOLOv3和SSD這一類one-stage的算法要更加準確。YOLOv4網絡由于采用了新的CSPDarknet53網絡結構,增強了網絡整體的特征提取能力,并采用了多尺度檢測機制,提高了對小目標的檢測精度。經過語義分割后,使用改進YOLOv4的檢測精度比未語義分割的YOLOv4提高了5.5%。隨后,在帶有NVIDIA Quadro P5000GPU的情況下,對5種算法的檢測速度進行了測試(語義分割的受電弓視頻),測試對比結果如表2所示。
表2 網絡模型FPS對比表Table 2. Comparison of FPS of network models
改進YOLOv4模型的檢測精度得到了較大提升,但其檢測速度有所下降。FastR-CNN由于具有復雜的網絡結構,因此檢測速度最慢。YOLOv4為one-stag結構,因此其檢測速度要比同為端到端網絡的SSD模型更快。
以上mAP和FPS的對比結果證明,修改后的網絡模型的整體性能要優(yōu)于YOLOv4。修改后的網絡模型對于目標特征的提取能力更強,更適用于本次設計的運用場景。
本文使用Quadro P5000進行運算,同時在服務器上搭建用于進行實驗的環(huán)境,如表3所示。
表3 弓網接觸位置監(jiān)測實現(xiàn)環(huán)境Table 3. Implementation environment for monitoring the contact position of the pantograph and net
對語義分割后的數據集使用改進YOLOv4模型進行訓練,訓練為80個epoch,權重衰減系數設置為0.000 5。前40個epoch學習率為0.001,后40個epoch學習率為0.000 1。整個訓練迭代到16 000次。
通過以上的訓練可獲得權重,運用訓練好的網絡模型能夠從視頻圖像中識別出受電弓與接觸網的位置關系,并能輸出受電弓與接觸網的接觸點在圖像中的坐標。無語義分割的情況下,YOLOv4在支柱架下不能檢測出接觸點位置,而語義分割后的數據集在改進的YOLOv4檢測下,可在列車運行時對動態(tài)接觸位置進行有效監(jiān)測,目標監(jiān)測效果對比如圖7所示。
(a)
(b) 圖7 支柱架下檢測效果對比(a)無語義分割的改進YOLOv4檢測 (b)語義分割后的改進YOLOv4檢測Figure 7. Comparison of detection results under the pillar frame(a)YOLOv4 detection without semantic segmentation (b)YOLOv4 detection after semantic segmentation
圖8為動態(tài)接觸點的輸出曲線,加粗黑線為受電弓運動的中線。
圖8 受電弓接觸點動態(tài)監(jiān)測Figure 8. Dynamic monitoring of pantograph contact points
本文提出了一種基于視頻圖像的弓網接觸位置動態(tài)監(jiān)測方法,能夠有效地在復雜的運行環(huán)境下進行監(jiān)測。該方法通過PSPNet語義分割加強復雜環(huán)境下接觸點特征;通過優(yōu)化YOLOv4網絡結構增強了全局及語義層次更高的特征提取能力,從而更加有效地提取接觸點目標的特征。在未來研究中,將嘗試對原始數據進行預處理,在滿足特征要求的前提下降低圖片的尺寸,同時對網絡結構進行優(yōu)化,以期提升接觸點檢測速度,建立更好的軌道交通受電弓實時智能化檢測方法。