胡雪霏,李丞鵬,陳俊海,劉書(shū)浩,宋曉敏
(1.交通運(yùn)輸部科學(xué)研究院,北京 100029;2.城市軌道交通運(yùn)營(yíng)安全管理技術(shù)及裝備交通運(yùn)輸行業(yè)研發(fā)中心,北京 100029;3.北京中天路通智控科技有限公司,北京 100036)
近年來(lái),南寧、深圳、成都等多個(gè)城市地鐵保護(hù)區(qū)陸續(xù)發(fā)生鉆機(jī)施工擊穿隧道的險(xiǎn)性事件[1],造成隧道及列車(chē)受損、司機(jī)受傷、運(yùn)營(yíng)延誤等嚴(yán)重后果,給乘客人身安全帶來(lái)了重大隱患。據(jù)不完全統(tǒng)計(jì),僅2021 年,我國(guó)就發(fā)生了6 起因外部勘探等施工作業(yè)打穿地鐵隧道的事件。為加強(qiáng)地鐵保護(hù)區(qū)管理,《城市軌道交通運(yùn)營(yíng)管理規(guī)定》(中華人民共和國(guó)交通運(yùn)輸部令2018 年第8 號(hào))以及各城市軌道交通管理規(guī)定中均對(duì)地鐵保護(hù)區(qū)的作業(yè)和巡查提出了要求。然而目前各城市地鐵保護(hù)區(qū)巡查主要依靠人工[2],工作量大、投入較高且效率較低,不僅難以覆蓋所有區(qū)域,而且巡查效果受人員自身素質(zhì)、專(zhuān)業(yè)素養(yǎng)等因素影響較大。因此,單純的人工巡查無(wú)法解決地鐵保護(hù)區(qū)面臨的安全隱患[3]。
圖像識(shí)別技術(shù)的發(fā)展為地鐵保護(hù)區(qū)管理提供了新思路,如:Lablack等[4]通過(guò)監(jiān)控?cái)z像機(jī)分析乘客的停止、移動(dòng)和觀看等行為,以判斷其對(duì)物體的興趣;Ko[5]提出了可疑人類(lèi)行為檢測(cè)方法,將基于行為分析的視頻監(jiān)控應(yīng)用于公共安全領(lǐng)域;Hu等[6]結(jié)合空間、距離和類(lèi)型的特征,對(duì)交通監(jiān)控視頻中的典型和異常行為進(jìn)行了識(shí)別。我國(guó)各大城市也在探索利用新型監(jiān)測(cè)技術(shù)手段提升地鐵保護(hù)區(qū)的安全管理水平,如:武漢地鐵針對(duì)武漢市的特殊地質(zhì)條件,研究了地鐵保護(hù)區(qū)變形安全監(jiān)測(cè)的方案設(shè)計(jì)、實(shí)施及控制指標(biāo),梳理出了主要安全風(fēng)險(xiǎn)因素[7];南京地鐵[8]結(jié)合移動(dòng)互聯(lián)網(wǎng)、地理信息系統(tǒng)(Geographic Information System,GIS)與全球衛(wèi)星導(dǎo)航系統(tǒng)(Global Navigation Satellite System,GNSS)定位技術(shù),研發(fā)了軌道交通保護(hù)區(qū)信息化巡查執(zhí)法智能管理系統(tǒng)及配套手持終端,提出了巡查結(jié)果動(dòng)態(tài)查詢(xún)、歷史項(xiàng)目和案件回溯及數(shù)據(jù)智能分析算法,以加強(qiáng)地鐵保護(hù)區(qū)巡查執(zhí)法管理;北京地鐵通過(guò)保護(hù)區(qū)既有部分地質(zhì)、水文、管線(xiàn)、設(shè)施等基礎(chǔ)數(shù)據(jù)融合技術(shù)、北斗衛(wèi)星遙感、保護(hù)區(qū)電子圍欄、地面線(xiàn)視頻監(jiān)控、無(wú)人機(jī)自動(dòng)巡查、自動(dòng)化監(jiān)測(cè)等關(guān)鍵技術(shù)研究,搭建了保護(hù)區(qū)管理平臺(tái)[9]。
綜上所述,國(guó)外關(guān)于圖像識(shí)別技術(shù)在地鐵中的應(yīng)用研究主要集中在乘客行為分析和監(jiān)測(cè)方面,國(guó)內(nèi)大部分地鐵保護(hù)區(qū)的研究側(cè)重于施工管理過(guò)程中的變形監(jiān)測(cè)[10-13],以及施工管理全過(guò)程的信息化平臺(tái)研發(fā)[14-15],對(duì)于智能監(jiān)測(cè)和巡查手段的準(zhǔn)確率和有效性研究相對(duì)不足。為此,本文擬針對(duì)地鐵保護(hù)區(qū)施工鉆機(jī)的圖像特點(diǎn),開(kāi)展基于智能圖像識(shí)別的地鐵保護(hù)區(qū)內(nèi)鉆機(jī)作業(yè)監(jiān)測(cè)方法研究,從圖像識(shí)別準(zhǔn)確率、識(shí)別速度、功能參數(shù)影響等方面進(jìn)行對(duì)比分析,評(píng)價(jià)深度學(xué)習(xí)方法在地鐵保護(hù)區(qū)鉆機(jī)圖像識(shí)別中的應(yīng)用性能,旨在為增強(qiáng)地鐵保護(hù)區(qū)內(nèi)鉆機(jī)施工識(shí)別的及時(shí)性和準(zhǔn)確性提供支撐。
圖像識(shí)別主要是通過(guò)對(duì)圖像特征的提取和分析,實(shí)現(xiàn)對(duì)信息的處理和識(shí)別。由于普通的機(jī)器學(xué)習(xí)模型無(wú)法對(duì)物體大小、形狀、狀態(tài)等多樣性進(jìn)行有效識(shí)別,21 世紀(jì)前的圖像識(shí)別方法僅處于實(shí)驗(yàn)室水平。深度學(xué)習(xí)[16]是基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí),更適合解碼復(fù)雜的、高維的、隱秘的特征。2010 年以來(lái),隨著深度學(xué)習(xí)的普及,關(guān)于圖像識(shí)別的研究蓬勃發(fā)展,R-CNN(Regionbased Convolution Neural Networks)系 列、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等基于人工神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法應(yīng)運(yùn)而生。Faster R-CNN[17-18]是R-CNN 系列的最新成果,它是目前準(zhǔn)確率最高的圖像識(shí)別算法之一,但識(shí)別速度相對(duì)較慢。SSD[19]同時(shí)借鑒了YOLO 和Faster R-CNN,既有YOLO 速度快的優(yōu)點(diǎn),又有Faster R-CNN 識(shí)別準(zhǔn)的優(yōu)點(diǎn),但調(diào)試過(guò)程較多依賴(lài)經(jīng)驗(yàn)。YOLO[20]是基于CNN 的深度學(xué)習(xí)模型在圖像識(shí)別中的典型應(yīng)用,通過(guò)不斷改進(jìn)和迭代成為YOLOv4 模型,其在網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練策略等方面都有了較大變化,能夠同時(shí)保證準(zhǔn)確率和檢測(cè)速率,具有較好的檢測(cè)效果。各種算法的優(yōu)劣勢(shì)比較和適用場(chǎng)景如表1所示。
表1 圖像識(shí)別算法適用性比較
結(jié)合表1 中3 種算法的優(yōu)劣勢(shì)和適用場(chǎng)景,考慮到地鐵保護(hù)區(qū)的鉆機(jī)識(shí)別對(duì)于速度和時(shí)間的要求較高,且鉆機(jī)本身目標(biāo)相對(duì)較大,YOLOv4算法的成熟度和適用性更高,因此本文選擇采用YOLOv4算法構(gòu)建鉆機(jī)識(shí)別模型。
YOLOv4 算法是在YOLO 目標(biāo)檢測(cè)架構(gòu)的基礎(chǔ)上,對(duì)數(shù)據(jù)處理、主干網(wǎng)絡(luò)、網(wǎng)絡(luò)訓(xùn)練、激活函數(shù)、損失函數(shù)等多方面進(jìn)行了優(yōu)化。YOLOv4網(wǎng)絡(luò)主要分為Input,Backbone,Neck 和Head 共4層,其中:Input 層負(fù)責(zé)輸入圖片用于訓(xùn)練,即輸入層;Backbone層負(fù)責(zé)特征提取,利用Mish 激活函數(shù)提高網(wǎng)絡(luò)性能;Neck 層負(fù)責(zé)對(duì)提取到的信息進(jìn)行池化以及特征融合操作;Head層負(fù)責(zé)輸出檢測(cè)結(jié)果。同時(shí),考慮到地鐵保護(hù)區(qū)的鉆機(jī)具有圖像隱蔽、不易識(shí)別的特點(diǎn),在YOLOv4 模型訓(xùn)練過(guò)程中應(yīng)用了馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)和學(xué)習(xí)率余弦退火算法,以進(jìn)一步提升模型的性能。
在訓(xùn)練過(guò)程中,首先從總數(shù)據(jù)集中取出一定批量數(shù)據(jù),每次從中隨機(jī)選取4 張圖片,進(jìn)行隨機(jī)位置的裁剪拼接,合成1張新圖片,重復(fù)N次,最后得到N個(gè)經(jīng)過(guò)馬賽克數(shù)據(jù)增強(qiáng)后的圖片數(shù)據(jù)集,再反饋給神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如圖1所示。
深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度高主要是因?yàn)閷W(xué)習(xí)過(guò)程容易陷入局部最優(yōu),模型無(wú)法進(jìn)一步更新參數(shù)。學(xué)習(xí)率退火算法可在每個(gè)批量數(shù)據(jù)訓(xùn)練后將學(xué)習(xí)率減小一點(diǎn),當(dāng)減小到規(guī)定值后馬上增大到初始值,然后循環(huán)這一過(guò)程。余弦退火可以通過(guò)余弦函數(shù)來(lái)降低學(xué)習(xí)率。在余弦函數(shù)中,隨著自變量x的增大,余弦值先緩慢減小,然后加速減小,之后再次緩慢減小。學(xué)習(xí)率與余弦退火的結(jié)合,將獲得較好的學(xué)習(xí)效果(如圖2所示)。
權(quán)重衰減也稱(chēng)L2正則化,其目的是讓權(quán)重衰減到更小的值,在一定程度上減少模型過(guò)擬合的問(wèn)題。其表達(dá)式為在損失函數(shù)后面再加上一個(gè)正則化項(xiàng),如式(1)所示。
式(1)中:C為正則化后的損失函數(shù);C0為原始的損失函數(shù);λ為權(quán)重衰減系數(shù);w為權(quán)值;n為訓(xùn)練集大小。
權(quán)重衰減使得權(quán)值w更小,根據(jù)奧卡姆剃刀原理,一般情況下網(wǎng)絡(luò)的復(fù)雜度越低,模型對(duì)數(shù)據(jù)的擬合越好。
本次地鐵保護(hù)區(qū)鉆機(jī)實(shí)驗(yàn)中共使用1 682 張圖片進(jìn)行測(cè)試。在打好標(biāo)簽后,將其中的90%,即1 514 張圖片劃為訓(xùn)練集參與測(cè)試,10%即168張圖片劃為測(cè)試集。在1 514 張訓(xùn)練圖片中,選取10%即151 張圖片用于驗(yàn)證計(jì)算損失,最后基于168張測(cè)試圖片計(jì)算模型的各項(xiàng)評(píng)價(jià)指標(biāo)。
鉆機(jī)識(shí)別模型的評(píng)價(jià)指標(biāo)包括精確率P(Precision)、召回率R(Recall)、調(diào)和平均數(shù)F1、平均準(zhǔn)確率AP(Average Precision)及幀率FPS(Frame per Second):
(1)精確率P,也稱(chēng)查準(zhǔn)率,是針對(duì)預(yù)測(cè)結(jié)果而言的,即預(yù)測(cè)為正的結(jié)果占總預(yù)測(cè)樣本的百分比,如式(2)所示:
式(2)中:TP 為預(yù)測(cè)為正的樣本數(shù);FP 為預(yù)測(cè)為負(fù)的樣本數(shù)。
(2)召回率R,也稱(chēng)查全率,是針對(duì)原樣本而言的,即在全部為正的樣本中被預(yù)測(cè)為正樣本的概率,如式(3)所示:
式(3)中:FN表示實(shí)際為正但未被預(yù)測(cè)出的樣本數(shù)。
(3)調(diào)和平均數(shù)F1。由于在某些極端情況下,P和R是矛盾的,需要以犧牲其中一個(gè)指標(biāo)為代價(jià)來(lái)最大化另一個(gè)指標(biāo)。為使結(jié)果更加均衡和客觀,取F1為綜合評(píng)價(jià)指標(biāo),即精確率和召回率的調(diào)和平均數(shù),如式(4)所示:
(4)平均準(zhǔn)確率AP。AP是P -R曲線(xiàn)中P對(duì)R的積分,本質(zhì)上是P關(guān)于R的加權(quán)平均數(shù),它可以更準(zhǔn)確地衡量模型的整體精確率,如式(5)所示:
(5)幀率FPS。FPS 是衡量模型速度的一個(gè)指標(biāo),它表示模型每秒能夠處理的圖片數(shù)量。
3.3.1 YOLOv4模型結(jié)果分析
實(shí)驗(yàn)結(jié)果中,鉆機(jī)標(biāo)簽的精確率和召回率關(guān)于置信度閾值的曲線(xiàn)如圖3 所示。其中,橫坐標(biāo)為置信度閾值,高于該閾值判為正例(含有鉆機(jī)),反之則為負(fù)例。
從圖3 中可以看到,精確率P隨置信度閾值的增大而增大,即判定標(biāo)準(zhǔn)越嚴(yán)格,精確率越高;而召回率R正好相反,隨置信度閾值的增大而減小,即判定標(biāo)準(zhǔn)越嚴(yán)格,召回率越低。當(dāng)閾值取0.5 時(shí),模型的精確率P和召回率R分別為91.43%和92.75%,均處于較高水平。
鉆機(jī)標(biāo)簽的P-R曲線(xiàn)如圖4所示。
調(diào)和平均數(shù)F1關(guān)于置信度閾值的曲線(xiàn)如圖5所示。經(jīng)計(jì)算,模型中鉆機(jī)標(biāo)簽在測(cè)試集中的平均準(zhǔn)確率為94.03%,并且F1在置信度閾值為0.854 5時(shí)達(dá)到最大值。
實(shí)驗(yàn)中構(gòu)建的鉆機(jī)識(shí)別模型對(duì)鉆機(jī)圖片的識(shí)別效果如圖6所示。
3.3.2 參數(shù)敏感性分析
(1)功能疊加對(duì)平均準(zhǔn)確率的影響
為了對(duì)比不同的技術(shù)功能參數(shù)對(duì)識(shí)別結(jié)果的影響,通過(guò)調(diào)節(jié)YOLOv4 算法模型,分別疊加Mosaic 數(shù)據(jù)增強(qiáng)、學(xué)習(xí)率余弦退火算法兩種功能,最終得到的平均準(zhǔn)確率如表2所示。
表2 不同算法功能組合對(duì)平均準(zhǔn)確率的影響
從表2 可以看出,Mosaic 數(shù)據(jù)增強(qiáng)和學(xué)習(xí)率余弦退火算法均對(duì)提升模型的平均準(zhǔn)確率有明顯作用,其中單獨(dú)使用Mosaic 數(shù)據(jù)增強(qiáng)功能可以將平均準(zhǔn)確率提升2.06%,單獨(dú)使用學(xué)習(xí)率余弦退火算法可以將平均準(zhǔn)確率提升1.22%,二者同時(shí)使用時(shí)平均準(zhǔn)確率最高,為94.03%,提升了3.79%。
(2)權(quán)重衰減系數(shù)對(duì)平均準(zhǔn)確率的影響
為得出平均準(zhǔn)確率的最優(yōu)值,在上述效果最好的功能組合的基礎(chǔ)上,改變權(quán)重衰減系數(shù)λ,觀察對(duì)比不同λ對(duì)平均準(zhǔn)確率的影響,結(jié)果如圖7所示。
由圖7 可以看出,總體上,當(dāng)權(quán)重衰減系數(shù)處于低值區(qū)間時(shí),權(quán)重衰減系數(shù)越高,平均準(zhǔn)確率越高;當(dāng)權(quán)重衰減系數(shù)處于較高值區(qū)間時(shí),權(quán)重衰減系數(shù)越高,平均準(zhǔn)確率反而越低。這是因?yàn)楹侠淼臋?quán)重衰減系數(shù)可以減小參數(shù),避免過(guò)擬合,提高模型在測(cè)試集上的準(zhǔn)確率;當(dāng)權(quán)重衰減系數(shù)過(guò)高時(shí),參數(shù)變得過(guò)小,訓(xùn)練對(duì)參數(shù)幾乎沒(méi)有影響,平均準(zhǔn)確率就會(huì)降低。計(jì)算結(jié)果顯示,當(dāng)權(quán)重衰減系數(shù)取0.000 1 時(shí),平均準(zhǔn)確率最高,達(dá)到98.23%。
3.3.3 不同模型的結(jié)果對(duì)比
為了驗(yàn)證YOLOv4 模型對(duì)于地鐵保護(hù)區(qū)中鉆機(jī)識(shí)別的適應(yīng)性,另外選取了Faster R-CNN,SSD,YOLOv3 這3 種常見(jiàn)的圖像識(shí)別算法模型,對(duì)4 種模型的精確率、召回率、F1值、平均準(zhǔn)確率和識(shí)別速度進(jìn)行對(duì)比,結(jié)果如圖8 所示。從圖8 可以看出,YOLOv4 模型在精確率、召回率、F1值、平均準(zhǔn)確率以及幀率5 個(gè)指標(biāo)方面均優(yōu)于Faster R-CNN,SSD 和YOLOv3 模型,說(shuō)明YOLOv4模型對(duì)于鉆機(jī)識(shí)別的適用性較好。
采用基于圖像識(shí)別技術(shù)的智能監(jiān)測(cè)方法,可協(xié)助對(duì)地鐵保護(hù)區(qū)沿線(xiàn)安全狀態(tài)的全天候、全方位監(jiān)測(cè),實(shí)現(xiàn)事件信息采集的精確化、信息傳遞過(guò)程的網(wǎng)絡(luò)化、監(jiān)督管理過(guò)程的實(shí)時(shí)化,是加強(qiáng)地鐵保護(hù)區(qū)安全管理工作的有效技術(shù)手段之一。本文基于深度學(xué)習(xí)的圖像識(shí)別技術(shù),結(jié)合鉆機(jī)圖像的識(shí)別特點(diǎn),構(gòu)建了地鐵保護(hù)區(qū)鉆機(jī)檢測(cè)方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了不同參數(shù)設(shè)置對(duì)模型性能的影響,分析了常見(jiàn)的4 種模型對(duì)于鉆機(jī)識(shí)別的精確率、召回率、F1值、平均準(zhǔn)確率和幀率的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果顯示,YOLOv4 模型的識(shí)別效果較為理想,可作為地鐵保護(hù)區(qū)鉆機(jī)識(shí)別的模型之一。本文主要針對(duì)地鐵保護(hù)區(qū)施工常見(jiàn)的鉆機(jī)識(shí)別進(jìn)行研究和驗(yàn)證,模型的樣本量相對(duì)較小,適用范圍較為單一。未來(lái)在實(shí)驗(yàn)條件允許的情況下,可增加安全帽、反光背心、頭盔等更多地鐵保護(hù)區(qū)施工作業(yè)常見(jiàn)的工具進(jìn)行多模型的識(shí)別對(duì)比,以擴(kuò)大模型的適用范圍,更好地為地鐵保護(hù)區(qū)監(jiān)測(cè)提供技術(shù)支撐。