孫明華,楊 媛,李淵博
(西安理工大學(xué)自動(dòng)化與信息工程學(xué)院,陜西 西安 710048)
地鐵隧道內(nèi)需要檢測(cè)的對(duì)象主要包括軌道與隧道。相比于地面鐵路巡檢,地鐵隧道內(nèi)的環(huán)境固定、異物入侵概率較低,同時(shí)可見(jiàn)度較低,需要靠隧道壁兩側(cè)的LED燈提供照明。國(guó)內(nèi)外提出了很多自動(dòng)鐵路異常檢測(cè)和隧道評(píng)估的方法:Rodriguez等人[1]提出了一種使用霍夫變換完成軌道內(nèi)異物檢測(cè)的系統(tǒng),該系統(tǒng)通過(guò)攝像機(jī)采集圖像能夠?qū)崟r(shí)地檢測(cè)障礙物,并且在發(fā)現(xiàn)異物時(shí)能夠發(fā)出警報(bào);Gibert 等人[2]使用計(jì)算機(jī)視覺(jué)和模式識(shí)別方法完成對(duì)軌道的自動(dòng)檢查,該方法通過(guò)在多任務(wù)學(xué)習(xí)框架內(nèi)組合多個(gè)檢測(cè)器,能夠更準(zhǔn)確地檢測(cè)鐵路枕木和軌道扣件上的缺陷。但是,傳統(tǒng)圖像特征提取的方法容易受到場(chǎng)景和光線(xiàn)的影響,無(wú)法滿(mǎn)足智能分析的需要。而深度學(xué)習(xí)憑借著其針對(duì)特定問(wèn)題自動(dòng)構(gòu)建最合適特征的優(yōu)勢(shì),在圖像分析領(lǐng)域相對(duì)于傳統(tǒng)圖像處理方法有著巨大優(yōu)勢(shì)。
將深度學(xué)習(xí)技術(shù)應(yīng)用于自動(dòng)化異常檢測(cè)已經(jīng)成為一種趨勢(shì)。Xu等人[3]提出了一種基于深度學(xué)習(xí)的方法來(lái)識(shí)別鐵路路基探測(cè)數(shù)據(jù)的探地雷達(dá)剖面缺陷,通過(guò)識(shí)別各種缺陷類(lèi)型的比較實(shí)驗(yàn)證明了該方法的魯棒性。Santur等人[4]利用3D激光相機(jī)和深度學(xué)習(xí)的方法,提出了一種用于鐵路表面檢測(cè)的軟硬件架構(gòu),其中3D激光相機(jī)能夠快速檢測(cè)鐵路表面和橫向的缺陷,而深度學(xué)習(xí)具有極高的特征表達(dá)能力。Zhang等人[5]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和多聲發(fā)射事件概率分析的鐵路軌道狀況監(jiān)測(cè)的方法,該方法消除了一次性分類(lèi)引起的檢測(cè)誤差,提高了分類(lèi)精度。Makantasis等人[6]提出了一種基于深度學(xué)習(xí)的全自動(dòng)隧道評(píng)估方法。該方法使用單個(gè)單目相機(jī)采集原始輸入信息,利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建高級(jí)特征,結(jié)果顯示了深度學(xué)習(xí)架構(gòu)對(duì)隧道缺陷檢測(cè)問(wèn)題的適用性。Protopapadakis等人[7]提出了一種用于隧道評(píng)估的機(jī)器人自動(dòng)檢查方法,使用卷積神經(jīng)網(wǎng)絡(luò)完成視覺(jué)檢查。整個(gè)系統(tǒng)已經(jīng)在鐵路和公路隧道中進(jìn)行試用,顯示了檢查自動(dòng)化領(lǐng)域研究的活躍性。
自2012年以來(lái),深度學(xué)習(xí)技術(shù)飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)模型也不斷推陳出新。從最初的AlexNet[8]到VGG[9],從GoogleNET[10]到ResNet[11]。網(wǎng)絡(luò)模型的結(jié)構(gòu)也從單分支演變?yōu)槎喾种?,層?shù)不斷加深,計(jì)算量不斷增加,特征提取能力不斷加強(qiáng)。
網(wǎng)絡(luò)層數(shù)的加深雖然使網(wǎng)絡(luò)的性能得到了提高,但是同時(shí)也帶來(lái)了效率問(wèn)題:網(wǎng)絡(luò)模型的大小與單幅圖像的處理速度。對(duì)于效率問(wèn)題,通常的提升方法是進(jìn)行模型壓縮(Model Compression),即對(duì)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行壓縮,使得網(wǎng)絡(luò)攜帶更少的參數(shù),從而改善模型大小以及處理速度,但是這種方法會(huì)對(duì)網(wǎng)絡(luò)模型的準(zhǔn)確率造成影響。相比于對(duì)訓(xùn)練后保存的模型進(jìn)行處理,輕量化模型的設(shè)計(jì)另辟蹊徑。輕量化網(wǎng)絡(luò)模型也具有各種不同的架構(gòu)設(shè)計(jì),如使用fire module 的SqueezeNet[12]、使用深度可分離卷積的MobileNet_v1[13]與MobileNet_v2[14]、使用分組卷積和通道混洗的ShuffleNet[15]。這類(lèi)網(wǎng)絡(luò)模型的主要思想在于使用更高效的計(jì)算方式(主要是改進(jìn)卷積方式),從而在減少網(wǎng)絡(luò)參數(shù)的同時(shí)保持網(wǎng)絡(luò)的性能。
為了完成在地鐵隧道環(huán)境中的實(shí)時(shí)異常檢測(cè),所構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)需要在保證識(shí)別準(zhǔn)確率的前提下縮減網(wǎng)絡(luò)的參數(shù)量,加快網(wǎng)絡(luò)的處理速度。即在控制卷積神經(jīng)網(wǎng)絡(luò)計(jì)算量的前提下,增強(qiáng)網(wǎng)絡(luò)的特征提取能力。GoogleNet網(wǎng)絡(luò)由多個(gè)inception結(jié)構(gòu)堆疊而成,該網(wǎng)絡(luò)的特征提取能力強(qiáng)但是計(jì)算量較大;而MobileNet網(wǎng)絡(luò)的計(jì)算效率高但是網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)采用VGG的思想,特征提取能力較弱。并且2種網(wǎng)絡(luò)中都使用了1×1卷積,因此將2種網(wǎng)絡(luò)的優(yōu)勢(shì)互補(bǔ)成為了一種可行的選擇,即使用深度可分離卷積對(duì)inception結(jié)構(gòu)進(jìn)行改進(jìn)。
地鐵隧道巡檢視頻分析系統(tǒng)的工作流程如圖1所示,其由2部分構(gòu)成: 左半部分是對(duì)網(wǎng)絡(luò)模型的訓(xùn)練與優(yōu)化,其中還包括對(duì)數(shù)據(jù)集的劃分和圖像的預(yù)處理。本文通過(guò)設(shè)置不同的訓(xùn)練輪數(shù)EPOCHS、初始學(xué)習(xí)率INIT_LR、批大小BS等超參數(shù)對(duì)SubwayNet網(wǎng)絡(luò)模型進(jìn)行多次訓(xùn)練,記錄實(shí)驗(yàn)結(jié)果。SubwayNet網(wǎng)絡(luò)模型是使用改進(jìn)后的inspection結(jié)構(gòu)構(gòu)成的輕量化網(wǎng)絡(luò)。通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比不斷調(diào)整各種超參數(shù)以獲得更好的分類(lèi)效果,從而完成網(wǎng)絡(luò)模型的優(yōu)化,保存實(shí)驗(yàn)中效果最優(yōu)的網(wǎng)絡(luò)模型參數(shù)供分析系統(tǒng)調(diào)用。右半部分則是分析系統(tǒng)。運(yùn)行分析系統(tǒng)軟件,自動(dòng)讀取待檢測(cè)的視頻并對(duì)視頻中待分析的圖像進(jìn)行預(yù)處理;然后調(diào)用已保存的網(wǎng)絡(luò)模型,將分析結(jié)果反饋到系統(tǒng)中;最后預(yù)測(cè)類(lèi)別與置信度的分析結(jié)果會(huì)在系統(tǒng)界面中直觀顯示,并在發(fā)現(xiàn)異常時(shí)進(jìn)行聲音報(bào)警。
Figure 1 Workflow of video analysis system for subway tunnel inspection圖1 地鐵隧道巡檢視頻分析系統(tǒng)工作流程
本文所采用的地鐵隧道視頻均采集于地鐵線(xiàn)路實(shí)景。制作數(shù)據(jù)集時(shí)首先使用Python中的OpenCV庫(kù)將采集到的1080×1920的視頻數(shù)據(jù)按照10幀的間隔頻率提取圖像。然后結(jié)合日常地鐵運(yùn)營(yíng)檢修中出現(xiàn)的異常情況將數(shù)據(jù)集分為正常、軌道內(nèi)存在異物、隧道壁滲漏水、鋼軌扣件螺絲緊固、鋼軌扣件螺絲松動(dòng)5大類(lèi)。之后將對(duì)視頻中提取到的圖像進(jìn)行人工判斷分類(lèi),分別為Normal、Object、Water、Fasten、Loosen,作為Subway-5數(shù)據(jù)集,用于后續(xù)網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試,訓(xùn)練和測(cè)試圖像所占比例為8∶2。圖2所示為5種不同類(lèi)別的圖像示例(方框?yàn)楹笃跇?biāo)注,真實(shí)數(shù)據(jù)無(wú)方框)。
Figure 2 Image samples of Subway-5 dataset圖2 Subway-5數(shù)據(jù)集圖像示例
在數(shù)據(jù)量有限的情況下,可能存在偏斜類(lèi)的問(wèn)題,即訓(xùn)練網(wǎng)絡(luò)模型時(shí)不同樣本的數(shù)目相差很大,最終對(duì)網(wǎng)絡(luò)模型的泛化能力產(chǎn)生影響。在本數(shù)據(jù)集中表現(xiàn)為正常情況與鋼軌扣件螺絲緊固情況類(lèi)別的樣本數(shù)遠(yuǎn)多于其余異常情況的樣本數(shù),如果不進(jìn)行處理,那么訓(xùn)練后的網(wǎng)絡(luò)模型即使將所有圖像都判別為以上2類(lèi)也能有較高的準(zhǔn)確率,所以本文去除Normal、Fasten文件夾中差異不明顯的圖像。最終選定的每類(lèi)圖像的數(shù)目都為100幅,Subway-5數(shù)據(jù)集共有5類(lèi)總計(jì)500幅圖像。
數(shù)據(jù)集中的圖像在用于訓(xùn)練和預(yù)測(cè)之前還需要對(duì)其進(jìn)行預(yù)處理。本文主要采用以下3種預(yù)處理方法:
(1)圖像尺寸的調(diào)整:將數(shù)據(jù)集中待輸入網(wǎng)絡(luò)模型的圖像統(tǒng)一調(diào)整為320×320的尺寸,便于網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試。
(2)數(shù)據(jù)的歸一化處理:圖像的像素為[0,255],采用對(duì)所有像素值除以255的方法將圖像的原始像素值縮放到[0,1],加快網(wǎng)絡(luò)模型使用梯度下降法求得最優(yōu)解的速度。
(3)數(shù)據(jù)增強(qiáng)(Data Augmentation)[16]處理:本文在原始Subway-5數(shù)據(jù)集的基礎(chǔ)上對(duì)圖像進(jìn)行剪切、縮放、隨機(jī)旋轉(zhuǎn)、隨機(jī)偏移等處理。數(shù)據(jù)增強(qiáng)是一種常用的技術(shù),有利于網(wǎng)絡(luò)模型在小數(shù)據(jù)集上的訓(xùn)練,能夠加速擬合或者充當(dāng)正規(guī)化項(xiàng),從而減少過(guò)擬合并增強(qiáng)網(wǎng)絡(luò)模型的泛化能力。
預(yù)處理方法(1)和(2)在網(wǎng)絡(luò)模型的訓(xùn)練和預(yù)測(cè)階段都需要實(shí)行,而預(yù)處理方法(3)只在訓(xùn)練時(shí)使用,預(yù)測(cè)時(shí)不使用。
利用MobileNet_v1網(wǎng)絡(luò)模型中使用的深度可分離卷積對(duì)inception結(jié)構(gòu)進(jìn)行改進(jìn),改進(jìn)后的結(jié)構(gòu)稱(chēng)為Subway_inception_v1結(jié)構(gòu),如圖3所示。在inception結(jié)構(gòu)的基礎(chǔ)上使用卷積窗口大小為3×3的深度卷積 (Depthwise Conv)替換3×3標(biāo)準(zhǔn)卷積并在之后增加1×1標(biāo)準(zhǔn)卷積,而且inception結(jié)構(gòu)中3×3卷積之前的1×1卷積操作具有降維和通道間特征融合的作用,在進(jìn)行深度卷積操作之前就能夠融合不同層間的特征信息,更好地緩解了深度可分離卷積帶來(lái)的層間信息流通不暢的問(wèn)題。
Figure 3 Subway_inception_v1 structure圖3 Subway_inception_v1結(jié)構(gòu)圖
考慮到MobileNet_v2網(wǎng)絡(luò)模型在 MobileNet_v1網(wǎng)絡(luò)模型基礎(chǔ)上做出的改進(jìn):在基本構(gòu)建塊中引入ResNet的skip connection跳躍連接結(jié)構(gòu),本文對(duì)Subway_inception_v1結(jié)構(gòu)進(jìn)行改進(jìn)提出了Subway_inception_v2結(jié)構(gòu),如圖4所示。Subway_inception_v2結(jié)構(gòu)在深度可分離卷積的中間2個(gè)通路分支中引入跳躍連接。這種改進(jìn)只增加了2個(gè)跳躍連接少量的相加運(yùn)算,對(duì)總體結(jié)構(gòu)的計(jì)算量無(wú)顯著影響,卻能夠保留更多的之前層提取到的特征信息。
Figure 4 Subway_inception_v2 structure diagram圖4 Subway_inception_v2結(jié)構(gòu)圖
Figure 5 SubwayNet model圖5 SubwayNet模型
本文使用提出的2種Subway_inception結(jié)構(gòu)分別設(shè)計(jì)了2種對(duì)應(yīng)的SubwayNet網(wǎng)絡(luò)。如果直接使用較深的網(wǎng)絡(luò)結(jié)構(gòu)會(huì)出現(xiàn)梯度消失的問(wèn)題,而層數(shù)太少則會(huì)導(dǎo)致分類(lèi)準(zhǔn)確率較低。SubwayNet_v1網(wǎng)絡(luò)模型的核心是Subway_inception_v1結(jié)構(gòu),因此需要通過(guò)對(duì)比實(shí)驗(yàn)來(lái)確定其數(shù)量。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)說(shuō),通常層數(shù)越深,卷積核的數(shù)目越多,SubwayNet_v1網(wǎng)絡(luò)模型也是如此,增加的每個(gè)Subway_inception_v1結(jié)構(gòu)都有比上一個(gè)結(jié)構(gòu)更多的卷積核個(gè)數(shù)。具有不同Subway_inception_v1結(jié)構(gòu)數(shù)量的網(wǎng)絡(luò)模型在Subway-5數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率如表1所示。從表1中可以看出:當(dāng)Subway_inception_v1結(jié)構(gòu)數(shù)量為2,3時(shí),準(zhǔn)確率較低;當(dāng)Subway_inception_v1結(jié)構(gòu)數(shù)量為4時(shí),準(zhǔn)確率相比之前有顯著提升,達(dá)到了94%;當(dāng)Subway_inception_v1結(jié)構(gòu)數(shù)量為5時(shí),準(zhǔn)確率相比Subway_inception_v1結(jié)構(gòu)數(shù)量為4時(shí)提升了1%,但是參數(shù)量是之前的2.5倍。在準(zhǔn)確率相近時(shí)需要對(duì)比模型的計(jì)算速度,在本文的神經(jīng)網(wǎng)絡(luò)模型中,Subway_inception_v1結(jié)構(gòu)數(shù)量越少就意味著參數(shù)量越少,計(jì)算速度就越快,模型的復(fù)雜度越低。因此,出于對(duì)模型準(zhǔn)確率和計(jì)算速度的綜合考量,本文所構(gòu)建的SubwayNet_v1網(wǎng)絡(luò)模型具有4個(gè)Subway_inception_v1結(jié)構(gòu),如圖5所示。
Table 1 Comparison of the number of different subway_inception_v1 structure表1 不同Subway_inception_v1結(jié)構(gòu)數(shù)量的效果對(duì)比
由于Subway_inception_v2結(jié)構(gòu)只是在Subway_inception_v1結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了部分改進(jìn),SubwayNet_v2與 SubwayNet_v1網(wǎng)絡(luò)模型的結(jié)構(gòu)完全相同,只是將所有Subway_inception_v1結(jié)構(gòu)替換為Subway_inception_v2結(jié)構(gòu)。
圖5為本文提出的SubwayNet網(wǎng)絡(luò)模型結(jié)構(gòu)。輸入是尺寸為320×320×3的圖像,首先經(jīng)過(guò)卷積窗口尺寸為7×7、步長(zhǎng)為2的標(biāo)準(zhǔn)卷積(conv)操作進(jìn)行初步的特征提取;然后通過(guò)窗口尺寸為3×3、步長(zhǎng)為2的最大池化(Max Pooling)操作來(lái)減少數(shù)據(jù)量,保留有效特征;之后將得到的特征圖按順序依次輸入到4個(gè)Subway_inception結(jié)構(gòu)中進(jìn)行多尺度的特征提取與多通道的特征融合;在全連接層(FC)之前添加了全局平均池化(Global Average Pooling)[17]操作AvgPooling,加入全局平均池化相比于直接使用全連接層,可在減少網(wǎng)絡(luò)參數(shù)的同時(shí)降低過(guò)擬合的幾率;最后經(jīng)由Softmax分類(lèi)器得到相關(guān)類(lèi)別概率的輸出。
為了使網(wǎng)絡(luò)模型檢測(cè)結(jié)果的顯示更加直觀,方便人機(jī)交互,本文使用Pycharm軟件中的Qt Designer工具制作了相應(yīng)的圖形用戶(hù)界面。最終生成的圖形用戶(hù)界面包含:界面中間的視頻顯示區(qū)域,用于顯示預(yù)測(cè)結(jié)果和可信度的Detect_Result窗口。open_camera為打開(kāi)視頻按鈕,點(diǎn)擊后系統(tǒng)開(kāi)始加載保存的網(wǎng)絡(luò)模型和待分析的地鐵隧道巡檢視頻,加載完成后開(kāi)始實(shí)時(shí)分析。close_camera為關(guān)閉視頻按鈕,點(diǎn)擊后系統(tǒng)停止視頻的播放與分析。
原始的網(wǎng)絡(luò)模型只能提供分類(lèi)結(jié)果的顯示,而在檢測(cè)到異常狀況時(shí)聲音報(bào)警提示也十分重要。所以本文使用Python的第三方庫(kù)pygame為系統(tǒng)添加了發(fā)現(xiàn)異常狀況時(shí)聲音報(bào)警的功能。當(dāng)檢測(cè)到視頻中的圖像類(lèi)別為軌道內(nèi)存在異物、隧道壁滲漏水、鋼軌扣件螺絲松動(dòng)時(shí),分別播放3種不同的報(bào)警聲音,便于提醒和區(qū)分。
由于所有的代碼都使用Python語(yǔ)言編寫(xiě),在運(yùn)行時(shí)就需要通過(guò)命令行進(jìn)行操作,這樣會(huì)降低地鐵隧道巡檢視頻分析系統(tǒng)應(yīng)用的便利性。所以,本文使用Python的第三方庫(kù)pyinstaller將所需文件打包生成Detector.exe可執(zhí)行程序,便于其在電腦端移植使用。使用鼠標(biāo)雙擊打開(kāi)程序就會(huì)出現(xiàn)圖形用戶(hù)界面,點(diǎn)擊open_camera按鈕即可對(duì)視頻進(jìn)行分析,相比通過(guò)命令行進(jìn)行操作,操作更為便捷和易用。
實(shí)驗(yàn)是在Ubuntu16.04版本的 Amax Sever 環(huán)境中進(jìn)行的,Amax Sever包括2塊Intel Xeon E5-2620V4 CPU、4塊NVIDIA TESLA-K80 GPU。本文使用Keras深度學(xué)習(xí)框架設(shè)計(jì)網(wǎng)絡(luò)模型。Keras使用Tensorflow和theano作為后端的高級(jí)封裝庫(kù),相當(dāng)于在二者基礎(chǔ)上構(gòu)建的高級(jí)API,雖然靈活性有所降低但是易用性強(qiáng),可以很方便地對(duì)網(wǎng)絡(luò)模型進(jìn)行修改。本文使用其中的Tensorflow作為后端。網(wǎng)絡(luò)模型的訓(xùn)練使用AdamOptimizer,它是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,能夠自動(dòng)調(diào)節(jié)學(xué)習(xí)率以加速網(wǎng)絡(luò)收斂。
為了將SubwayNet與其它輕量化網(wǎng)絡(luò)模型比較,本文根據(jù)原始論文復(fù)現(xiàn)了SqueezeNet、MobileNet_v1、MobileNet_v2、ShuffleNet 4種輕量化網(wǎng)絡(luò)模型,并使用Subway-5數(shù)據(jù)集作為輸入進(jìn)行對(duì)比實(shí)驗(yàn),輸入圖像尺寸均為320×320×3。
網(wǎng)絡(luò)模型參數(shù)量與分類(lèi)準(zhǔn)確率如表2所示,從表2中可以看出:SubwayNet_v1在Subway-5數(shù)據(jù)集上的準(zhǔn)確率能夠達(dá)到94%;SubwayNet_v2 在SubwayNet_v1的基礎(chǔ)上將準(zhǔn)確率提升了2%,達(dá)到96%,而參數(shù)量保持不變;剩余4種輕量化網(wǎng)絡(luò)模型中MobileNet_v2的準(zhǔn)確率較高但也只達(dá)到了90%,而參數(shù)量卻是SubwayNet_v2的8.4倍,SqueezeNet的參數(shù)量與SubwayNet_v2的參數(shù)量數(shù)量級(jí)相同,但是準(zhǔn)確率只能達(dá)到80%。
Table 2 Different network models classification accuracy and parameter quantity表2 不同網(wǎng)絡(luò)模型分類(lèi)準(zhǔn)確率與參數(shù)量
網(wǎng)絡(luò)模型大小與處理單幅320×320大小的地鐵隧道圖像的速度的關(guān)系如表3所示,測(cè)試分別在單塊Intel Xeon E5-2620V4 CPU下和單塊NVIDIA TESLA-K80 GPU下進(jìn)行,其中,model_size表示將模型保存為.h5文件所占用的內(nèi)存大小。處理時(shí)間為多幅圖像的處理時(shí)間求平均并保留小數(shù)點(diǎn)后4位,幀速率將計(jì)算結(jié)果向下取整。根據(jù)視覺(jué)暫留原理,視頻的圖像變化速度需要大于24 fps畫(huà)面才能流暢平滑。從表3中可以看出,在本文的實(shí)驗(yàn)條件下:各種網(wǎng)絡(luò)模型中SubwayNet_v1網(wǎng)絡(luò)模型所占用的內(nèi)存最少,僅為3.6 MB,處理速度也最快,在CPU上能達(dá)到25 fps、在GPU上能達(dá)到52 fps;SubwayNet_v2由于添加了skip connection,計(jì)算量相比SubwayNet_v1略微增加,在CPU、GPU上的處理時(shí)間也略微增加,但網(wǎng)絡(luò)模型大小以及幀速率保持不變;剩余4種輕量化網(wǎng)絡(luò)模型中,MobileNet_v1網(wǎng)絡(luò)模型所占用的內(nèi)存最多,為37.3 MB,是SubwayNet_v1網(wǎng)絡(luò)模型的10倍,處理速度也最慢,在CPU上只能達(dá)到15 fps,不滿(mǎn)足視覺(jué)連續(xù)性的要求。
為了更好地評(píng)估2種SubwayNet對(duì)Subway-5數(shù)據(jù)集中5類(lèi)圖像的分類(lèi)效果,本文計(jì)算了2種網(wǎng)絡(luò)模型的準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1_score)。
從表4中可以看出,SubwayNet_v1網(wǎng)絡(luò)模型能夠精準(zhǔn)地檢測(cè)鋼軌扣件螺絲緊固、鋼軌扣件螺絲松動(dòng)、隧道壁滲漏水的情況,但是存在軌道內(nèi)異物漏檢和正常狀態(tài)誤報(bào)為異常的情況。其中正常類(lèi)的F1-score僅為0.88,異物類(lèi)的F1-score僅為0.84。
Table 3 Network model size and processing speed表3 網(wǎng)絡(luò)模型大小與處理速度
Table 4 Classification effect of SubwayNet_v1表4 SubwayNet_v1的分類(lèi)效果
從表5中可以看出,相比于SubwayNet_v1網(wǎng)絡(luò)模型,SubwayNet_v2網(wǎng)絡(luò)模型雖然在鋼軌扣件螺絲緊固、鋼軌扣件螺絲松動(dòng)2種情況中的識(shí)別準(zhǔn)確率有所降低,但是整體5類(lèi)情況的F1-score很高(最低為0.95)。這說(shuō)明SubwayNet_v2網(wǎng)絡(luò)模型在Subway-5數(shù)據(jù)集上的綜合性能優(yōu)于SubwayNet_v1網(wǎng)絡(luò)模型的,在實(shí)際應(yīng)用中的可靠性更高。
Table 5 Classification effect of SubwayNet_v2表5 SubwayNet_v2的分類(lèi)效果
為了進(jìn)一步分析綜合性能較高的SubwayNet_v2網(wǎng)絡(luò)模型提取到的地鐵巡檢圖像的特征,本文將Subway-5數(shù)據(jù)集中5幅不同類(lèi)別的測(cè)試圖像分別輸入到訓(xùn)練后保存的網(wǎng)絡(luò)模型中,并對(duì)網(wǎng)絡(luò)模型中部分層得到的特征圖進(jìn)行了可視化處理,如圖6所示。從圖6中可以看出:測(cè)試圖像在經(jīng)過(guò)第1次Conv_7×7卷積操作后過(guò)濾了大量無(wú)關(guān)信息并保留了圖像的紋理等主要特征,此時(shí)特征圖的尺寸變?yōu)?60×160;在經(jīng)過(guò)第1個(gè)Subway_inception_v2結(jié)構(gòu)后特征圖的抽象程度進(jìn)一步提升,此時(shí)特征圖的尺寸變?yōu)?0×80;在經(jīng)過(guò)第4個(gè)Subway_inception_v2結(jié)構(gòu)后特征圖的抽象程度極高,已無(wú)法進(jìn)行視覺(jué)上的直觀分析,此時(shí)特征圖的尺寸變?yōu)?0×20。而且從Object類(lèi)中還能夠看出光線(xiàn)對(duì)于網(wǎng)絡(luò)模型的特征提取效果影響極大,網(wǎng)絡(luò)模型提取到了隧道壁上LED燈的特征以及地面上手電光線(xiàn)的特征,這會(huì)減弱軌道內(nèi)異物特征對(duì)于最終分類(lèi)結(jié)果的影響。
Figure 6 Feature map visualization圖6 特征圖可視化
為了更好地分析SubwayNet_v2網(wǎng)絡(luò)模型的圖像分類(lèi)依據(jù),本文還可視化了類(lèi)激活圖CAM(Class Activation Map)并疊加在輸入圖像上生成類(lèi)激活熱圖(Heat Map)。類(lèi)激活圖是與特定輸出類(lèi)別關(guān)聯(lián)分?jǐn)?shù)的二維網(wǎng)格,其針對(duì)于輸入圖像中的每個(gè)像素位置進(jìn)行計(jì)算,并指示每個(gè)像素位置對(duì)于所判定結(jié)果的類(lèi)的重要程度,如圖7所示。從圖7中可以看出:SubwayNet_v2網(wǎng)絡(luò)模型對(duì)正常情況圖像的判別依據(jù)是軌道的中間部分以及側(cè)邊隧道壁的部分;對(duì)隧道壁滲漏水情況的判別依據(jù)是側(cè)邊隧道壁滲漏水的部分以及軌道的中間部分;對(duì)于鋼軌扣件螺絲緊固以及鋼軌扣件螺絲松動(dòng)情況的判別依據(jù)是鋼軌扣件的部分。以上情況基本符合人工巡檢的檢查位置,但是對(duì)于軌道內(nèi)存在異物的情況,系統(tǒng)卻把隧道壁上的LED燈的部分當(dāng)做判別依據(jù),說(shuō)明網(wǎng)絡(luò)沒(méi)有正確地學(xué)習(xí)到相應(yīng)的異物特征。這與Subway-5數(shù)據(jù)集中軌道內(nèi)存在異物類(lèi)別的圖像數(shù)據(jù)采集的位置有關(guān),這段隧道內(nèi)的亮度較低,燈光的亮度成為了主要影響因子。根據(jù)以往的深度學(xué)習(xí)研究經(jīng)驗(yàn),采集更多不同隧道環(huán)境下的軌道內(nèi)異物的圖像數(shù)據(jù),增加同類(lèi)數(shù)據(jù)的差異性可能會(huì)使效果得到改善。
Figure 7 Class activation map and heat map visualization圖7 類(lèi)激活圖和熱度圖可視化
由于最終地鐵隧道巡檢視頻分析系統(tǒng)的結(jié)果是以Python文件打包后得到的應(yīng)用軟件中視頻的形式呈現(xiàn),因此本文截取了一段測(cè)試視頻中的5種不同情況進(jìn)行說(shuō)明,如圖8所示(箭頭為后期標(biāo)注)。從5種情況的分析結(jié)果中能夠看出,分析系統(tǒng)具有較高的準(zhǔn)確率,并且在情況2、情況3和情況5中有警報(bào)聲,與設(shè)置相符。
Figure 8 Analysis system operation results圖8 分析系統(tǒng)運(yùn)行結(jié)果
本文利用MobileNet中的深度可分離卷積與ResNet中的跳躍連接來(lái)改進(jìn)GoogleNet的inception結(jié)構(gòu),提出了2種Subway_inception結(jié)構(gòu),建立了2種SubwayNet卷積神經(jīng)網(wǎng)絡(luò)模型,并構(gòu)建了完整的地鐵隧道巡檢視頻分析系統(tǒng)。通過(guò)不同輕量化網(wǎng)絡(luò)模型在Subway-5數(shù)據(jù)集上的效果對(duì)比檢驗(yàn)了2種SubwayNet的性能,還通過(guò)可視化特征圖和類(lèi)激活圖分析了SubwayNet_v2網(wǎng)絡(luò)模型對(duì)于圖像特征的提取效果。在文中的實(shí)驗(yàn)條件下,SubwayNet_v2網(wǎng)絡(luò)模型的準(zhǔn)確率能夠達(dá)到96%,圖像處理速度能夠達(dá)到52 fps,滿(mǎn)足視頻實(shí)時(shí)、準(zhǔn)確處理分析的要求。本文為地鐵隧道日常巡檢,保障地鐵的安全運(yùn)營(yíng)提供了一種新方法。對(duì)算法進(jìn)行改進(jìn),在分類(lèi)的基礎(chǔ)上完成異常狀態(tài)位置的檢測(cè)是下一步的改進(jìn)方向。