胡浩幫,方宏遠,王念念,董家修,馬鐸
(鄭州大學水利科學與工程學院,河南 鄭州 450001)
在城市發(fā)展過程中,地下管線是基礎設施建設中一個重要組成部分,城市功能的正常運轉和人們生活質量的提高與其不可分離。在對地下管線進行全面的勘察、記錄和系統(tǒng)管理時,如何提高探測的精度和速度,采取合理的、實用的探測識別方法,變成探測工作的重中之重[1]。探地雷達具有快速、高效、連續(xù)、無損等優(yōu)點,彌補了管線探測儀的探測缺陷,因此在城市地下管線的探測中得到普遍應用[2]。在探地雷達圖像中主要有兩種常見的目標特征,分別是雙曲線形態(tài)特征與線性形態(tài)特征,在地下管線探測中主要關注前者的檢測與識別。
近年來,基于深度學習的學術研究和應用探索突飛猛進,越來越多的算法模型被應用到各種目標檢測任務中。為了提高模型進行目標檢測時的準確性,網(wǎng)絡深度逐漸增大,相應的網(wǎng)絡參數(shù)大幅增加,模型結構也趨于復雜。這對計算機硬件的計算能力提出了更高的要求,也增大了訓練難度和時間成本。于是在現(xiàn)有算力基礎上,兼顧準確性和實時性,減少網(wǎng)絡參數(shù),壓縮網(wǎng)絡模型也成為目標檢測中的一個研究方向[3]。
神經(jīng)網(wǎng)絡模型壓縮的思路大致分為:模型剪裁、知識蒸餾、量化、輕量化網(wǎng)絡。設計輕量化網(wǎng)絡是目前研究較多的一種方式,主要使用深度可分離卷積構建網(wǎng)絡,通過改變或重組網(wǎng)絡結構簡化網(wǎng)絡。常用的輕量化網(wǎng)絡有Mobilenet[4]、Shufflenet[5]、Squeezenet[6]和Xception[7]。MobileNet網(wǎng)絡的核心思想是深度可分離卷積,將標準卷積分解為深度卷積和點卷積,有效降低計算量和網(wǎng)絡參數(shù)。該網(wǎng)絡在ImageNet數(shù)據(jù)集上的精度只降低1%,但是參數(shù)量降低86%。從既有研究成果來看,采用輕量化網(wǎng)絡的思想,在滿足模型準確性的同時,可以大幅降低模型訓練及運行的時間成本。
本研究采用Mobilenet-SSD作為檢測工具,在SSD結構的基礎上,使用MobileNet代替基礎網(wǎng)絡VGGNet,并且去除Mobilenet網(wǎng)絡中的全連接層和Softmax層,同時新增8個標準卷積層來完成圖像的特征提取工作。
不同于標準卷積,Mobilenet的核心思想是引入了深度可分離卷積[8],將標準的卷積過濾器分為深度卷積和點卷積兩個結構。如圖1所示,假設標準卷積中輸入與輸出的長×寬不變,標準的卷積過程是將輸入為DF×DF×M的輸入層轉化為DF×DF×N的輸出層,其中DF×DF為輸入或輸出feature map的長×寬,M,N分別為輸入,輸出通道數(shù)。假設卷積核過濾器的尺寸為DK×DK,則標準卷積核的計算量為:
圖1 標準卷積示意圖
DF×DF×DK×DK×M×N
(1)
深度卷積和點卷積的卷積核大小分別為DK×DK和1×1。深度卷積的示意圖如圖2所示。當特征圖輸入深度卷積層時,通過卷積運算會得到單一的輸出,此處為第一次計算量壓縮。深度卷積的計算量為:
圖2 深度卷積示意圖
DF×DF×DK×DK×M
(2)
深度卷積層的輸出將作為點卷積的輸入,經(jīng)過卷積運算之后得到深度特征輸出,此處為第二次計算量壓縮。如圖3所示,點卷積的計算量為:
圖3 點卷積示意圖
DF×DF×M×N
(3)
標準卷積分解為深度卷積和點卷積之后的計算量為:
DF×DF×DK×DK×M+DF×DF×M×N
(4)
最終深度可分離卷積的計算量與原標準卷積的計算量的比值為:
(5)
Mobilenet通常使用3×3的卷積核,由式(5)可以算出原標準卷積的計算量是深度可分離卷積的8~9倍,對應的參數(shù)量也是8~9倍。深度卷積將單個卷積應用到每一個輸入通道,對每一個輸入通道進行卷積,得到單通道卷積值。點卷積通過1×1卷積核將深度卷積的輸出值進行組合,得到最終的卷積值??稍诓唤档途鹊那闆r之下,通過減少卷積運算的復雜程度從而提高神經(jīng)網(wǎng)絡的運算速度。
本研究提出的網(wǎng)絡模型結構如圖4所示,模型將輸入圖像歸一化為300×300像素,送入網(wǎng)絡結構,圖中前半部分為Mobilenet網(wǎng)絡模型,圖像數(shù)據(jù)經(jīng)過Mobilenet基礎分類網(wǎng)絡模型的底層網(wǎng)絡提取位置、邊緣等信息,更加具象的特征由上層網(wǎng)絡提取。目標檢測器SSD采用多尺度特征進行預測,去除預先提取候選區(qū)域的步驟,對目標按照位置和類別置信度分別進行評價,以評估總體的損失函數(shù)。
圖4 Mobilenet-SSD網(wǎng)絡結構
新增的8個標準卷積層分別為Conv14_1、Conv14_2、Conv15_1、Conv15_2、Conv16_1、Conv16_2、Conv17_1、Conv17_2,擴寬特征圖像的接受范圍。Mobilenet-SSD網(wǎng)絡模型在特征提取過程中,使用的方法與SSD網(wǎng)絡模型類似,采用特征金字塔思想[9]獲取6個卷積層的特征信息,用來進行多尺度多目標的目標檢測。
模型中用來進行目標檢測的6層卷積層分別為Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2、Conv17_2。其中,每一層卷積層輸出的特征圖的大小分別為19×19、10×10、5×5、3×3、2×2和1×1。為了防止梯度消失,在分類任務網(wǎng)絡中每一層引入BatchNorm層和激活函數(shù)(ReLU6),并在模型訓練的過程中引入兩個超參數(shù)寬度乘數(shù)和分辨率乘數(shù)來減少輸入輸出的channels和feature map大小。
數(shù)據(jù)集是深度學習訓練和應用的基礎。由于地下管線周邊存在各種噪聲源,地下環(huán)境復雜,在實際工程中采集到的雷達圖像數(shù)量不足且質量較差,不能滿足模型訓練的要求。本文首先建立真實圖像、模型試驗雷達圖像與FDTD仿真圖像的復合數(shù)據(jù)集。數(shù)據(jù)集在原始圖像的基礎上應用了數(shù)據(jù)增強技術,通過反轉鏡像、平移裁剪和顏色變換等,原始圖像共有300張,數(shù)據(jù)增強后獲得 2 400張圖像。這樣有效增加了訓練數(shù)據(jù)的數(shù)量和種類,并且沒有對原圖像的地下管線雙曲線特征造成改變,使算法在有限的數(shù)據(jù)集中不易受細節(jié)改變的影響。對于雷達圖像的實時檢測識別研究面向實際探測的使用場景,真實雷達圖像占數(shù)據(jù)集圖像總數(shù)的83.3%,剩下部分的圖像用于豐富數(shù)據(jù)集,提高模型的泛化能力。
為了驗證不同訓練集的訓練效果,優(yōu)化網(wǎng)絡模型的性能,設計了4個數(shù)據(jù)集組合方案,如表1所示。面向實際探測的使用場景,訓練集由三種雷達圖像相互組合,均在真實雷達數(shù)據(jù)上進行測試。
數(shù)據(jù)集配置方案 表1
在建立數(shù)據(jù)集的基礎上,進行模型訓練、對比分析與優(yōu)化等步驟。基于VOC2007數(shù)據(jù)集,前期數(shù)據(jù)集處理生成的文件夾分別直接對應data數(shù)據(jù)集中的目錄,簡化算法配置流程。獲取label信息,確定訓練、測試、驗證的比例為8∶1∶1。設置初始學習率、動量系數(shù)、總迭代次數(shù)等參數(shù),設置不同的數(shù)據(jù)集組合方式,訓練獲得性能較優(yōu)的檢測識別網(wǎng)絡模型,加載網(wǎng)絡模型對真實雷達圖像進行識別測試。
準確率accuracy是指預測結果中表示正確預測的樣本(真陽性和假陽性之和)與所有樣本的比值。
(6)
這里,TP、FP、TN、FN分別是真陽性、假陽性、真陰性、假陰性的個數(shù)。但當目標類別不平衡時,準確率accuracy不能體現(xiàn)對模型的綜合評價,應以查準率-召回率曲線或者AP作為評價指標。召回率recall是指真陽性樣本與實際陽性(真陽性和假陰性)樣本的比例。查準率precision是真陽性樣本與預測陽性(真陽性和假陽性)樣本的比率。
(7)
(8)
如果一個分類器的性能較好,那么它應該有如下的表現(xiàn):在recall值增長的同時,precision的值保持在一個很高的水平。而性能比較差的分類器可能會損失很多precision值才能換來recall值的提高。precision-recall曲線常用來顯示分類器在Precision與Recall之間的權衡。AP是precision-recall曲線下方包圍的曲面面積,可以合理地評價算法的有效性。通常來說一個性能越優(yōu)異的分類器,AP值越高。
根據(jù)各種訓練設置對應獲得的模型性能表現(xiàn),不斷進行算法調(diào)優(yōu),獲得兼顧準確性與實時性的網(wǎng)絡模型。將faster-rcnn作為對照,試驗結果如表2所示,最優(yōu)方案為Mobilenet-SSD網(wǎng)絡模型,迭代次數(shù)為 30 000次,AP達到89.4%,模型識別速度達到65FPS,能夠滿足管線探測工程實際要求。
測試結果對比表 表2
由試驗結果,表中AP值對應該網(wǎng)絡模型采用各個序號的數(shù)據(jù)集進行訓練時,得到的準確性最優(yōu)模型。在測試集都為真實數(shù)據(jù)的前提下,表中序號4對應的AP值最大,而且隨著模型試驗數(shù)據(jù)和仿真數(shù)據(jù)的加入,AP值逐漸增大,說明復合訓練集有利于提高模型訓練性能,改善模型識別效果;Mobilenet-SSD的準確性略低于Faster R-CNN,但模型檢測速度維持在60FPS以上,算法運行的時間成本大幅降低,實時性顯著改善。
采用訓練獲得的模型對真實雷達圖像進行測試,測試效果如圖5所示。模型對(a)單一金屬管線,(b)單一非金屬管線,(c)多個非重疊特征,(d)多個重疊特征等共4種情況,均可成功識別,且未出現(xiàn)錯檢、漏檢、預測框與特征區(qū)域重合率過低等情況。Mobilenet-SSD與Faster R-CNN的檢測效果基本一致,生成的預測框符合特征的位置和尺寸,預測框恰好完全包圍地下管線特征區(qū)域,框的上邊緣與雙曲線特征的頂點位置重合。對比表明:該模型對不同埋地情況的管線特征具有較強的魯棒性,包括復雜交叉重疊的情況,效果準確可靠,可以較好地應用于實際檢測。
圖5 測試效果圖
本文提出了一種基于Mobilenet-SSD的探地雷達管線目標智能識別方法,通過超參數(shù)設置,數(shù)據(jù)集組合訓練等對比調(diào)優(yōu),得到兼顧準確性和實時性的網(wǎng)絡模型。模型可成功識別單一金屬管線,單一非金屬管線,多個非重疊特征,多個重疊特征等4種情況。模型參數(shù)較少,運行效率高,可以提高探地雷達探測地下管線的效率,為健全管線普查數(shù)據(jù)庫提供支持,在實際工程問題中具有廣闊的應用前景。未來還需改進的是,由于地下埋地目標多種多樣,如空洞、疏松等路基缺陷,我們將收集不同類型的GPR數(shù)據(jù),對所提出的模型進行訓練改進,拓寬智能識別領域。