王朕,李豪,嚴(yán)冬梅,竺永榮
(1.天津財(cái)經(jīng)大學(xué) 理工學(xué)院,天津 300222;2.天津市交通科學(xué)研究院 智能交通研究中心,天津 300060)
路面病害檢測(cè)是評(píng)價(jià)道路養(yǎng)護(hù)的一項(xiàng)重要任務(wù)。路面病害的存在會(huì)損害路面結(jié)構(gòu),降低行車速度,縮短道路運(yùn)營(yíng)時(shí)間。嚴(yán)重的路面病害還會(huì)削弱路基承載力,形成路面坍塌,影響交通安全,造成交通經(jīng)濟(jì)損失。因此,快速準(zhǔn)確地獲取路面信息和定期道路養(yǎng)護(hù)尤為重要。傳統(tǒng)的路面病害檢測(cè)主要以人工視覺檢測(cè)為主,存在檢測(cè)效率低、主觀性強(qiáng)等缺點(diǎn)[1]。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和硬件設(shè)備的不斷優(yōu)化,利用深度學(xué)習(xí)進(jìn)行路面病害檢測(cè)的方法準(zhǔn)確率和速度明顯提升,具有很強(qiáng)的自適應(yīng)性和魯棒性[2]。
基于深度學(xué)習(xí)的路面病害檢測(cè)方法無(wú)須人工提取路面病害特征,計(jì)算機(jī)能夠通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并學(xué)習(xí)目標(biāo)特征,從而完成檢測(cè)與分類的任務(wù)[3]。常用的基于深度學(xué)習(xí)的路面病害檢測(cè)方法有基于區(qū)域建議的二階段預(yù)測(cè)方法(如R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]、Mask R-CNN[7]等)和基于回歸分類的一階段預(yù)測(cè)方法(如YOLO[8]、SSD[9]等)。
基于區(qū)域建議的二階段預(yù)測(cè)方法將檢測(cè)任務(wù)分為病害位置信息定位和病害類別檢測(cè)2 個(gè)階段進(jìn)行。GOU等[10]受Faster R-CNN 模型的啟發(fā),將區(qū)域建議網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)相結(jié)合,提出改進(jìn)Faster R-CNN 的路面裂縫檢測(cè)算法。文獻(xiàn)[11]將Mask RCNN 作為主干框架,通過(guò)融入ResNet 結(jié)構(gòu)與特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)提升對(duì)病害特征信息提取的準(zhǔn)確度,并基于此構(gòu)建針對(duì)裂縫病害識(shí)別的檢測(cè)模型,在復(fù)雜背景下實(shí)現(xiàn)了對(duì)裂縫病害特征的高效識(shí)別。
基于回歸分類的一階段預(yù)測(cè)方法將目標(biāo)邊界框大小預(yù)測(cè)和目標(biāo)類別判斷合并到單個(gè)神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)了高準(zhǔn)確率的快速病害檢測(cè)定位與分類[12]。文獻(xiàn)[13]將YOLOv3 網(wǎng)絡(luò)應(yīng)用到路面裂縫檢測(cè)研究中,設(shè)計(jì)了一種基于YOLOv3的路面裂縫檢測(cè)方法,并對(duì)采集的圖片進(jìn)行手動(dòng)標(biāo)記,通過(guò)YOLOv3 網(wǎng)絡(luò)訓(xùn)練出實(shí)時(shí)且準(zhǔn)確率較高的路面裂縫檢測(cè)模型。文獻(xiàn)[14]將YOLOv4 作為路面裂縫檢測(cè)基礎(chǔ)模型,在對(duì)IEEE 大數(shù)據(jù)挑戰(zhàn)賽提供的公共道路裂縫數(shù)據(jù)集RDD-2020 作適當(dāng)數(shù)據(jù)增強(qiáng)后,訓(xùn)練出一個(gè)能夠識(shí)別多種復(fù)雜裂縫類型的道路裂縫檢測(cè)與分類模型。文獻(xiàn)[15]針對(duì)復(fù)雜環(huán)境干擾導(dǎo)致裂縫檢測(cè)困難的問題,通過(guò)在主干特征提取網(wǎng)絡(luò)中添加可變形卷積,提出一種可變形SSD 的新網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)路面裂縫的高精度實(shí)時(shí)檢測(cè)。
在自然語(yǔ)言處理中,Transformer作為主要的應(yīng)用模型不僅可以提取特征,而且還可以實(shí)現(xiàn)多模態(tài)融合[16]。因此,構(gòu)建一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和Transformer 結(jié)構(gòu)交融的網(wǎng)絡(luò)來(lái)完成病害檢測(cè)任務(wù)也成為當(dāng)下的研究熱點(diǎn)。文獻(xiàn)[17]提出視覺Transformer(Vision Transformer,ViT)證明,通過(guò)將圖像視為一系列Patch,Transformer結(jié)構(gòu)也可以直接應(yīng)用于圖像,其在圖像識(shí)別任務(wù)中的性能與CNN相當(dāng)。文獻(xiàn)[18]提出了基于Transformer的目標(biāo)檢測(cè)網(wǎng)絡(luò)Swin Transformer,通過(guò)引入CNN中常用的層次化構(gòu)建方式構(gòu)建層次化Transformer,并引入局部性思想對(duì)無(wú)重合的窗口區(qū)域進(jìn)行自注意力計(jì)算,從而獲得高效的檢測(cè)性能。這些研究促進(jìn)了路面病害檢測(cè)的進(jìn)一步發(fā)展。
然而,現(xiàn)有方法在處理路面病害檢測(cè)任務(wù)上還存在一些缺陷,例如:高速瀝青路面病害不如混凝土路面病害特征明顯,特征提取困難;其他路面對(duì)象(如裂縫表面修補(bǔ)和路面標(biāo)線)的干擾,以及橫向、縱向、龜裂等裂縫類別之間的干擾會(huì)增加檢測(cè)難度;現(xiàn)有的路面病害檢測(cè)數(shù)據(jù)集干擾較小,不能滿足復(fù)雜環(huán)境下裂縫檢測(cè)的需要。為應(yīng)對(duì)這些挑戰(zhàn),本文提出基于改進(jìn)YOLOv5 的路面病害檢測(cè)模型YOLOv5l-CBF。針對(duì)主干網(wǎng)絡(luò)病害特征提取不足的問題,引入坐標(biāo)注意力(Coordinate Attention,CA)機(jī)制[19]來(lái)增強(qiáng)模型對(duì)感興趣區(qū)域的特征提取。同時(shí),將多頭自注意力(Multi-Head Self-Attention,MHSA)整合到頂層C3模塊中構(gòu)建CTR3 模塊,以提取更多差異化的特征,提高對(duì)病害特征的識(shí)別度。在此基礎(chǔ)上,在頸部網(wǎng)絡(luò)構(gòu)建優(yōu)化的雙向加權(quán)特征金字塔網(wǎng)絡(luò)(BiFPN)[20],加強(qiáng)多尺度特征圖之間的融合,實(shí)現(xiàn)對(duì)路面病害高精度的自動(dòng)化檢測(cè)與分類。
對(duì)于YOLOv5 目標(biāo)檢測(cè)模型,官方給出了4 種網(wǎng)絡(luò)模型結(jié)構(gòu):YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x[21]。這4 種結(jié)構(gòu)通過(guò)調(diào)整相關(guān)參數(shù)來(lái)控制網(wǎng)絡(luò)的深度和寬度,網(wǎng)絡(luò)架構(gòu)都可以概括為輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和預(yù)測(cè)層(Prediction)[22]等4 個(gè)部分。其中:輸入端將輸入圖像的大小統(tǒng)一成固定尺寸;主干網(wǎng)絡(luò)負(fù)責(zé)從輸入圖像中提取關(guān)鍵特征;頸部網(wǎng)絡(luò)主要利用特征金字塔網(wǎng)絡(luò)對(duì)提取到的圖像特征進(jìn)行融合;預(yù)測(cè)層的作用是生成含有特征映射的錨框,輸出帶有檢測(cè)類別名稱和概率的邊界框。
本文結(jié)合路面病害自動(dòng)化檢測(cè)需求,選擇網(wǎng)絡(luò)深度和特征圖寬度適中的YOLOv5l_v5 模型作為路面病害檢測(cè)模型的主體。合適的模型大小和卷積核數(shù)量可保證訓(xùn)練后的權(quán)重文件能夠?qū)崿F(xiàn)對(duì)路面病害高精度的自動(dòng)化檢測(cè)。
為了從眾多特征信息中獲取對(duì)路面病害檢測(cè)任務(wù)起到關(guān)鍵作用的信息,提高圖像處理的準(zhǔn)確性和效率,筆者擬在特征提取網(wǎng)絡(luò)中引入注意力機(jī)制來(lái)提高病害檢測(cè)性能。然而在現(xiàn)有研究中,大部分注意力機(jī)制對(duì)于位置信息和通道信息關(guān)注較少。由于混合域的注意力機(jī)制可以同時(shí)考慮位置信息和通道信息[23],因此本文利用混合域的坐標(biāo)注意力機(jī)制獲得圖像中病害的位置信息和通道關(guān)系,并將病害位置信息嵌入通道中,使網(wǎng)絡(luò)能夠獲取更多區(qū)域的信息,提高網(wǎng)絡(luò)對(duì)于病害特征的提取能力。坐標(biāo)注意力模塊如圖1 所示。
圖1 坐標(biāo)注意力模塊Fig.1 Coordinate attention module
坐標(biāo)注意力模塊通過(guò)坐標(biāo)信息嵌入和坐標(biāo)注意力生成2 個(gè)階段來(lái)編碼通道關(guān)系和長(zhǎng)期依賴關(guān)系。
1)坐標(biāo)信息嵌入
設(shè)定輸入特征圖A 的維度為C×H×W。使用2 個(gè)空間范圍為(H,1)和(1,W)的平均池化分別沿水平方向和垂直方向?qū)γ總€(gè)通道進(jìn)行編碼。高度為H的第c個(gè)通道和寬度為W的第c個(gè)通道平均池化后的輸出如式(1)和式(2)所示:
2)坐標(biāo)注意力生成
式(1)和式(2)這2 種變換分別沿2 個(gè)空間方向聚合特征,得到一對(duì)方向感知特征圖(i)和(j),然后在完成Concat 連接、Conv2d 卷積和ReLU 激活后生成在水平方向和垂直方向編碼空間信息的中間特征圖f,如式(3)所示:
其中:[,]為Concat 連接;F為1×1 的卷積運(yùn)算;δ為ReLU 激活函數(shù);f為ReLU 層輸出的特征圖。在沿空間維度將f拆分為2 個(gè)單張量fH和fW后,分別使用卷積核大小為1 的卷積運(yùn)算和激活函數(shù)完成對(duì)H和W方向的加權(quán),輸出如式(4)和式(5)所示:
式(4)中:Fi是沿H方向的卷積運(yùn)算,輸入為yi;σ為Sigmoid 激活函數(shù);生成的wi是空間維度為H方向的自適應(yīng)權(quán)重。式(5)中:Fj是沿W方向的卷積運(yùn)算,輸入為yj;生成的wj是空間維度為W方向的自適應(yīng)權(quán)重。
坐標(biāo)注意力模塊輸出的最終特征圖B 如式(6)所示:
其中:c表示第c個(gè)通道;(i)為H方向第i個(gè)位置的權(quán)值;(j)為W方向上第j個(gè)位置的權(quán)值;(i,j)為輸入特征圖A 的值;fc(i,j)為輸出特征圖B 的值。
坐標(biāo)注意力模塊通過(guò)對(duì)輸入的張量同時(shí)進(jìn)行水平和垂直方向的感知,使其不僅關(guān)注了不同通道信息的重要性,而且還考慮了空間信息的編碼。但是,在網(wǎng)絡(luò)結(jié)構(gòu)中不適當(dāng)?shù)奈恢锰砑幼⒁饬C(jī)制不但不能獲得好的特征提取能力,反而會(huì)增加計(jì)算量和模型的參數(shù)量。如果在網(wǎng)絡(luò)的開頭部分添加注意力機(jī)制進(jìn)行特征提取,由于提取的空間注意力通道數(shù)較少,概括性不足,且空間注意力敏感難學(xué),更容易造成負(fù)面影響;如果加在網(wǎng)絡(luò)太靠后部分,由于通道數(shù)過(guò)多,特征圖太小容易引起過(guò)擬合,且使用卷積操作不當(dāng)也會(huì)引入大比例非像素信息。因此,本文將坐標(biāo)注意力機(jī)制嵌入到Y(jié)OLOv5 主干網(wǎng)絡(luò)的中間2 個(gè)C3 模塊,幫助模型對(duì)重點(diǎn)關(guān)注區(qū)域進(jìn)行特征提取,使模型對(duì)于病害的紋理特征信息更加敏感,從而提高對(duì)路面病害檢測(cè)與分類的精度。融入坐標(biāo)注意力機(jī)制的主干網(wǎng)絡(luò)如圖2 所示。
圖2 融入坐標(biāo)注意力的主干網(wǎng)絡(luò)Fig.2 Backbone incorporating coordinate attention
高速路面圖像中涉及的病害形態(tài)多樣、種類眾多,應(yīng)提高圖像中語(yǔ)義可分辨性并避免類別混淆,而從大鄰域收集特征信息和關(guān)聯(lián)場(chǎng)景信息有助于學(xué)習(xí)對(duì)象之間的關(guān)系。然而,卷積操作的局部性限制了捕獲全局上下文信息的能力。相比之下,Transformer 不但能夠從全局范圍內(nèi)關(guān)注圖像特征塊之間的依賴關(guān)系,而且還能夠通過(guò)多頭自注意力為目標(biāo)檢測(cè)保留更多的空間信息。為提高學(xué)習(xí)特征的可轉(zhuǎn)移性,同時(shí)捕獲上下文信息,本文提出使用多頭自注意力替換頂層C3 模塊中的3×3 卷積構(gòu)建CTR3 模塊,在二維特征圖上實(shí)現(xiàn)全局自注意的形式處理并聚合特征圖中的信息。CTR3 模塊結(jié)構(gòu)如圖3 所示。
圖3 CTR3 模塊結(jié)構(gòu)Fig.3 CTR3 module structure
為使用Transformer 機(jī)制處理平面圖像,MHSA將二維特征圖的空間維度X∈RH×W×d展開成一個(gè)Xp∈R(H×W)×d的序列。其中:(H,W)是原始特征圖的分辨率;d是通道;H×W是作為Transformer 層的有效輸入序列的長(zhǎng)度。同時(shí),MHSA 通過(guò)使用可學(xué)習(xí)的標(biāo)準(zhǔn)化一維位置嵌入方法來(lái)保留位置信息。雖然在Bottleneck 殘差網(wǎng)絡(luò)結(jié)構(gòu)中使用了4 個(gè)多頭自注意力層,但為了對(duì)結(jié)構(gòu)進(jìn)行簡(jiǎn)單描述,因此并不在圖中展示出來(lái)。自注意力層結(jié)構(gòu)如圖4 所示。其中:qkT表示注意標(biāo)記,q、k分別表示查詢和關(guān)鍵字;⊕表示元素和;?表示矩陣乘法;1×1 表示逐點(diǎn)卷積。
圖4 自注意力層結(jié)構(gòu)Fig.4 Self-attention layer structure
在YOLOv5 主干網(wǎng)絡(luò)的頂部C3 結(jié)構(gòu)中引入多頭自注意層的原因在于:當(dāng)網(wǎng)絡(luò)相對(duì)較淺且特征映射相對(duì)較大時(shí),會(huì)過(guò)早地使用Transformer 來(lái)強(qiáng)制執(zhí)行回歸邊界,這可能會(huì)丟失一些有意義的上下文信息。因此,在改進(jìn)的主干網(wǎng)絡(luò)結(jié)構(gòu)中,Transformer 層僅應(yīng)用于P5而不是P3和P4。此外,考慮到在n個(gè)實(shí)體中全局的自我注意需要O(n2d)規(guī)模的內(nèi)存和計(jì)算量[24],本文選擇在主干網(wǎng)絡(luò)中最低分辨率的特征圖P5上合并自注意力。結(jié)合多頭自注意力和坐標(biāo)注意力后改進(jìn)的YOLOv5l 主干網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
圖5 改進(jìn)的YOLOv5l 主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Improved YOLOv5l Backbone structure
路面病害圖像中的物體大小變化很大,而卷積神經(jīng)網(wǎng)絡(luò)中單層的特征映射表示能力有限,因此,有效地表示和處理多尺度特征至關(guān)重要。目前常用的特征聚合網(wǎng)絡(luò)結(jié)構(gòu)以FPN+PANet 為主。因?yàn)镕PN[25]是單向結(jié)構(gòu),所以PANet 額外增加了一條路徑來(lái)加強(qiáng)特征融合,但是由于輸入特征不同,因此它們對(duì)融合的輸出特征做出的貢獻(xiàn)通常也是不同的。BiFPN 在PANet 的基礎(chǔ)上進(jìn)行改進(jìn),對(duì)原始的FPN模塊添加上下文信息的邊,并對(duì)每個(gè)邊乘以一個(gè)相應(yīng)的權(quán)重,以便在不增加過(guò)多參數(shù)量的情況下融合更多的特征。常用的特征融合模塊如圖6 所示。
圖6 特征融合模塊Fig.6 Feature fusion module
圖6(a)顯示了傳統(tǒng)的自頂向下FPN,其中Pi表示不同的特征層,分辨率為輸入圖像分辨率的1/2i。如果輸入圖像分辨率為640×640像素,則P3表示第3個(gè)特征層,圖像分辨率為80×80 像素(640/23=80);P5表示第5 個(gè)特征層,圖像分辨率為20×20 像素(640/25=20)。P5、P4、P3的輸出如式(7)~式(9)所示:
其中:Resize 進(jìn)行與對(duì)應(yīng)層級(jí)分辨率相匹配的上取樣或下取樣操作;Conv 進(jìn)行特征處理的卷積操作。
傳統(tǒng)的自頂向下FPN 本質(zhì)上受單向信息流的影響。針對(duì)這種情況,PANet 增加了一個(gè)額外的自底向上路徑聚合網(wǎng)絡(luò),如圖6(b)所示。但是不斷地進(jìn)行上采樣和下采樣操作會(huì)給網(wǎng)絡(luò)帶來(lái)較大的參數(shù)量和計(jì)算量。為了提高模型訓(xùn)練的效率,BiFPN 使用了跨尺度連接的方法,如圖6(c)所示:首先基于PANet 去除那些只有一條輸入邊的節(jié)點(diǎn),簡(jiǎn)化網(wǎng)絡(luò);然后在同一層次的2 個(gè)節(jié)點(diǎn)之間增加一條額外的邊,以融合更多差異化的特征。
同時(shí),本文提出了改進(jìn)的加權(quán)特征融合方法,為每個(gè)輸入添加一個(gè)權(quán)重,并通過(guò)不斷訓(xùn)練調(diào)參來(lái)調(diào)整不同輸入的融合權(quán)重,以找到每個(gè)輸入的最優(yōu)權(quán)重值。加權(quán)特征融合的計(jì)算方法如式(10)所示:
其中:wi≥0 是通過(guò)在每個(gè)wi之后施加ReLU 激活函數(shù)來(lái)保證的;同時(shí)將初始學(xué)習(xí)率ε設(shè)置為0.000 1,以避免數(shù)值不穩(wěn)定。此處選擇第一次迭代作為示例。式(11)描述了P4層的2 個(gè)特征融合過(guò)程:
其中:為P4層的中間特征;為P4層的輸出特性;通過(guò)下采樣卷積操作與融合在融合后使用新的ReLU 激活函數(shù)激活,在每次卷積后進(jìn)行權(quán)重的批量歸一化。
為提高神經(jīng)網(wǎng)絡(luò)對(duì)病害目標(biāo)的檢測(cè)能力,本文在頸部網(wǎng)絡(luò)構(gòu)建雙向加權(quán)特征金字塔網(wǎng)絡(luò)。采用特征金字塔網(wǎng)絡(luò)設(shè)計(jì)思想,通過(guò)自頂向下的上采樣將高層網(wǎng)絡(luò)中分辨率低、語(yǔ)義信息強(qiáng)的特征圖放大,并與淺層網(wǎng)絡(luò)中分辨率高、空間信息豐富的特征圖進(jìn)行融合,同時(shí)將淺層網(wǎng)絡(luò)中的定位信息自底向上進(jìn)行傳遞,增強(qiáng)整體網(wǎng)絡(luò)特征層次,提高檢測(cè)性能。相比于原YOLOv5 模型的PANet 結(jié)構(gòu),采用改進(jìn)后的BiFPN 頸部網(wǎng)絡(luò)能夠獲得更高效的特征融合和擬合能力,并能有效解決主干網(wǎng)絡(luò)在道路病害目標(biāo)檢測(cè)中特征融合不充分的問題。改進(jìn)的YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。
圖7 改進(jìn)的YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Improved YOLOv5 network structure
2.1.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)集包含來(lái)自天津市交通科學(xué)研究院提供的6 條高速公路的高清路面圖像,每幅圖像的分辨率為2 048×2 000 像素,由路面圖像采集車分兩車道對(duì)近300 km 的高速公路路面圖像進(jìn)行采集得到。數(shù)據(jù)集中同時(shí)還包含了由天津市交通科學(xué)研究院道路病害標(biāo)注技術(shù)團(tuán)隊(duì)人工標(biāo)注的病害標(biāo)注文件,其標(biāo)注過(guò)程嚴(yán)格參照交通運(yùn)輸部公路科學(xué)研究院發(fā)布的《公路技術(shù)狀況評(píng)定標(biāo)準(zhǔn)》[26]為指導(dǎo)進(jìn)行病害標(biāo)注,標(biāo)注信息包括路面類型、車道、病害類型、病害程度、標(biāo)注位置、病害長(zhǎng)度、病害寬度、病害面積等。
2.1.2 數(shù)據(jù)標(biāo)注
要獲得良好的病害檢測(cè)與分類效果,構(gòu)建一個(gè)高質(zhì)量的數(shù)據(jù)集尤為重要。首先,本文通過(guò)建立一個(gè)包含8 071張圖片的初始道路病害數(shù)據(jù)集Crack_HW01進(jìn)行病害檢測(cè)模型的選型,其中主要有5 種標(biāo)注類型,分別是橫向裂縫(C01)、縱向裂縫(C02)、龜裂(C03)、坑槽(C05)、修補(bǔ)(C07)。在天津市交通科學(xué)研究院提供的道路病害數(shù)據(jù)中共有7 種病害類型,還包括塊狀裂縫(C04)和松散(C06),由于這2 類病害數(shù)據(jù)圖像稀少,因此本文主要實(shí)現(xiàn)對(duì)常見的5 種病害類型的檢測(cè)。然后,對(duì)初始道路病害數(shù)據(jù)集Crack_HW01 進(jìn)行病害標(biāo)注質(zhì)量的檢查優(yōu)化,同時(shí)增大數(shù)據(jù)量。優(yōu)化后的數(shù)據(jù)集Crack_HW02 包含18 515 幅圖像,實(shí)現(xiàn)了對(duì)5 種病害類型的高質(zhì)量標(biāo)注。由于Crack_HW02 數(shù)據(jù)集中對(duì)于龜裂、坑槽病害的標(biāo)注數(shù)據(jù)較少,這也導(dǎo)致了模型對(duì)于這2種病害類型的泛化識(shí)別效果較差,平均準(zhǔn)確率被拉低,因此在Crack_HW02的基礎(chǔ)上繼續(xù)清洗出包含龜裂、坑槽的圖像加入到數(shù)據(jù)集中,最終的路面病害數(shù)據(jù)集Crack_HW包含19 233幅圖像,其中有7 170個(gè)橫向裂縫(C01)、12 133個(gè)縱向裂縫(C02)、836個(gè)龜裂(C03)、1 110個(gè)坑槽(C05)和1 256個(gè)修補(bǔ)(C07)。數(shù)據(jù)集統(tǒng)計(jì)信息如表1所示,部分路面病害圖像如圖8所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息 Table 1 Dataset statistics information
圖8 數(shù)據(jù)集部分樣本圖像Fig.8 Partial sample images of the dataset
2.1.3 數(shù)據(jù)增強(qiáng)
已有研究成果表明,適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)可以有效提升網(wǎng)絡(luò)的訓(xùn)練效果,并使模型對(duì)來(lái)自不同環(huán)境圖像的檢測(cè)具有更高的魯棒性。由于本文研究的圖像來(lái)源屬于高速路面直角拍攝,主要反映的是路面信息,沒有復(fù)雜的背景干擾,且網(wǎng)絡(luò)主要學(xué)習(xí)的是病害的紋理特征,因此對(duì)色彩度要求不高。所以,本文在調(diào)整色調(diào)、飽和度和亮度后將圖像從RGB 空間轉(zhuǎn)化到HSV 空間。除了使用常用的數(shù)據(jù)增強(qiáng)手段如圖像平移、圖像縮放、剪切、翻轉(zhuǎn)外,本文還使用了獨(dú)特的數(shù)據(jù)增強(qiáng)方法Mosaic。Mosaic 是一種新穎而有效的數(shù)據(jù)增強(qiáng)技術(shù),它隨機(jī)將4 幅訓(xùn)練圖像按一定的比例拼接成一幅新的圖像。使用Mosaic 數(shù)據(jù)增強(qiáng)技術(shù)能夠豐富訓(xùn)練數(shù)據(jù)集,有利于優(yōu)化檢測(cè)器性能,避免過(guò)擬合。
RDD-2020 數(shù)據(jù)集包含使用智能手機(jī)從印度、日本和捷克共和國(guó)收集的26 336 幅道路圖像,其中有超過(guò)31 000個(gè)道路病害標(biāo)注。數(shù)據(jù)集中包含對(duì)4種病害類型的標(biāo)注,分別是縱向裂縫(D00)、橫向裂縫(D10)、龜裂(D20)和坑槽(D40)。本文僅使用該數(shù)據(jù)集的訓(xùn)練集,共21 041 幅圖像。對(duì)該數(shù)據(jù)集按照8∶1∶1 的比例劃分后,訓(xùn)練集包含16 833 幅圖像,驗(yàn)證集包含2 104 幅圖像,測(cè)試集包含2 104 幅圖像。
本文實(shí)驗(yàn)環(huán)境基于Ubuntu18.04 操作系統(tǒng),CPU 型號(hào)為Intel?CoreTMi7-10700,內(nèi)存64 GB,GPU 型號(hào)為GeForce GTX 3070(8 GB 顯存),使用PyThon3.7.0,深度學(xué)習(xí)框架PyTorch1.9.0,并安裝cuda11.4、cudnn 8.0.5實(shí)現(xiàn)訓(xùn)練加速。
訓(xùn)練階段的實(shí)驗(yàn)參數(shù)設(shè)置如下:使用SGD 優(yōu)化器對(duì)損失函數(shù)進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0.01,在學(xué)習(xí)率更新過(guò)程中采用余弦退火算法,直至最終學(xué)習(xí)率衰減到0.002,權(quán)重衰減系數(shù)為0.000 5,前3 個(gè)epoch進(jìn)行warm-up,初始化動(dòng)量參數(shù)為0.8,批次大小為8,訓(xùn)練500 個(gè)epoch。使用遷移學(xué)習(xí)的方式通過(guò)加載YOLOv5l.pt 權(quán)重文件進(jìn)行預(yù)訓(xùn)練加快網(wǎng)絡(luò)的學(xué)習(xí),使網(wǎng)絡(luò)訓(xùn)練的效果更好。
本文使用精度、召回率以及平均精度均值(mean Average Precision,mAP)來(lái)評(píng)價(jià)道路表面病害的識(shí)別性能。其中:精度用于反映對(duì)道路表面病害預(yù)測(cè)的準(zhǔn)確性,表示為分類器確定的正樣本中真實(shí)正樣本所占的比例;召回率用于反映對(duì)道路表面病害是否全部發(fā)現(xiàn),表示為正確判定的正樣本在總正樣本中所占的比例。精度和召回率的計(jì)算公式如式(12)和式(13)所示:
其中:TP表示正確被劃分為正樣本的個(gè)數(shù)(真陽(yáng)性);FP表示錯(cuò)誤被劃分為正樣本的個(gè)數(shù)(假陽(yáng)性);FN表示錯(cuò)誤被劃分為負(fù)樣本的個(gè)數(shù)(假陰性);TN表示正確被劃分為負(fù)樣本的個(gè)數(shù)(真陰性)。
mAP 在目標(biāo)決策中是衡量檢測(cè)精度的指標(biāo)。通過(guò)P-R(Precision-Recall)曲線積分計(jì)算每種類別的平均精度然后求平均,即得到mAP,計(jì)算公式如式(14)所示:
為驗(yàn)證本文的改進(jìn)模型對(duì)路面病害檢測(cè)的影響,對(duì)各模塊進(jìn)行評(píng)估。使用路面病害數(shù)據(jù)集Crack_HW 進(jìn)行訓(xùn)練后在測(cè)試集上的實(shí)驗(yàn)結(jié)果如表2 所示,其中,“√”表示添加相應(yīng)的方法,YOLOv5l為原始模型。
對(duì)表2 所示數(shù)據(jù)的具體分析如下:
表2 YOLOv5 模型改進(jìn)前后評(píng)價(jià)指標(biāo)對(duì)比 Table 2 Comparison of evaluation indexes of YOLOv5 model before and after improvement %
1)YOLOv5l-CA 模型為在主干網(wǎng)絡(luò)中加入坐標(biāo)注意力機(jī)制的模型??梢钥闯觯⒁饬C(jī)制的嵌入使模型在路面病害檢測(cè)的精度和召回率上較原始模型分別提升了1.3 和5.5 個(gè)百分點(diǎn)。這主要是因?yàn)樵寄P蛯?duì)病害紋理特征的提取不夠明顯,難以學(xué)習(xí)到病害的多種特征,從而造成漏檢或誤檢。添加坐標(biāo)注意力后的模型對(duì)路面病害特征提取更加明確,模型在訓(xùn)練的過(guò)程中更加關(guān)注圖像中病害的特征和位置,這使得檢測(cè)性能有了進(jìn)一步的提升,模型對(duì)病害檢測(cè)的平均mAP 達(dá)到85.9%。
2)YOLOv5l-BotNet 模型為在主干網(wǎng)絡(luò)深層部分引入多頭自注意力構(gòu)建CTR3 結(jié)構(gòu)的模型。實(shí)驗(yàn)結(jié)果顯示,模型在測(cè)試集上的精度、召回率和mAP較原始模型分別提升了2.6、5.6 和2.3 個(gè)百分點(diǎn)。其中,對(duì)于坑槽類病害(C05)的檢測(cè)無(wú)論是精度還是召回率都提升了近10 個(gè)百分點(diǎn)。這是因?yàn)橐隡HSA 后的C3 結(jié)構(gòu)具有更強(qiáng)的捕獲全局上下文信息的能力,能夠更好地幫助模型建立病害和圖像背景之間差異性的關(guān)系。
3)YOLOv5l-CB 模型為在主干網(wǎng)絡(luò)中引入坐標(biāo)注意力機(jī)制和Transformer 自注意力結(jié)構(gòu)的模型。實(shí)驗(yàn)結(jié)果顯示,模型的精度、召回率和mAP 較原始模型都有所提升,其中mAP 提升了2.7 個(gè)百分點(diǎn)。這說(shuō)明改進(jìn)后的主干網(wǎng)絡(luò)通過(guò)添加注意力機(jī)制提升了對(duì)病害紋理特征的提取能力和對(duì)全局依賴關(guān)系的捕捉能力。
4)YOLOv5l-BiFPN 模型為在頸部網(wǎng)絡(luò)采用雙向加權(quán)特征金字塔網(wǎng)絡(luò)加強(qiáng)網(wǎng)絡(luò)特征融合能力的模型。實(shí)驗(yàn)結(jié)果顯示,模型對(duì)病害檢測(cè)與分類的精度較原始模型提升了3.7 個(gè)百分點(diǎn),但是召回率提升并不明顯,只提升了1.6 個(gè)百分點(diǎn)。這是因?yàn)橹鞲删W(wǎng)絡(luò)已經(jīng)提取到路面病害的各種紋理特征,而BiFPN 主要負(fù)責(zé)對(duì)學(xué)習(xí)到的紋理特征進(jìn)行融合,如遇到新的病害紋理,模型難以識(shí)別從而造成漏檢或誤檢。
5)YOLOv5l-CBF 模型為采用本文改進(jìn)方法的組合模型:首先對(duì)先驗(yàn)框進(jìn)行優(yōu)化后在主干網(wǎng)絡(luò)添加坐標(biāo)注意力機(jī)制以及多頭自注意力機(jī)制,加強(qiáng)對(duì)病害紋理特征的提?。蝗缓笤陬i部網(wǎng)絡(luò)構(gòu)建BiFPN對(duì)提取到的紋理特征做進(jìn)一步的融合。實(shí)驗(yàn)結(jié)果顯示,模型的精度、召回率較原始模型分別提升了7.4和8.7 個(gè)百分點(diǎn),mAP 達(dá)到90.8%,實(shí)現(xiàn)了對(duì)5 種病害類型高精度的自動(dòng)化檢測(cè)。
本文模型在Crack_HW 測(cè)試集上檢測(cè)的P-R 曲線如圖9 所示,括號(hào)中數(shù)據(jù)表示mAP@0.5 指標(biāo)??梢钥闯?,本文模型對(duì)龜裂(C03)、坑槽(C05)、修補(bǔ)(C07)這3 種病害類型的識(shí)別效果較好,但是對(duì)于橫向裂縫(C01)、縱向裂縫(C02)的檢測(cè)精度不到90%,主要是因?yàn)檫@2 種裂縫類型的紋理特征多樣,模型在學(xué)習(xí)的過(guò)程中不能很好地學(xué)習(xí)到豐富的特征表現(xiàn)形式。
圖9 P-R 曲線Fig.9 P-R curve
為進(jìn)一步評(píng)價(jià)模型性能,對(duì)YOLOv5l-CBF 模型與常見的目標(biāo)檢測(cè)模型在道路病害數(shù)據(jù)集Crack_HW 上訓(xùn)練后的實(shí)驗(yàn)結(jié)果進(jìn)行比較,如表3 上半部分所示。同時(shí),為驗(yàn)證YOLOv5l-CBF 模型在不同數(shù)據(jù)集上的檢測(cè)效果,使用IEEE 大數(shù)據(jù)挑戰(zhàn)賽提供的公共道路裂縫數(shù)據(jù)集RDD-2020 和本文路面病害數(shù)據(jù)集Crack_HW,對(duì)YOLOv5l-CBF 模型與主流路面病害檢測(cè)模型訓(xùn)練后的實(shí)驗(yàn)結(jié)果進(jìn)行比較,如表3 下半部分和圖10 所示。
表3 不同模型的檢測(cè)性能 Table 3 Comparison of detection performance of different models
圖10 不同模型的檢測(cè)結(jié)果Fig.10 Detection results of different models
為應(yīng)對(duì)高速路面病害檢測(cè)任務(wù)的挑戰(zhàn),本文針對(duì)YOLOv5l 模型擴(kuò)展并優(yōu)化其網(wǎng)絡(luò)結(jié)構(gòu)。通過(guò)在原YOLOv5l 主干網(wǎng)絡(luò)中加入坐標(biāo)注意力機(jī)制剔除無(wú)效的冗余特征,留下對(duì)目標(biāo)分類與定位更加有利的特征信息;引入Transformer 自注意力改進(jìn)網(wǎng)絡(luò)的殘差結(jié)構(gòu),提高模型對(duì)于全局圖像特征塊之間依賴關(guān)系的捕捉能力;同時(shí)優(yōu)化原YOLOv5l 頸部網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建雙向加權(quán)特征融合網(wǎng)絡(luò),提高模型的多尺度特征融合能力。在實(shí)驗(yàn)過(guò)程中,本文實(shí)現(xiàn)了一個(gè)高質(zhì)量路面病害數(shù)據(jù)集Crack_HW 并引入遷移學(xué)習(xí)的方式,有效地提高了網(wǎng)絡(luò)模型的檢測(cè)精度。雖然本文模型較原始模型在精度上有較大提升,但不能滿足網(wǎng)絡(luò)輕量化的要求。下一步將在保證準(zhǔn)確率的情況下使用深度可分離卷積對(duì)模型進(jìn)行輕量化改造,同時(shí)實(shí)現(xiàn)高精度與高速率檢測(cè)。