張勁松, 陳明舉,2?, 鄧元實(shí), 王 鴻
(1.四川輕化工大學(xué) 人工智能四川省重點(diǎn)實(shí)驗(yàn)室, 四川 宜賓 644005;2.四川輕化工大學(xué) 企業(yè)信息化與物聯(lián)網(wǎng)測(cè)控技術(shù)四川省高校重點(diǎn)實(shí)驗(yàn)室, 四川 宜賓 644005;3.國(guó)網(wǎng)四川省電力公司電力科學(xué)研究院, 四川 成都 610095)
長(zhǎng)期以來(lái),變電站在進(jìn)行電力作業(yè)[1]的過(guò)程中,時(shí)常發(fā)生安全事故,不但會(huì)帶來(lái)經(jīng)濟(jì)損失,而且會(huì)對(duì)電力作業(yè)人員造成人身傷害。 究其原因,主要是電力施工人員作業(yè)操作不規(guī)范、檢修作業(yè)時(shí)監(jiān)管不到位和安全意識(shí)薄弱。 傳統(tǒng)的監(jiān)管方法主要依靠視頻監(jiān)控和人員車輛定位[2],對(duì)人員操作的依賴性較強(qiáng),當(dāng)外界環(huán)境干擾過(guò)大時(shí),可能會(huì)影響數(shù)據(jù)的傳輸,導(dǎo)致操作人員出現(xiàn)誤判情況。 隨著人工智能科學(xué)技術(shù)的蓬勃發(fā)展,深度學(xué)習(xí)具有學(xué)習(xí)能力強(qiáng)、適用范圍廣的特點(diǎn),已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,實(shí)現(xiàn)了人臉識(shí)別[3]、人體姿態(tài)估計(jì)[4]和目標(biāo)檢測(cè)[5]等功能,并且取得了較好的成果。
在電力場(chǎng)景中,章文旭[6]提出了一種基于多特征融合的目標(biāo)跟蹤算法,并與YOLOV3 結(jié)合,對(duì)電力施工現(xiàn)場(chǎng)的作業(yè)人員實(shí)現(xiàn)了跟蹤定位、安全帽佩戴檢測(cè)和判斷是否進(jìn)入危險(xiǎn)區(qū)域等功能,一定程度上保障了電力作業(yè)人員的安全。 王時(shí)威[7]提出了一種雙流Faster-RCNN 檢測(cè)方法和超寬帶信號(hào)分類定位方法,實(shí)現(xiàn)了對(duì)電力作業(yè)人員穿戴的檢測(cè)和誤入危險(xiǎn)區(qū)域警告的功能,在一定程度上避免了安全事故的發(fā)生。 黃文杰等[8]將Alphapose 與ResNet 結(jié)合,實(shí)現(xiàn)了對(duì)電力作業(yè)人員的穿戴檢測(cè),一定程度上能夠起到規(guī)范電力作業(yè)人員著裝的作用。 但是目前的這些方法只適用于電力作業(yè)人員,而在實(shí)際的電力作業(yè)場(chǎng)景中,電力檢修車也是不可或缺的一部分,在不同的作業(yè)環(huán)境中,為了保障施工安全,電力檢修車的作業(yè)姿態(tài)也有具體的要求。 因此,設(shè)計(jì)一種針對(duì)電力檢修車的安全監(jiān)測(cè)方法是一個(gè)亟待解決的問(wèn)題,而目前卻比較缺乏對(duì)該方面的研究。
由于電力檢修車主要使用機(jī)械臂進(jìn)行電力作業(yè),本文將電力檢修車的機(jī)械臂作為研究對(duì)象。 研究中存在2 個(gè)難點(diǎn):一是電力檢修車機(jī)械臂具有較大橫縱比和帶旋轉(zhuǎn)角度的特點(diǎn),常規(guī)的目標(biāo)檢測(cè)算法檢測(cè)效果不佳,采用旋轉(zhuǎn)目標(biāo)檢測(cè)算法可以提升檢測(cè)效果,但旋轉(zhuǎn)目標(biāo)檢測(cè)算法會(huì)出現(xiàn)邊界問(wèn)題,產(chǎn)生較大的損失值,導(dǎo)致算法性能下降;二是要考慮實(shí)際作業(yè)中算法的實(shí)時(shí)性。 針對(duì)這2 個(gè)問(wèn)題,本文采用長(zhǎng)邊定義法與環(huán)形平滑標(biāo)簽相結(jié)合的方法解決了邊界問(wèn)題;采用YOLOv5 結(jié)合注意力機(jī)制的方法保證了檢測(cè)算法的準(zhǔn)確度和實(shí)時(shí)性。
當(dāng)前大多數(shù)旋轉(zhuǎn)目標(biāo)檢測(cè)算法集中于遙感領(lǐng)域。 Sun 等[9]提出了一種以RetinaNet[10]為基礎(chǔ)的R4Det 算法,設(shè)計(jì)了一個(gè)遞歸特征金字塔(Recursive Feature Pyramid,RFP) 和特征精煉模塊(Feature Refinement Module,FRM),并增加了遞歸連接塊(Recursive Connection Block,RCB),提高了檢測(cè)精度;李 賽 鳳[11]在 Faster-RCNN 算 法 的 基 礎(chǔ), 以ResNet50 和特征金字塔網(wǎng)絡(luò)( Feature Pyramid Network,FPN)結(jié)合作為主干網(wǎng)絡(luò)完成特征提取,并使用RoI Align 替換RoI pooling,提升了模型的檢測(cè)性能。
不論是單階段目標(biāo)檢測(cè)算法還是二階段旋轉(zhuǎn)目標(biāo)檢測(cè)算法,大多不能同時(shí)做到精確檢測(cè)和快速檢測(cè),且不能很好地解決旋轉(zhuǎn)角度帶來(lái)的損失問(wèn)題。YOLO 系列算法[12-15]經(jīng)過(guò)了YOLOv1 到Y(jié)OLOv5 的版本迭代,無(wú)論實(shí)在檢測(cè)的精度還是檢測(cè)的速度上都有很好的表現(xiàn)。 本文將以YOLOv5 網(wǎng)絡(luò)為基礎(chǔ),實(shí)現(xiàn)對(duì)電力檢修車機(jī)械臂和機(jī)械臂旋轉(zhuǎn)角度的檢測(cè)和預(yù)測(cè),YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 YOLOv5 V6.0 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 YOLOv5 V6.0 network structure diagram
本文的R-YOLOv5 網(wǎng)絡(luò)主要對(duì)Input 和Prediction 部分進(jìn)行設(shè)計(jì)。 Input 即輸入端,主要是對(duì)輸入的圖片數(shù)據(jù)進(jìn)行處理,具體的處理方式為調(diào)節(jié)亮度和飽和度、旋轉(zhuǎn)平移、縮放裁剪和翻轉(zhuǎn)拼接。 由于R-YOLOv5 網(wǎng)絡(luò)針對(duì)旋轉(zhuǎn)目標(biāo)進(jìn)行檢測(cè),所以采用帶角度的數(shù)據(jù)標(biāo)簽進(jìn)行標(biāo)注。
Backbone 部分主要由特征提取的主干網(wǎng)絡(luò)CSPDarkNet 和快速空間金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)組成,包含CSP1_X 和CSP2_X 結(jié)構(gòu)。 CSP1_X 應(yīng)用于CSPDarkNet 中,能夠加強(qiáng)對(duì)圖片的特征提取能力,結(jié)構(gòu)示意如圖2 所示;CSP2_X應(yīng)用于Neck 中;SPPF 相比于SPP 增加了2 個(gè)CBS模塊,提高了網(wǎng)絡(luò)的訓(xùn)練效率,結(jié)構(gòu)示意如圖3所示。
圖2 CSP1_X 結(jié)構(gòu)示意Fig.2 CSP1_X structural diagram
圖3 SPPF 結(jié)構(gòu)示意Fig.3 SPPF structure diagram
Neck 部分主要由FPN 和判別器組成,CSP2_X能夠加強(qiáng)特征融合能力,使網(wǎng)絡(luò)提取到的特征更加豐富,結(jié)構(gòu)示意如圖4 所示。 Prediction 部分實(shí)現(xiàn)對(duì)大、中、小3 種不同尺度的目標(biāo)檢測(cè)功能,本文的RYOLOv5 網(wǎng)絡(luò)在Prediction 部分增加了180 個(gè)角度分類通道,完成對(duì)目標(biāo)旋轉(zhuǎn)角度的預(yù)測(cè)。
圖4 CSP2_X 結(jié)構(gòu)示意Fig.4 CSP2_X structure diagram
通常情況下,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法采取的數(shù)據(jù)標(biāo)注方式為水平框標(biāo)注。 針對(duì)本文研究對(duì)象具有大橫縱比和帶有旋轉(zhuǎn)角度的特點(diǎn),采用旋轉(zhuǎn)框的標(biāo)注方式進(jìn)行數(shù)據(jù)標(biāo)注,旋轉(zhuǎn)框數(shù)據(jù)標(biāo)注方式能夠更加準(zhǔn)確地框選本文的檢測(cè)目標(biāo),減少框入多余的語(yǔ)義信息,避免主干網(wǎng)絡(luò)提取到不必要的目標(biāo)特征,提高目標(biāo)的檢測(cè)精度和減少網(wǎng)絡(luò)訓(xùn)練的時(shí)間。水平標(biāo)注框和旋轉(zhuǎn)標(biāo)注框?qū)Ρ疚难芯繉?duì)象的標(biāo)注效果對(duì)比如圖5 所示。
圖5 水平標(biāo)注框與旋轉(zhuǎn)標(biāo)注框效果對(duì)比Fig.5 Comparison between horizontal bounding box and rotating bounding box
雖然通過(guò)旋轉(zhuǎn)標(biāo)注框能夠減少特征提取時(shí)的冗余信息,提高網(wǎng)絡(luò)的檢測(cè)精度和訓(xùn)練效率,但是旋轉(zhuǎn)框的數(shù)據(jù)標(biāo)注方式會(huì)在網(wǎng)絡(luò)訓(xùn)練時(shí)出現(xiàn)邊界問(wèn)題,包括邊的交換(Exchangability of Edges,EoE)問(wèn)題和角度的周期(Periodicity of Angular,PoA)問(wèn)題。 EoE 問(wèn)題是當(dāng)目標(biāo)進(jìn)行旋轉(zhuǎn)時(shí),矩形框的長(zhǎng)和寬會(huì)發(fā)生互換,造成角度發(fā)生90°的誤差,如圖6(a)所示。 PoA問(wèn)題是因?yàn)橛糜谟?xùn)練的數(shù)據(jù)標(biāo)注參數(shù)具有周期性,在周期發(fā)生跳躍時(shí),邊界部分會(huì)使損失值突增,在圖6(b)中,假設(shè)θ∈[-90°,90°),目標(biāo)順時(shí)針旋轉(zhuǎn),紅色框預(yù)測(cè)得到的旋轉(zhuǎn)角度θ為88°,目標(biāo)的真實(shí)標(biāo)注角度為89°時(shí),誤差值為1°;綠色框預(yù)測(cè)得到的旋轉(zhuǎn)角度θ為89°,目標(biāo)的真實(shí)標(biāo)注角度為-90°時(shí),誤差值則為179°,然而在實(shí)際情況下誤差值僅為1°。
圖6 EoE 問(wèn)題和PoA 問(wèn)題示意Fig.6 Schematic diagram of EoE problem and PoA problem
針對(duì)θ的邊界問(wèn)題,本文采用長(zhǎng)邊定義法與環(huán)形平滑標(biāo)簽(Circular Smooth Label ,CSL)[16]相結(jié)合的方法來(lái)解決θ的邊界問(wèn)題。 長(zhǎng)邊定義法解決邊的變化問(wèn)題,環(huán)形平滑標(biāo)簽解決角度的周期問(wèn)題。
長(zhǎng)邊定義法是一種五參數(shù)標(biāo)注方法[17],確定了角度的定義問(wèn)題,避免了邊的交換性問(wèn)題。 長(zhǎng)邊定義法的表示方法為(180°,-regression-based,[x,y,w,h,θ]),(x,y)為旋轉(zhuǎn)矩形框的中心坐標(biāo),w和h分別為矩形框的短邊和長(zhǎng)邊,θ為長(zhǎng)邊h和x軸的夾角,θ∈[-90°,90°)。 長(zhǎng)邊定義法示意如圖7 所示。
圖7 長(zhǎng)邊定義法Fig.7 Long edge definition method
由于本文采取長(zhǎng)邊定義法定義角度,避免了EoE 問(wèn)題,因此只需要考慮旋轉(zhuǎn)目標(biāo)的PoA 問(wèn)題。本文采用CSL 將θ的回歸問(wèn)題轉(zhuǎn)變?yōu)榉诸悊?wèn)題,把不同范圍內(nèi)的角度劃分為不同的類別,這樣就把一個(gè)連續(xù)問(wèn)題進(jìn)行了離散化,規(guī)避了θ的邊界情況。但是離散化處理必然會(huì)產(chǎn)生精度損失,將角度范圍劃分為1°一類時(shí),在預(yù)測(cè)角度帶有小數(shù)時(shí),會(huì)產(chǎn)生精度損失。 為了評(píng)估該損失帶來(lái)的影響,計(jì)算精度最大損失和平均損失(服從均勻分布),公式如下:
當(dāng)角度范圍劃分為1°一類(ω=1)時(shí),精度最大損失和期望損失為0.50 和0.25。 采用2 個(gè)橫縱比為1 ∶9 的旋轉(zhuǎn)矩形框進(jìn)行測(cè)試后,2 個(gè)旋轉(zhuǎn)矩形框的交并比分別下降了0. 05 和0. 02,本文的研究對(duì)象橫縱比幾乎很難達(dá)到1 ∶9,所以該方法帶來(lái)的精度損失是可以接受的。 為了使分類損失能夠用來(lái)預(yù)測(cè)結(jié)果和角度標(biāo)簽的距離,設(shè)計(jì)了一種One-hot 編碼方法,假設(shè)真實(shí)的角度標(biāo)簽是0°,當(dāng)網(wǎng)絡(luò)的角度預(yù)測(cè)值為1°和-90°時(shí)的精度損失值是相同的。One-hot 編碼方法示意如下。
圖8 One-hot Lable 示意Fig.8 Schematic diagram of One-hot Lable
基于One-hot Lable,引入了CSL,CSL 示意如圖9 所示。
圖9 CSL 示意Fig.9 Schematic diagram of CSL
CSL 的表達(dá)式如下:
式中,g(x)為窗口函數(shù)。g(x)要具備周期性、單調(diào)性和對(duì)稱性等條件,半徑r決定窗口的大小。 本文采用Gaussian 函數(shù)作為窗口函數(shù),將窗口半徑設(shè)置為6,g(x)的函數(shù)表達(dá)式如下:
式中,a,b,c是常數(shù),本文中設(shè)置a為1,b為0,c為4;x是角度信息。
在一個(gè)神經(jīng)網(wǎng)絡(luò)中,無(wú)論神經(jīng)網(wǎng)絡(luò)的深度有多深,假如所有的特征傳遞都承接上一層網(wǎng)絡(luò)輸入函數(shù)的線性變化,模型就變得很容易驗(yàn)證,網(wǎng)絡(luò)的逼近能力也很有限。 激活函數(shù)在神經(jīng)元中加入了非線性成分,讓深層神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的表達(dá)力,并應(yīng)用于非線性模型中。 經(jīng)常使用的激活函數(shù)有Sigmoid,Tanh,ReLU 和Softmax。
R-YOLOv5 網(wǎng)絡(luò)中Conv 層的激活函數(shù)為SiLU,SiLU 激活函數(shù)是Swish 激活函數(shù)[18]的變體,Swish函數(shù)的表達(dá)式如下:
當(dāng)式(6)中的β取值為1 時(shí),Swish 激活函數(shù)變?yōu)榱薙iLU 激活函數(shù),SiLU 的表達(dá)式如下:
SiLU 激活函數(shù)具有無(wú)上界有下界、平滑和非單調(diào)的特點(diǎn),性能和效果都比ReLU 激活函數(shù)更好。本文使用HardSwish 激活函數(shù)[15]替換網(wǎng)絡(luò)中Conv層的SiLU 激活函數(shù),HardSwish 激活函數(shù)具有更強(qiáng)的非線性功能,能夠提高模型的精度,通過(guò)實(shí)驗(yàn)證明,HardSwish 激活函數(shù)確實(shí)能夠提高模型精度。 修改后網(wǎng)絡(luò)結(jié)構(gòu)如圖10 所示。
圖10 CBH 模塊Fig.10 CBH module
HardSwish 的函數(shù)表達(dá)式如式(9),函數(shù)圖像如圖11 所示。
圖11 HardSwish 函數(shù)圖像Fig.11 HardSwish function graph
注意力機(jī)制[19]最初使用在機(jī)器翻譯領(lǐng)域,并取得了不錯(cuò)的成果。 隨著深度學(xué)習(xí)的蓬勃發(fā)展,注意力機(jī)制也被大量應(yīng)用于計(jì)算機(jī)視覺(jué)[20-21]領(lǐng)域。 注意力機(jī)制在讀取圖像的同時(shí),會(huì)得到要著重注意的目標(biāo)區(qū)域,進(jìn)一步注重該區(qū)域的信息,忽略不必要的信息,能夠更好地分配電腦的計(jì)算能力。 注意力機(jī)制一般可以分為3 類:第1 類是通道注意力(Channel Attention,CA);第2 類是空間注意力(Spatial Attention,SA);第3 類是通道注意力和空間注意力的混合模型。 常用的注意力機(jī)制有SE[22](Squeeze and Excitation),CBAM[23](Convolutional Block Attention Module)。
SE 模塊結(jié)構(gòu)簡(jiǎn)單,可以應(yīng)用于多種網(wǎng)絡(luò),但是SE 只通過(guò)建模通道間的聯(lián)系來(lái)確定其余通道的權(quán)重,沒(méi)有重視位置信息,而Attention maps 對(duì)生成空間的選擇很依賴位置信息。 CBAM 先使用CA,再使用SA,既關(guān)注了全局信息,又關(guān)注了局部信息,能夠有效地提取目標(biāo)突出特征,提高模型檢測(cè)精度,CBAM 結(jié)構(gòu)示意如圖12 所示。
圖12 CBAM 結(jié)構(gòu)示意Fig.12 CBAM structure diagram
由圖12 可以看出,CBAM 將經(jīng)過(guò)主干網(wǎng)絡(luò)提取得到的目標(biāo)特征圖最大池化和平均池化后,得到2 個(gè)1×1×C的特征圖,通過(guò)MLP 網(wǎng)絡(luò)映射每個(gè)通道的權(quán)重并相加,由Sigmoid 生成通道注意特征圖F′。特征圖F′繼續(xù)進(jìn)行最大池化和平均池化處理,產(chǎn)生2 個(gè)H×W×1 的特征圖,經(jīng)過(guò)concat 操作變?yōu)镠×W×2的特征圖,再用一個(gè)7×7 的卷積核進(jìn)行卷積,生成H×W×1 的特征圖后,由Sigmoid 生成空間注意特征圖。 最后將空間注意特征圖與目標(biāo)特征圖相乘,得到最終輸出的特征圖。
本文將CBAM 注意力機(jī)制設(shè)置在R-YOLOv5 網(wǎng)絡(luò)的Neck 部分與Prediction 部分之間,如圖13 所示,CBAM 對(duì)主干網(wǎng)絡(luò)提取到的3 個(gè)尺度上的特征圖再進(jìn)行通道上和空間上的特征提取,使得該模型的特征提取能力進(jìn)一步加強(qiáng)。
圖13 CBAM 位置圖Fig.13 CBAM location map
本文實(shí)驗(yàn)采用的電腦配置如下:CPU 為Intel(R)Xeon(R)CPU E5-2695 v4 @2.10 GHz;RAM 為256 GB;操作系統(tǒng)為Windows 10 Pro;GPU 為NVIDIA TITAN Xp 12 GB。 軟 件 使 用 CUDA10. 2, Anaconda3,PyCharm Community,Python3. 8 和Microsoft Visual Studio2017 等,深度學(xué)習(xí)框架為Pytorch。
由于目前并沒(méi)有公開(kāi)的電力檢修車數(shù)據(jù)集,因此本文使用自制的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。 自制數(shù)據(jù)集的數(shù)據(jù)標(biāo)注格式參考遙感目標(biāo)檢測(cè)數(shù)據(jù)集DOTA,采用RoLableImg 標(biāo)注軟件對(duì)數(shù)據(jù)集中的電力檢修車機(jī)械臂進(jìn)行標(biāo)注,將標(biāo)注完成的xml 文件通過(guò)公式轉(zhuǎn)化為DOTA 數(shù)據(jù)集的txt 格式,轉(zhuǎn)化公式如下:
式中,(xi,yi)為轉(zhuǎn)換后的坐標(biāo)。 經(jīng)過(guò)轉(zhuǎn)化后的數(shù)據(jù)格式為:
本文數(shù)據(jù)集共有1 200 張曲臂電力檢修車圖片,設(shè)置的2 個(gè)目標(biāo)類別為arma 和armb,機(jī)械臂arma 和armb 的標(biāo)識(shí)如圖14 所示。
圖14 機(jī)械臂標(biāo)識(shí)Fig.14 Mechanical arm identification
本文數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集比例設(shè)置為4 ∶1 ∶1,雖然數(shù)據(jù)集中arma 和armb 的數(shù)量基本上處于平衡狀態(tài),但是為了防止數(shù)據(jù)過(guò)少帶來(lái)過(guò)擬合問(wèn)題,本文對(duì)數(shù)據(jù)集中的訓(xùn)練集和驗(yàn)證集進(jìn)行數(shù)據(jù)增強(qiáng)處理,增強(qiáng)前的訓(xùn)練集和驗(yàn)證集圖片數(shù)量分別為800 和200。 增強(qiáng)后的訓(xùn)練集和驗(yàn)證集圖片數(shù)量分別為2 979 和762。
由于本文研究對(duì)象的橫縱比較大,而YOLOv5的初始anchor 尺寸為[10,13,16,30,33,23],[30,61,62,45,59,119],[116,90,156,198,373,326]明顯不適合本文數(shù)據(jù)集。 因此本文采用K-means 聚類[24]的方法根據(jù)數(shù)據(jù)集中目標(biāo)的標(biāo)注信息重新生成anchor,得到的新anchor 尺寸為[315,45,381,53,315,75],[488,49,499,81,732,76],[620,118,772,191,923,163]。
為了驗(yàn)證本文Rotated-YOLOv5l-CBAM 算法的檢測(cè)性能,本文共設(shè)置了4 組對(duì)比實(shí)驗(yàn)。 對(duì)比的算法分別為 Rotated-YOLOv5l-Base, Rotated-Faster-RCNN,Rotated-Reppoints 和RoI Transformer。 針對(duì)Rotated-YOLOv5l-CBAM 和Rotated-YOLOv5-Base 設(shè)置300 個(gè)訓(xùn)練epoch,anglelossgain=0.8,angle BCELoss positive_weight= 1.0,momentum= 0.937,weight_decay= 0.000 5,lr0= 0.001,優(yōu)化器設(shè)置為adam;針對(duì)Rotated-Faster-RCNN,Rotated-Reppoints和RoI Transformer 設(shè)置80 個(gè)訓(xùn)練epoch,lr=0.002 5,優(yōu)化器選擇SGD,weight_decay=0.000 1。
本文選擇單個(gè)類別平均精度(Average Precision,AP)、總類別平均精度均值(mean Average Precision,mAP)、錯(cuò)檢率(誤檢+漏檢)Perror和平均幀率(mean Frames Per Second,mFPS)為模型的評(píng)價(jià)指標(biāo)。 AP 和mAP 的計(jì)算如下:
式(15)中,AP為P-R 曲線與坐標(biāo)軸圍成的面積大小;p為精確度(Precision);r為召回率(Recall);式(16)中的N是數(shù)據(jù)集中的類別個(gè)數(shù)。 表1 為各個(gè)模型在測(cè)試集上的 AP 和 mAP 值, Rotated-YOLOv5l-CBAM, Rotated-YOLOv5l-Base, Rotated-Faster-RCNN 和Rotated-Reppoints 在下文中分別簡(jiǎn)稱為R-YOLOv5l-CBAM,R-YOLOv5l-Base,R-Faster-RCNN 和R-Reppoints。單位:%
表1 各模型精度指標(biāo)Tab.1 Precision index of each model
由表1 可知,Rotated-YOLOv5l-CBAM 模型在測(cè)試集中arma 和armb 單個(gè)類別平均精度分別為89.79%和79.98%,總類別平均精度為84. 88%,均優(yōu)于其余模型。 相較于Rotated-Reppoints 模型,總類別平均精度提升了9.23%。 在測(cè)試集中加入50 張其他車輛圖片作為干擾,使用各模型對(duì)測(cè)試集中的圖片以及電力檢修車作業(yè)視頻進(jìn)行檢測(cè),各模型的模型大小、Perror和mFPS 如表2 所示,各模型對(duì)機(jī)械臂的檢測(cè)效果如圖15 所示。
表2 各模型的大小、錯(cuò)檢率及幀率Tab.2 Size,false detection rate and FPS of each model
圖15 各模型檢測(cè)效果Fig.15 Detection effect of each model
由表2 和圖15 可以看出,在5 個(gè)模型中,R-YOLOv5l-CBAM 模型的錯(cuò)檢率為13. 6%,均低于其余模型,且相較于R-Reppoints 錯(cuò)檢率下降了45.6%,對(duì)機(jī)械臂的檢測(cè)效果也最好,沒(méi)有受到干擾圖片的影響,其余4 個(gè)模型存在漏檢、檢測(cè)框不準(zhǔn)和被干擾的問(wèn)題;模型大小為71. 1 MB,僅為RoI Transformer 模型的17%;mFPS 在33 幀/秒左右,檢測(cè)速度約為RoI Transformer 模型的5 倍,兼顧了檢測(cè)的準(zhǔn)確度和實(shí)時(shí)性。 角度預(yù)測(cè)樣本如圖16 所示。以圖16 為例,各模型對(duì)機(jī)械臂arma 和armb 的角度預(yù)測(cè)結(jié)果如表3 所示。
圖16 角度預(yù)測(cè)樣本Fig.16 Sample picture of angle prediction
表3 各模型角度預(yù)測(cè)結(jié)果Tab.3 Angle prediction results of each model單位:
圖16 中電力檢修車機(jī)械臂arma 和armb 的實(shí)際標(biāo)注角度分別為10°和37°。 由表3 可以看出,RYOLOv5l-CBAM 模型的角度預(yù)測(cè)結(jié)果相較于其他模型的預(yù)測(cè)結(jié)果更接近機(jī)械臂實(shí)際角度。
本文設(shè)計(jì)了一種針對(duì)電力檢修車機(jī)械臂的檢測(cè)及機(jī)械臂旋轉(zhuǎn)角度預(yù)測(cè)的R-YOLOv5 算法。 以YOLOv5 算法為基礎(chǔ),采用長(zhǎng)邊定義法與環(huán)形標(biāo)簽相結(jié)合的數(shù)據(jù)標(biāo)注方式,解決了目標(biāo)旋轉(zhuǎn)時(shí)角度θ產(chǎn)生的EoA 問(wèn)題和PoA 問(wèn)題,避免了網(wǎng)絡(luò)損失值的突變問(wèn)題;將網(wǎng)絡(luò)中的SiLU 激活函數(shù)替換為Hard-Swish 激活函數(shù),并在網(wǎng)絡(luò)的Neck 部分和Prediction部分之間的3 個(gè)尺度上加入了CBAM 注意力機(jī)制,使得模型對(duì)目標(biāo)圖像的特征提取能力進(jìn)一步加強(qiáng)。通過(guò)實(shí)驗(yàn)對(duì)比,本文設(shè)計(jì)的檢測(cè)算法的平均檢測(cè)精度相較于R-YOLOv5l-Base,R-Faster-RCNN,R-Reppoints 和RoI Transformer 均有提升,且模型大小較小,檢測(cè)速度能夠滿足實(shí)時(shí)檢測(cè)要求。 該模型在本文的電力檢修車數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),可以實(shí)現(xiàn)對(duì)電力檢修車機(jī)械臂arma 和armb 的檢測(cè)及機(jī)械臂角度預(yù)測(cè),能為電力作業(yè)場(chǎng)景中電力檢修車的預(yù)警工作提供參考,避免安全事故帶來(lái)的經(jīng)濟(jì)損失和人員傷亡。