王 博,董登峰*,周維虎,高豆豆
(1.中國科學(xué)院 微電子研究所,北京 100094;2.中國科學(xué)院大學(xué),北京 100049)
以激光跟蹤儀為代表的大尺度空間坐標(biāo)測量系統(tǒng)在大型高端裝備制造及大科學(xué)裝置建造等先進制造領(lǐng)域發(fā)揮著關(guān)鍵作用。在跟蹤測量過程中,斷光、操作不當(dāng)或其他現(xiàn)場偶發(fā)等因素導(dǎo)致跟蹤中斷進而測量停止的現(xiàn)象時有發(fā)生。該現(xiàn)象是激光跟蹤儀在飛機、船舶等大型裝置的精密裝配,機器人末端執(zhí)行器的絕對位姿控制等高精度在線測量應(yīng)用中影響工作效率最突出的問題,甚至?xí)?dǎo)致整個測量及在線校準(zhǔn)過程的失敗。跟蹤目標(biāo)丟失后,引導(dǎo)激光自動對準(zhǔn)合作目標(biāo),實現(xiàn)跟蹤與測量快速恢復(fù)是激光跟蹤儀高效工作必須解決的難題。圍繞相關(guān)技術(shù),天津大學(xué)研究了基于視覺引導(dǎo)的激光經(jīng)緯儀動態(tài)跟蹤與自動測量方法與系統(tǒng)裝置,重點攻克了空間坐標(biāo)轉(zhuǎn)換與系統(tǒng)標(biāo)定并實現(xiàn)了激光的自動對準(zhǔn)[1-2];北京航天航空大學(xué)研究了視覺引導(dǎo)激光跟蹤測量系統(tǒng)的空間坐標(biāo)變換校準(zhǔn)方法,給出了坐標(biāo)系之間快速有效的解算方法[3],同時針對引導(dǎo)過程中靶球中心的定位方法進行了研究,實現(xiàn)從圖像中提取靶球中心像素坐標(biāo)位置[4-5]。
上述研究中,利用數(shù)字圖像處理與機器視覺技術(shù)對激光成像光斑或合作目標(biāo)靶球的識別定位是實現(xiàn)視覺引導(dǎo)激光對準(zhǔn)目標(biāo)位置的重點內(nèi)容,主要實現(xiàn)方法包括:利用圖像增強技術(shù)對輸入圖像進行預(yù)處理,然后利用曲線擬合方法來識別定位目標(biāo)靶球;利用卷積濾波方法對輸入圖像進行預(yù)處理,再利用圖像分割、模板匹配的方法識別定位圖像中的目標(biāo)。這些方法在一定程度上實現(xiàn)了合作目標(biāo)的自動識別與定位功能,但仍舊存在著明顯的局限性,如應(yīng)用現(xiàn)場環(huán)境復(fù)雜、形狀相似干擾物造成的誤識別,以及現(xiàn)場環(huán)境光線干擾、視覺成像系統(tǒng)觀察角度和激光投射角度的變化等多種因素造成的合作目標(biāo)無法識別等。這些缺陷都大大限制了基于視覺引導(dǎo)方法的應(yīng)用。
近年來,深度學(xué)習(xí)技術(shù)在機器視覺領(lǐng)域得到了巨大的發(fā)展,并得到了高效而廣泛應(yīng)用?;谏疃葘W(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測方法在檢測精度和檢測速度上都有了巨大的提高,并被廣泛應(yīng)用于多種領(lǐng)域的檢測任務(wù)中。具有代表性的如YOLO[6]等這類端到端的單階段深度學(xué)習(xí)目標(biāo)檢測模型,以及如Faster R-CNN[7]這類基于區(qū)域建議的兩階段深度學(xué)習(xí)目標(biāo)檢測模型。其中,單階段的目標(biāo)檢測方法在實時性上表現(xiàn)較好,利用GPU加速等優(yōu)化方法下能達到每秒近百幀的檢測速度。而兩階段的目標(biāo)檢測模型在檢測精度方面更具備優(yōu)勢,更加適合對檢測精度要求較高的應(yīng)用場景[8]。
本文結(jié)合深度學(xué)習(xí)的技術(shù)優(yōu)勢,為了快速而精確地檢測復(fù)雜場景下的合作目標(biāo)靶球,基于Faster R-CNN模型研究靶球檢測方法,提出針對目標(biāo)圖像大小的多尺度變化與小尺寸檢測的模型改進方法;同時針對合作目標(biāo)靶球外形單一、紋理細(xì)節(jié)較少導(dǎo)致模型易產(chǎn)生誤檢測的問題,提出一種基于強背景干擾的困難樣本挖掘方法,以提升模型訓(xùn)練過程中的優(yōu)化效果,減少目標(biāo)誤識別率,提升檢測精度。實驗表明,本文提出的方法可以有效地克服目標(biāo)尺寸多變或較小等因素和復(fù)雜背景及近似背景的干擾,大幅提升合作目標(biāo)靶球的檢測精度,為實現(xiàn)激光跟蹤儀的跟蹤恢復(fù)功能提供有力的技術(shù)支撐。
激光跟蹤儀跟蹤恢復(fù)的視覺引導(dǎo)基于合作目標(biāo)靶球的圖像坐標(biāo)偏移量來實現(xiàn),圖1為該方法的激光跟蹤原理。圖中,短虛線為視覺成像系統(tǒng)視場范圍,覆蓋了激光束周邊的一定范圍;長實線為激光器發(fā)射的跟蹤測距激光;長虛線為經(jīng)過合作目標(biāo)(即靶球)反射后的測距激光。
如圖2所示,激光跟蹤儀跟蹤測量過程中,合作目標(biāo)靶球成像于圖像傳感器中心區(qū)域,如O點所示;若發(fā)生目標(biāo)丟失,跟蹤中斷的情況,靶球在圖像傳感器中偏離了中心位置O,成像位置記為點P。計算位置O與位置P的像素距離,再根據(jù)攝像機標(biāo)定原理利用相機內(nèi)參數(shù)將像素距離換算成圖像傳感器上的實際物理距離,將它作為控制系統(tǒng)偏移量發(fā)送給激光跟蹤儀伺服跟蹤控制單元,跟蹤器控制驅(qū)動伺服電機轉(zhuǎn)動,使偏移距離不斷趨近于0,最終使目標(biāo)靶球成像位置重新回到O點、激光束再次對準(zhǔn)合作目標(biāo)靶球?qū)崿F(xiàn)跟蹤恢復(fù)。在此過程中,實現(xiàn)復(fù)雜場景下合作目標(biāo)靶球的視覺目標(biāo)檢測是實現(xiàn)激光跟蹤儀跟蹤恢復(fù)的核心內(nèi)容。
圖1 激光跟蹤儀跟蹤原理Fig.1 Principle diagram of tracking method for laser tracker
圖2 跟蹤恢復(fù)原理Fig.2 Schematic diagram of tracking recovery
Ross B. Girshick等在2016年提出了Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)[7],如圖3所示,F(xiàn)aster R-CNN網(wǎng)絡(luò)最大的特點是提出了基于網(wǎng)絡(luò)生成候選區(qū)域方法(Region Proposal Networks,RPN)代替了選擇性搜索Selective Search算法,克服了fast R-CNN網(wǎng)絡(luò)區(qū)域建議依賴外部算法的缺陷,從結(jié)構(gòu)上將特征抽取、區(qū)域建議提取、目標(biāo)分類、目標(biāo)邊界框定位整合于一個網(wǎng)絡(luò)中,大幅提高了網(wǎng)絡(luò)的綜合性能。相比較于YOLO等單階段的目標(biāo)檢測網(wǎng)絡(luò),基于候選框的雙階段目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN在精度方面具有比較明顯的優(yōu)勢,同時可憑借GPU等算法加速手段提高實時性能,更加適合對檢測準(zhǔn)確率要求較高的測量領(lǐng)域。
圖3 Faster R-CNN網(wǎng)絡(luò)的基本結(jié)構(gòu)Fig.3 Structure diagram of Faster R-CNN
但Faster R-CNN網(wǎng)絡(luò)直接應(yīng)用于跟蹤恢復(fù)領(lǐng)域仍存在一定挑戰(zhàn),由于激光跟蹤儀是空間大尺度測量系統(tǒng),其合作目標(biāo)靶球運動范圍廣且隨機性強。在測量過程中,合作目標(biāo)靶球與成像系統(tǒng)的距離變化較大,在不考慮變焦成像系統(tǒng)的情況下,合作目標(biāo)的成像尺寸也劇烈變化,特別是合作目標(biāo)丟失與跟蹤中斷多發(fā)生在目標(biāo)距離儀器主機較遠(yuǎn)處,合作目標(biāo)成像較小,這對目標(biāo)識別精度構(gòu)成了重大挑戰(zhàn),要求目標(biāo)檢測算法針對小尺寸目標(biāo)具有良好的檢測性能。在利用深度卷積網(wǎng)絡(luò)進行目標(biāo)檢測的過程中,小目標(biāo)檢測不僅需要豐富的語義信息來進行有效的前景背景分類,也需要分辨率相對較高的淺層特征圖所包含的位置信息進行邊界框的回歸。而標(biāo)準(zhǔn)的Faster R-CNN網(wǎng)絡(luò)中,對輸入圖像進行特征提取的VGG網(wǎng)絡(luò)僅將最深層的特征圖提供給RPN網(wǎng)絡(luò)做ROI提取,盡管深層次的卷積特征提供了較強的語義信息進行目標(biāo)分類能夠?qū)崿F(xiàn)良好的召回率,但運算過程中維度的不斷壓縮導(dǎo)致深層特征圖的分辨率不斷降低。以VGG16為例,經(jīng)過5組卷積與最大池化層操作后,分辨率為224×224的輸入圖像得到的特征圖分辨率大小為7×7,最深層特征圖對于小尺寸目標(biāo)的位置信息丟失較多,因此faster R-CNN針對小尺寸目標(biāo)的檢測效果不理想,限制了該網(wǎng)絡(luò)在激光跟蹤儀合作目標(biāo)檢測方面的應(yīng)用,需要進一步優(yōu)化與改進。
本文提出了一種結(jié)合HyperNet框架結(jié)構(gòu)[9]與淺層高分辨率特征信息復(fù)用的方法,生成新的融合特征圖替代原有的單一深層特征圖。在避免大幅度加深網(wǎng)絡(luò)模型復(fù)雜度導(dǎo)致檢測速度下降的前提下,利用淺層特征圖包含較多細(xì)節(jié)信息來提高小目標(biāo)的檢測效果,同時匯聚不同尺度池化的特征圖信息提高目標(biāo)多尺度的檢測性能。HyperNet網(wǎng)絡(luò)由KONG等提出[9],該框架集合了多個不同尺寸的特征圖,把這些不同層的特征圖壓縮到一個統(tǒng)一的特征空間形成超特征,利用超特征把深層的高級語義特征、中間的有補充性質(zhì)特征和淺層的高分辨率圖像特征結(jié)合在一起,以便在生成候選區(qū)域和目標(biāo)檢測時共享這些特征。
圖4 改進的深度卷積特征提取Fig.4 Improved convolutional features extraction
如圖4所示,F(xiàn)aster R-CNN網(wǎng)絡(luò)采取的VGG深度卷積特征提取網(wǎng)絡(luò)包含了5組卷積操作C1~C5,首先利用HyperNet網(wǎng)絡(luò)框架思想,將淺層C1、中層C3和深層C5融合在一起。為了解決這三層分辨率不一致的問題,將C1層進行最大池化操作得到C1-1,C5層進行線性插值的上采樣反卷積操作得到C5-1。為了進一步提取淺層特征的位置信息,采用淺層特征圖復(fù)用處理方法,將C1層經(jīng)過2次步幅為2的卷積操作得到C1-2的特征圖,利用步幅為2的卷積操作取代池化操作,即避免因池化操作丟失細(xì)節(jié)信息,同時也利用新的卷積操作提取了與C1-1不同的特征信息。將C1-2與C1-1,C3-1,C5-1先進行局部響應(yīng)標(biāo)準(zhǔn)化(Local Response Normalization,LRN),然后進行融合得到新的超特征,通過1×1的卷積操作將超特征進行降維處理,得到最終的卷積特征圖進行ROI提取以及目標(biāo)檢測。利用LRN進行歸一化處理避免了特征信息值的損失[9]。相比較于標(biāo)準(zhǔn)Faster R-CNN網(wǎng)絡(luò),新的卷積特征圖分辨率更大且包含了跟多的尺度信息,在小目標(biāo)檢測和目標(biāo)多尺度檢測方面都有一定優(yōu)勢。
在區(qū)域建議提取過程中,F(xiàn)aster R-CNN網(wǎng)絡(luò)依靠RPN網(wǎng)絡(luò)以大小為3×3、步幅為1的窗口掃描特征圖,在掃描滑動過程中窗口中心對應(yīng)原輸入圖像上一個圖像區(qū)域的中心點,在每個圖像的中心點產(chǎn)生k(k一般為9)個包含了1∶2,1∶1,2∶1這3個比例尺度的錨點區(qū)域,對應(yīng)邊界框面積分別包含1282,2562和5122個像素。在目標(biāo)邊界框回歸過程中,錨點的比例尺度和大小可以看作是目標(biāo)邊界框的初始建議,錨點越接近真實框的大小, 最終回歸后的建議框越接近真實框,目標(biāo)的檢測定位就越加準(zhǔn)確。Faster R-CNN中錨點并非針對某一特定目標(biāo)數(shù)據(jù)進行設(shè)定,而本文針對的合作目標(biāo)靶球外觀接近一個正圓形,考慮到實際應(yīng)用過程中運動姿態(tài)的變化,長短邊的比例基本處于1.5∶1以下,因此將錨點區(qū)域比例改為1∶1.5,1∶1,1.5∶1;同時考慮到更多針對小目標(biāo)檢測應(yīng)用,將錨點區(qū)域的尺寸進行一定比例的減小,本文設(shè)置錨點區(qū)域的面積分別為322,642,1282,使邊界框回歸的過程更加有利于合作目標(biāo)靶球的檢測。
為保證模型訓(xùn)練的效率,與標(biāo)準(zhǔn)Faster R-CNN一樣,去除所有邊界框超出圖像邊界的錨點,并采用非極大值抑制對重疊的錨點進行篩選。設(shè)置交并比IOU>0.6的樣本為正樣本,負(fù)樣本的閾值設(shè)置為IOU<0.1。這里正樣本閾值小于標(biāo)準(zhǔn)Faster R-CNN閾值的原因是為了將更多正樣本加入訓(xùn)練過程而放寬了篩選條件;負(fù)樣本設(shè)置為0.1是為將更多圖像中的背景信息加入訓(xùn)練過程,負(fù)樣本閾值設(shè)置較小的同時,配合本文第4部分強背景干擾訓(xùn)練方法可以進一步提高負(fù)樣本對模型訓(xùn)練的貢獻效率。區(qū)域建議提取網(wǎng)絡(luò)的損失函數(shù)參照文獻[7]中的多任務(wù)損失,損失函數(shù)定義為:
(1)
其中:i代表一個批次處理中錨點區(qū)域的索引;pi代表第i個錨點區(qū)域中包含了一個目標(biāo)的概率,該值由網(wǎng)絡(luò)預(yù)測得出;如果一個錨點區(qū)域是一個正標(biāo)簽,其對應(yīng)的真實區(qū)域標(biāo)簽pi*為 1,否則pi*為 0;ti表示預(yù)測的邊界框的4個參數(shù)化坐標(biāo)向量;ti*是相對應(yīng)的真實區(qū)域邊界框的坐標(biāo)向量。
分類損失Lcls是針對兩個類別(目標(biāo)和背景)的對數(shù)損失,定義為:
(2)
對于邊界框回歸損失,定義為:
(3)
其中:
(4)
對于邊界框回歸,采用4個坐標(biāo)的參數(shù)如下:
(5)
其中:(x,y),w,h分別代表了邊界框的中心坐標(biāo)與寬和高;x,xa,x*分別對預(yù)測應(yīng)邊界框、錨點區(qū)域邊界框、真實區(qū)域邊界框;y,wa,h*同樣是對應(yīng)三類邊界框的參數(shù);Ncls和Nreg為歸一化參數(shù),λ為平衡因子。
深度學(xué)習(xí)網(wǎng)絡(luò)在結(jié)構(gòu)與超參數(shù)確定后,其最終的檢測性能在一定程度上取決于訓(xùn)練數(shù)據(jù)集的質(zhì)量[10-11]。一個樣本如果很容易地被模型正確分類,那么可以認(rèn)為這個樣本是一個簡單樣本,它對模型訓(xùn)練起到的貢獻較少;若一個樣本被模型分類錯誤,則可認(rèn)為這個樣本為困難樣本。相關(guān)研究表明,困難樣本在模型運算過程中產(chǎn)生較大的梯度值,能夠有效地指導(dǎo)模型優(yōu)化的方向。相比較于產(chǎn)生梯度較小的簡單樣本,困難樣本對于模型訓(xùn)練的有效性有非常重要的影響[12-13]。當(dāng)前,基于在線負(fù)樣本挖掘方法(Online Hard Example Mining,OHEM)是常用的深度學(xué)習(xí)模型改進方法[14-15]。該方法的核心思想是由一張圖像中的上百個建議框產(chǎn)生訓(xùn)練模型的樣本,這些樣本根據(jù)分類困難程度進行篩選并排序,在基于隨機梯度下降法對網(wǎng)絡(luò)進行優(yōu)化的反向誤差傳遞過程中僅針對困難樣本進行網(wǎng)絡(luò)權(quán)重調(diào)整。對于Faster R-CNN網(wǎng)絡(luò),盡管一次迭代的批量大小等于1,但是由區(qū)域候選網(wǎng)絡(luò)RPN產(chǎn)生的建議框成百上千,正適合于隨機梯度下降的方法,并且這種實時篩選機制能夠很有針對性地進行學(xué)習(xí)訓(xùn)練,因此模型訓(xùn)練調(diào)整很快[15]。
本文在實踐過程中發(fā)現(xiàn),僅僅依靠在線負(fù)樣本挖掘方法仍無法有效解決誤檢測的問題,原因是在線挖掘的困難樣本均由訓(xùn)練樣本產(chǎn)生,但合作目標(biāo)靶球結(jié)構(gòu)外形單一、圖像紋理等細(xì)節(jié)信息較少,可挖掘信息較少,僅通過普通數(shù)據(jù)集訓(xùn)練并進行在線困難樣本挖掘,或著重解決數(shù)據(jù)不平衡問題的困難樣本挖掘方法[12-13]得到的深度學(xué)習(xí)網(wǎng)絡(luò)框架容易受到其他相似物體的干擾,導(dǎo)致高誤識別率、檢測精度大幅下降,嚴(yán)重影響了深度學(xué)習(xí)網(wǎng)絡(luò)框架在激光跟蹤儀合作目標(biāo)檢測中的應(yīng)用。為解決這一問題,本文提出一種強背景干擾模擬方法提高模型訓(xùn)練的強適應(yīng)能力,具體如圖5所示,在采集圖像制作數(shù)據(jù)集過程中,增加外形、顏色、尺度大小與目標(biāo)靶球相近物體放置在靶球的周邊,在進行數(shù)據(jù)標(biāo)記的過程中,僅對目標(biāo)靶球進行了標(biāo)注。以Faster R-CNN為代表的基于區(qū)域建議類的目標(biāo)檢測模型在訓(xùn)練過程中會提取幾千個樣本進行分類得分與邊界框定位訓(xùn)練,其中大量訓(xùn)練負(fù)樣本取自圖像中背景區(qū)域。相比較于其他困難樣本挖掘方法,該方法最大的特點在于著重從訓(xùn)練樣本數(shù)據(jù)源頭出發(fā),背景中增加強干擾物有效地增強了部分負(fù)樣本檢測分類的困難程度,同時,困難負(fù)樣本產(chǎn)生了更加豐富的梯度信息優(yōu)化模型并提升模型的綜合檢測性能,針對合作目標(biāo)靶球檢測這類實際應(yīng)用問題效果顯著。
圖5 數(shù)據(jù)集部分圖像Fig.5 Images of dataset
本文構(gòu)建的激光跟蹤儀合作目標(biāo)靶球數(shù)據(jù)集符合PASCAL VOC數(shù)據(jù)集格式標(biāo)準(zhǔn),部分?jǐn)?shù)據(jù)圖片如圖5所示。
圖6 目標(biāo)尺度分布直方圖Fig.6 Distribution histogram of target scale
數(shù)據(jù)集包含2 800張圖片,其中約1 000張是合作目標(biāo)靶球運動狀態(tài)視頻的連續(xù)幀圖像,其余圖像為實驗室環(huán)境下的靜態(tài)圖像。每張圖片僅有一個合作目標(biāo)靶球,對應(yīng)的標(biāo)簽信息注明其目標(biāo)類型(targetball)以及最小外界矩形的坐標(biāo)作為其邊界框真實值。將整個數(shù)據(jù)集分為訓(xùn)練、驗證和測試這3個互無交集圖像子集。為了更好地逼近實際應(yīng)用場景,數(shù)據(jù)集更傾向于小目標(biāo)數(shù)據(jù)的采集,圖像中目標(biāo)區(qū)域面積與圖像面積之比小于1%的占62%。(以圖像分辨率為640×480為準(zhǔn),目標(biāo)像素面積應(yīng)小于3 072),同時帶有強背景干擾物的圖像約為900張,數(shù)據(jù)集中目標(biāo)像素的詳細(xì)面積分布如圖6所示。
5實驗與結(jié)果分析
實驗首先著重從兩個方面進行對比測試,一方面是分析驗證加入強背景干擾物訓(xùn)練對目標(biāo)檢測模型準(zhǔn)確率的影響,另外一方面是測試本文在目標(biāo)多尺度變化與小目標(biāo)檢測改進的效果[16]。
將標(biāo)準(zhǔn)的YOLOV3模型和標(biāo)準(zhǔn)的FASTER R-CNN模型分別利用普通背景訓(xùn)練樣本和包含有強背景干擾的訓(xùn)練樣本進行訓(xùn)練,用4種訓(xùn)練結(jié)果來對比該方法對目標(biāo)檢測性能指標(biāo)的影響,如圖7所示,選取了3張測試樣本對檢測結(jié)果進行對比展示。圖7(a)和7(c)分別為YOLOV3和Faster R-CNN經(jīng)過普通背景樣本訓(xùn)練的模型進行測試的結(jié)果。從圖中可見,YOLOV3模型存在一定的誤檢測和漏檢測,影響了網(wǎng)絡(luò)的準(zhǔn)確率和召回率指標(biāo),此外目標(biāo)邊界框定位和分類得分也不理想;而Faster R-CNN模型的主要問題是大量目標(biāo)誤識別導(dǎo)致模型檢測準(zhǔn)確率較低,從圖7(c)中目標(biāo)分類得分可見,F(xiàn)aster R-CNN給出的部分錯誤分類得分到達了88%~99%之間。而經(jīng)過強背景干擾樣本訓(xùn)練后,由圖7中(b)和7(d)可見,YOLOV3模型不僅提高了目標(biāo)檢測的準(zhǔn)確率與召回率,還在目標(biāo)邊界框定位和目標(biāo)分類得分方面有較大的提升;而Faster R-CNN模型對外形、顏色、大小相似的強干擾物具備了較強的分辨能力,在目標(biāo)檢測準(zhǔn)確率、邊界框回歸和目標(biāo)分類得分方面都有較好的表現(xiàn)。
圖7 不同算法中困難樣本對檢測精度影響的對比Fig.7 Contrast of effect of hard example on detection precision between different algorithms
利用帶有強背景干擾的訓(xùn)練樣本對標(biāo)準(zhǔn)Faster R-CNN模型和本文改進的Faster R-CNN模型進行訓(xùn)練。采用相同背景下目標(biāo)尺度有較大變化的測試樣本進行測試實驗。如圖8所示,在一定尺度下,標(biāo)準(zhǔn)Faster R-CNN模型和改進的Faster R-CNN模型對于目標(biāo)尺度的變化都有較好的檢測效果;而當(dāng)目標(biāo)距離較遠(yuǎn)尺度較小時,標(biāo)準(zhǔn)Faster R-CNN模型無法正確的檢測出目標(biāo),而改進的Faster R-CNN模型對小目標(biāo)具有非常好的檢測效果,在邊界框定位和分類得分方面都比標(biāo)準(zhǔn)Faster R-CNN模型具有較大的提高。
圖8 改進Faster R-CNN與標(biāo)準(zhǔn)Faster R-CNN的對比Fig.8 Contrast of improved Faster R-CNN with standard Faster R-CNN
最終的性能測試實驗選取了627張圖片作為測試樣本,其中348張為實驗室環(huán)境樣本,279張為人為加入強背景干擾的測試樣本,小目標(biāo)測試樣本約占總測試樣本的40%。實驗在Windows10系統(tǒng)環(huán)境下,基于Tensorflow深度學(xué)習(xí)框架及Pycharm軟件平臺進行,所有程序均采用Python語言編程實現(xiàn);同時使用Nvidia Quadro M1000M圖形處理器(GPU)進行運算加速。模型訓(xùn)練分為2組進行,第一組從合作目標(biāo)靶球數(shù)據(jù)集中抽出1 700張不包含強背景干擾的合作目標(biāo)靶球訓(xùn)練數(shù)據(jù)樣本對YOLOV3網(wǎng)絡(luò)、標(biāo)準(zhǔn)Faster R-CNN網(wǎng)絡(luò)、本文改進的Faster R-CNN網(wǎng)絡(luò)進行訓(xùn)練;第二組在1 700張訓(xùn)練數(shù)據(jù)樣本中去掉約400張圖片,替換為帶有強背景干擾的訓(xùn)練數(shù)據(jù)樣本對三種模型進行訓(xùn)練。訓(xùn)練過程中動量設(shè)置為0.9,衰減系數(shù)設(shè)置為0.000 5,初始學(xué)習(xí)率為0.001,最大迭代次數(shù)為50 000,當(dāng)?shù)M行到30 000次時,將學(xué)習(xí)率乘以0.1。在測試實驗指標(biāo)方面通過計算各個檢測模型在測試集上的平均精度均值(Average Precision,AP),統(tǒng)計單張圖片處理的平均速度并換算為目標(biāo)檢測速度作為模型性能評價的主要指標(biāo)。
各模型測試實驗結(jié)果如表1所示,其中列出了YOLOV3、標(biāo)準(zhǔn)Faster R-CNN、改進的Faster R-CNN三類模型的6種測試結(jié)果,其中“+Dataset*”代表該模型訓(xùn)練過程中加入了強背景干擾。由實驗結(jié)果可見,雖然在檢測速度方面相對于標(biāo)準(zhǔn)Faster R-CNN模型有一定的降低,但包含了強背景干擾訓(xùn)練的改進Faster R-CNN模型在檢測準(zhǔn)確度方面達到了90.11%,相比較于標(biāo)準(zhǔn)Faster R-CNN模型85.96%的精度有比較明顯的提升,更是大幅領(lǐng)先YOLOV3模型,能夠滿足對檢測準(zhǔn)確率要求相對嚴(yán)格的激光跟蹤儀跟蹤恢復(fù)應(yīng)用的需要。
表1 合作目標(biāo)視覺檢測對比實驗結(jié)果
注:+Dataset*表示訓(xùn)練過程中加入了包含強背景干擾的訓(xùn)練樣本。平均準(zhǔn)確率AP和檢測速度均保留至小數(shù)點后兩位。
本文從解決激光跟蹤儀跟蹤中斷導(dǎo)致測量過程終止、嚴(yán)重影響工作效率的問題出發(fā),探索了基于深度學(xué)習(xí)方法來提高復(fù)雜場景下目標(biāo)靶球的檢測準(zhǔn)確度的新思路,研究了基于Faster R-CNN深度卷積神經(jīng)網(wǎng)絡(luò)算法模型對激光跟蹤儀合作目標(biāo)靶球進行檢測框架,剖析了合作目標(biāo)靶球在實際應(yīng)用過程中多尺度變化與小尺度目標(biāo)檢測問題,提出了利用多層特征信息融合與淺層信息復(fù)用的改進方法與區(qū)域建議錨點設(shè)置優(yōu)化方法,克服了合作目標(biāo)靶球任意尺度變化與遠(yuǎn)距離小目標(biāo)檢測效果差的問題,尤其是針對小目標(biāo)檢測的精度相比較于標(biāo)準(zhǔn)Faster R-CNN提升明顯,能夠更好地滿足實際應(yīng)用需求。同時,針對合作目標(biāo)靶球外形單一、圖像信息較少導(dǎo)致檢測模型易出現(xiàn)誤識別的問題,提出一種強背景干擾樣本方法,通過在訓(xùn)練樣本中加入與合作目標(biāo)靶球外形、尺寸、顏色相近的干擾物,加強有限數(shù)據(jù)集訓(xùn)練過程中負(fù)樣本訓(xùn)練的有效性,減少近似目標(biāo)誤檢測,提升了模型的檢測精度。實驗結(jié)果表明,本文提出的改進模型的檢測平均準(zhǔn)確率為90.11%,遠(yuǎn)高于標(biāo)準(zhǔn)的Faster R-CNN網(wǎng)絡(luò)與YOLOV3網(wǎng)絡(luò),但在實時性方面表現(xiàn)欠佳。在不降低目標(biāo)檢測準(zhǔn)確度的同時,采用模型壓縮等其他手段來壓縮模型提高檢測速度是下一步的研究重點。