周金濤,高迪駒,劉志全
(上海海事大學(xué)航運(yùn)技術(shù)與控制工程交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,上海 201306)
隨著無(wú)人船應(yīng)用技術(shù)的不斷提高,應(yīng)用場(chǎng)合不斷擴(kuò)大,越來(lái)越多的水上交通問(wèn)題越發(fā)明顯,其中,水面障礙物檢測(cè)成為解決該問(wèn)題和實(shí)現(xiàn)無(wú)人船避障與導(dǎo)航的關(guān)鍵。傳統(tǒng)的水域目標(biāo)檢測(cè)方法分為接觸式與非接觸式。接觸式檢測(cè)方法主要與過(guò)往船只在短距離范圍內(nèi)通過(guò)傳感器進(jìn)行識(shí)別,但這種傳感器使用并不方便,且受距離的限制。非接觸式檢測(cè)方法主要依靠特定傳感器獲取目標(biāo)物體的磁場(chǎng)、聲波等信息來(lái)進(jìn)行識(shí)別。也有研究人員將輪廓檢測(cè)等傳統(tǒng)圖像算法運(yùn)用到目標(biāo)檢測(cè)任務(wù)中。但是,在光照變化、艦船遮擋、角度變化以及視線不足等情況下,這些傳統(tǒng)目標(biāo)檢測(cè)方法的魯棒性較弱,且無(wú)法實(shí)現(xiàn)實(shí)時(shí)檢測(cè)的目的[1]。
在機(jī)器人、智能汽車、智能船舶以及地理信息獲取等領(lǐng)域中,全景視覺(jué)取得了一些成果[2],并已成為相關(guān)領(lǐng)域研究的方向和重點(diǎn),主要分為多目全景、魚(yú)眼鏡頭全景和折反射式全景3 類。魚(yú)眼鏡頭全景本質(zhì)上是一種大廣角鏡頭,且不能實(shí)現(xiàn)真正的全景視覺(jué)功能。折反射式全景系統(tǒng)因圖像兩端嚴(yán)重畸變,導(dǎo)致成像質(zhì)量不佳。多目全景視覺(jué)相較于魚(yú)眼鏡頭全景和折反射全景視覺(jué)系統(tǒng),具有全視角、無(wú)畸變以及圖像信息豐富完整等優(yōu)點(diǎn)[3-4]。與傳統(tǒng)視覺(jué)環(huán)境感知系統(tǒng)視場(chǎng)相比,多目全景視覺(jué)系統(tǒng)可以實(shí)現(xiàn)水平方向范圍內(nèi)的大視場(chǎng)監(jiān)控,其寬廣的視角為監(jiān)控周圍環(huán)境帶來(lái)了便利。在多目全景圖像拼接過(guò)程中,尺度不變特征轉(zhuǎn)換(SIFT)[5]和加速穩(wěn)健特征(SURF)[6]是2 種常見(jiàn)的基于特征的圖像配準(zhǔn)算法。SIFT 算法對(duì)旋轉(zhuǎn)、尺度和光照具有較強(qiáng)的魯棒性。SURF 算法是在SIFT 算法的基礎(chǔ)上發(fā)展起來(lái)的,采用積分圖像和盒型濾波器對(duì)高斯二階偏導(dǎo)數(shù)進(jìn)行簡(jiǎn)化,縮短特征提取時(shí)間,具有與SIFT 算法相似的魯棒性。與SIFT 算法相比,SURF 算法大幅加快特征提取速度,但是在提取特征后,對(duì)2 幅圖像進(jìn)行匹配時(shí),特征點(diǎn)仍然存在不匹配與誤匹配的問(wèn)題。隨機(jī)抽樣一致(RANSAC)[7]和M 估計(jì)樣本一致(MSAC)[8]算法常用來(lái)剔除誤匹配點(diǎn)。
基于深度學(xué)習(xí)的圖像處理算法相對(duì)于傳統(tǒng)圖像算法,具有無(wú)須手工設(shè)置特征、精度高、速度快等優(yōu)點(diǎn)。為此,利用全景視覺(jué)技術(shù)并結(jié)合深度學(xué)習(xí)目標(biāo)檢測(cè)方法,成為無(wú)人船水面障礙物檢測(cè)的1 個(gè)重要技術(shù)。針對(duì)無(wú)人船在航行過(guò)程中障礙物檢測(cè)的目標(biāo)過(guò)小或目標(biāo)被遮擋等問(wèn)題,文獻(xiàn)[9]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的海面小目標(biāo)多幀檢測(cè)方法,表現(xiàn)出可接受的泛化能力,比常規(guī)檢測(cè)方法具有更優(yōu)的探測(cè)性能。文獻(xiàn)[10]基于K-最鄰近(KNN)算法和異常檢測(cè)的思想設(shè)計(jì)一種全新的分類器,有效避免現(xiàn)有方法在水面小目標(biāo)檢測(cè)時(shí)尺寸限制和特征壓縮損失,顯著提升性能。最新研究表明,YOLO 系列算法可以適用于各種不同的目標(biāo)檢測(cè)場(chǎng)景。文獻(xiàn)[11]提出一種基于改進(jìn)YOLOv5 的不同交通場(chǎng)景下的車輛檢測(cè)方法。文獻(xiàn)[12]提出一種基于YOLOv5 多尺度特征融合的水下目標(biāo)檢測(cè)輕量化算法。文獻(xiàn)[13]提出一種基于YOLOv5 的卷積神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)軸承蓋缺陷。文獻(xiàn)[14]提出一種用于車輛目標(biāo)檢測(cè)的增強(qiáng) 型YOLOv4 網(wǎng) 絡(luò)。文 獻(xiàn)[15]提出一 種改進(jìn)YOLOv5 的遙感小目標(biāo)檢測(cè)網(wǎng)絡(luò),解決遙感圖像中小目標(biāo)易被錯(cuò)檢、漏檢等問(wèn)題。在水面障礙物檢測(cè)方面,針對(duì)在小物體檢測(cè)效果差,水面反射引起的估計(jì)精度低等問(wèn)題,文獻(xiàn)[16]提出一種基于圖像分割的水面障礙物檢測(cè)網(wǎng)絡(luò)。文獻(xiàn)[17]提出一種基于單目視覺(jué)的新型實(shí)時(shí)障礙物檢測(cè)方法,以有效區(qū)分海面上的障礙物和復(fù)雜的背景。文獻(xiàn)[18]提出一種基于擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)的水面無(wú)人艇障礙物類型識(shí)別方法。文獻(xiàn)[19]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的水面無(wú)人船障礙物檢測(cè)方法,進(jìn)一步提高對(duì)某些類型障礙物的檢測(cè)和分類能力。但對(duì)于視角不足的問(wèn)題,會(huì)造成檢測(cè)時(shí)障礙物缺失從而影響無(wú)人船航向判斷。
本文提出基于全景視覺(jué)的無(wú)人船水面障礙物檢測(cè)方法。設(shè)計(jì)一種改進(jìn)的SURF 算法,在SURF 算法的基礎(chǔ)上引入k 維(k-d)樹(shù)構(gòu)建數(shù)據(jù)索引,并利用MSAC 算法剔除誤匹配點(diǎn),實(shí)現(xiàn)精匹配。同時(shí),為解決拼接過(guò)程中出現(xiàn)的縫隙或重影等問(wèn)題,提出一種基于圓弧函數(shù)的加權(quán)融合算法,并進(jìn)一步對(duì)YOLOv5s 的主干網(wǎng)絡(luò)和損失函數(shù)進(jìn)行改進(jìn),提出改進(jìn)的YOLOv5s 障礙物檢測(cè)模型(DS-YOLOv5s),以實(shí)現(xiàn)目標(biāo)檢測(cè)的實(shí)時(shí)性和精度的提高。最終將得到的多目全景拼接圖輸入到訓(xùn)練好的模型中,驗(yàn)證本文方法的有效性。
在圖像配準(zhǔn)階段,通過(guò)對(duì)傳統(tǒng)SURF 算法進(jìn)行改進(jìn),引入k-d 樹(shù)來(lái)構(gòu)建數(shù)據(jù)索引,實(shí)現(xiàn)搜索空間級(jí)分類,并利用MSAC 算法剔除誤匹配點(diǎn),實(shí)現(xiàn)精匹配。在圖像融合階段,本文提出一種基于圓弧函數(shù)的加權(quán)融合算法,解決圖像融合過(guò)程中重疊區(qū)域存在的拼接縫隙或重影問(wèn)題,使得在圖像重疊區(qū)域得到自然過(guò)渡效果和高圖像質(zhì)量,為后續(xù)全景圖像中的目標(biāo)障礙物檢測(cè)奠定基礎(chǔ)。
在檢測(cè)水面障礙物之前,需要制作數(shù)據(jù)集,且數(shù)據(jù)量偏大。當(dāng)數(shù)據(jù)集較大時(shí),計(jì)算的復(fù)雜性將大幅增加,提取的特征點(diǎn)越多,計(jì)算所需的時(shí)間就越長(zhǎng),但是實(shí)時(shí)性難以得到保證。在這種情況下,考慮通過(guò)構(gòu)建數(shù)據(jù)索引來(lái)加快計(jì)算速度。SURF 算法提取的特征點(diǎn)將呈現(xiàn)聚類形式,使用樹(shù)結(jié)構(gòu)構(gòu)建數(shù)據(jù)索引,以實(shí)現(xiàn)搜索空間級(jí)分類并快速匹配。但是SURF算法提取的特征點(diǎn)沒(méi)有折疊空間,因此可以使用基于搜索引擎的k-d 樹(shù)。k-d 算法是建立平衡二叉樹(shù)的過(guò)程,實(shí)際上是1 個(gè)遞歸過(guò)程。
為了使圖像拼接可以得到更優(yōu)的圖像質(zhì)量,在進(jìn)行特征點(diǎn)快速匹配之后須進(jìn)行精匹配。MSAC 算法與RANSAC 算法有相同的基本思想,2 種算法的區(qū)別在于成本計(jì)算方式不同。在成本計(jì)算上,RANSAC 對(duì)隊(duì)列值的選擇很敏感,太大的隊(duì)列無(wú)效,太小的隊(duì)列不穩(wěn)定,而MSAC 可以減少補(bǔ)償這些影響。因此,本文采用的多目視覺(jué)全景圖種類較多,相比RANSAC,使用MSAC 算法進(jìn)行特征點(diǎn)的精匹配更合適。
傳統(tǒng)基于距離的加權(quán)融合算法是線性函數(shù),隨距離從0~1 線性變化。在整個(gè)過(guò)程中權(quán)重的變化率是均勻的,導(dǎo)致重疊區(qū)域不能完全自然收斂[20]。在多目視覺(jué)全景圖拼接過(guò)程中,涉及到多張圖像進(jìn)行拼接融合,當(dāng)重疊區(qū)域內(nèi)容非常復(fù)雜時(shí),中心將出現(xiàn)拼接縫隙或重影。為了解決這一問(wèn)題,本文提出一種基于圓弧函數(shù)的加權(quán)融合算法,以獲得非線性變化權(quán)重。基于圓弧函數(shù)加權(quán)融合的圖像拼接算法示意圖如圖1 所示,w'1和w'2是改進(jìn)后的權(quán)重,IL(i,j)和IR(i,j)是非重疊區(qū)域的像素值,I(i,j)是重疊區(qū)域的像素值,p是重疊區(qū)域的任意一點(diǎn),d為點(diǎn)p的橫坐標(biāo),d1是左圖像中非重疊區(qū)域的右邊界橫坐標(biāo),d2是右圖像中非重疊區(qū)域的左邊界橫坐標(biāo)。重疊區(qū)域中的虛弧是重疊區(qū)域中左圖像的權(quán)重,而實(shí)弧是重疊區(qū)域中右圖像的權(quán)重,2 個(gè)權(quán)重由半徑為r的弧組成,其中r=(d2-d1)/2,因此可以獲得改進(jìn)的權(quán)值w'1和w'2。
改進(jìn)的權(quán)值計(jì)算式如式(1)和式(2)所示:
快速全景圖像拼接處理主要由多目視覺(jué)圖像快速獲取、改進(jìn)的SURF 特征點(diǎn)提取匹配和全景圖像拼接融合3 個(gè)模塊組成。根據(jù)第1.1 節(jié)改進(jìn)的SURF圖像配準(zhǔn)算法和基于圓弧函數(shù)的加權(quán)融合算法,對(duì)獲取到的多目全景視覺(jué)圖像進(jìn)行特征提取,確定相鄰圖像的重疊部分,根據(jù)重疊特征點(diǎn)的信息進(jìn)行匹配和拼接融合。
YOLOv5 網(wǎng)絡(luò)的主干部分是跨階段部分網(wǎng)絡(luò)(CSPNet)[21]。為充分利用從不同層提取的特征信息,YOLOv5 還采用特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)[22]。在FPN 特征組合之后,在此基礎(chǔ)上添加路徑聚合網(wǎng)絡(luò)(PAN)[23]結(jié)構(gòu)。經(jīng)卷積下采樣后,將組合的底部特征圖與左側(cè)FPN 結(jié)構(gòu)中的相同比例特征圖拼接,最后獲得3 個(gè)不同大?。?9×19、38×38 和76×76)的輸出特征圖。大小為19×19 的特征圖具有較大的下采樣率,適用于規(guī)模較大的目標(biāo);大小為76×76 的特征圖則具有較小的下采樣率,適用于尺度較小的目標(biāo)。
在主干網(wǎng)絡(luò)模型中使用深度可分離卷積(DSCOV)替換掉常規(guī)卷積來(lái)減少網(wǎng)絡(luò)參數(shù)量[24],在損失函數(shù)計(jì)算方面,使用簡(jiǎn)化最優(yōu)傳輸分配策略(SimOTA)進(jìn)行正負(fù)樣本的匹配[25]。DS-YOLOv5s算法由網(wǎng)絡(luò)訓(xùn)練和檢測(cè)2 個(gè)過(guò)程組成,總體框架如圖2 所示。網(wǎng)絡(luò)結(jié)構(gòu)主要分為骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò),其中網(wǎng)絡(luò)輕量化操作在骨干網(wǎng)絡(luò)部分進(jìn)行,網(wǎng)絡(luò)結(jié)構(gòu)中的虛線、實(shí)線、灰實(shí)線3 個(gè)框分別表示3 個(gè)尺度特征圖。損失函數(shù)的改進(jìn)部分在訓(xùn)練模塊。另外1 個(gè)為檢測(cè)部分。
圖2 DS-YOLOv5s 算法的總體框架Fig.2 Overall framework of the DS-YOLOv5s algorithm
針對(duì)障礙物檢測(cè)的實(shí)時(shí)性要求,本文采用深度可分離卷積代替YOLOv5 骨干特征提取網(wǎng)絡(luò)的普通卷積,以減少原模型的網(wǎng)絡(luò)參數(shù)量,縮短模型的推理時(shí)間,提高整個(gè)模型的推理能力。其核心思想是將標(biāo)準(zhǔn)卷積分為逐通道卷積和逐點(diǎn)卷積2 個(gè)部分。深度可分離卷積過(guò)程如圖3 所示,首先進(jìn)行逐通道卷積,對(duì)每個(gè)輸入通道進(jìn)行卷積運(yùn)算,得到與輸入特征圖通道數(shù)一致的輸出特征圖,然后進(jìn)行逐點(diǎn)卷積,利用1×1 卷積運(yùn)算對(duì)特征圖進(jìn)行降維,結(jié)合所有逐通道卷積輸出。n和m分別為輸入和輸出通道數(shù),k×k為卷積核大小。
圖3 深度可分離卷積過(guò)程Fig.3 Process of depthwise separable convolution
深度可分離卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算式如式(4)所示:
其中:βi表示網(wǎng)絡(luò)第i層的輸入特征圖;ξin表示第i層特征圖的第n個(gè)通道;kn表示第n個(gè)通道的卷積核;D(·)表示逐通 道卷積 操作;S(·)表示 逐點(diǎn)卷 積操作;τ為D(·)操作的輸出,表示第i層特征在經(jīng)過(guò)逐通道卷積后的狀態(tài),并作為S(·)操作的輸入;輸出βi+1表示網(wǎng)絡(luò)第i+1 層的輸入特征圖。
損失函數(shù)是衡量訓(xùn)練與實(shí)際結(jié)果之間相似度的重要指標(biāo)。與YOLOv3、YOLOv4 不同,YOLOv5 在正樣本和負(fù)樣本的定義中采用跨鄰域網(wǎng)絡(luò)匹配策略,以獲得更多的正樣本錨點(diǎn)并加速損失函數(shù)的收斂。
YOLOv5 的損失主要由分類損失、置信度損失以及定位損失3 部分組成,計(jì)算式如式(5)所示:
其中:λ1、λ2、λ3為平衡系數(shù);Lcls、Lobj、Lloc分別表示分類損失、置信度損失以及定位損失。
YOLOv5 根據(jù)錨幀和真實(shí)幀的交并比(IoU)來(lái)分配正負(fù)樣本。然而,在不同大小、形狀、遮擋條件下正負(fù)樣本的劃分也是不同的,并且還需要考慮上下文信息。較優(yōu)的樣本匹配算法可以有效解決密集目標(biāo)檢測(cè)問(wèn)題,并在目標(biāo)的極端比例或極端尺寸不平衡正樣本時(shí)優(yōu)化檢測(cè)效果[26]。因此,SimOTA 將樣本匹配視為最佳匹配。YOLOv5 原有的損失函數(shù)計(jì)算量偏大,在模型訓(xùn)練量較大時(shí),容易導(dǎo)致真實(shí)值與預(yù)測(cè)值差別較大。因此,使用SimOTA 分配策略匹配正負(fù)樣本,可在一定程度上減少損失計(jì)算量。成本計(jì)算式如式(6)所示:
其中:Cij為成本;λ為平衡系數(shù);為分類損失;為回歸損失。
通過(guò)式(6)可知,成本由分類損失和回歸損失2 個(gè)部分組成,并且網(wǎng)絡(luò)預(yù)測(cè)的類別和目標(biāo)邊界框越準(zhǔn)確,成本越小。
基于YOLOv5 的無(wú)人船水面障礙物檢測(cè)在很大程度上依賴于數(shù)據(jù)集質(zhì)量。因此,在訓(xùn)練過(guò)程中使用高質(zhì)量的數(shù)據(jù)集可以使深度學(xué)習(xí)器提取到更有效的特征。由于沒(méi)有可用水面障礙物的相關(guān)大型公開(kāi)數(shù)據(jù)集,因此一部分需要從網(wǎng)絡(luò)上獲取水面障礙物圖像,同時(shí)也從一些公共水面障礙物數(shù)據(jù)集中獲取圖像。為保證深度學(xué)習(xí)器能夠識(shí)別不同種類的水面障礙物,本文選取14 個(gè)類別圖像,是海洋或內(nèi)河中常見(jiàn)的障礙物,包含8 750 張圖片,按常規(guī)比例7∶1∶2,將數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。水面障礙物類別圖如圖4 所示。
圖4 水面障礙物類別圖Fig.4 lmages of obstacles categories on the water-surface
在各種擾動(dòng)下的水面障礙物圖像如圖5 所示。水草或其他設(shè)施阻擋了部分檢測(cè)目標(biāo)、障礙物附近強(qiáng)烈的陽(yáng)光反射、河流的復(fù)雜水面、圖像中的目標(biāo)太小以及目標(biāo)附近有波紋等。上述情況是水面障礙物檢測(cè)中的困難示例,添加此類圖像可以提高模型的魯棒性。
圖5 在各種擾動(dòng)下的水面障礙物圖像Fig.5 Images of water-surface obstacles under various disturbances
多目視覺(jué)全景圖是由無(wú)人船船體上的相機(jī)從多個(gè)角度采集到的圖像拼接而成的。圖像經(jīng)過(guò)初步配準(zhǔn)后會(huì)出現(xiàn)較為明顯的拼接縫隙或重影,經(jīng)過(guò)改進(jìn)的圖像融合算法處理后,可以在一定程度上解決該問(wèn)題。本文對(duì)采用的基于改進(jìn)SURF 圖像配準(zhǔn)算法和基于圓弧函數(shù)的加權(quán)融合算法進(jìn)行實(shí)驗(yàn)分析。
3.1.1 基于改進(jìn)SURF 算法的圖像配準(zhǔn)實(shí)驗(yàn)
待配準(zhǔn)原圖如圖6 所示。圖7 所示為不同配準(zhǔn)算法得到的對(duì)比圖。
圖6 待配準(zhǔn)原圖Fig.6 Original images to be matched
圖7 不同配準(zhǔn)算法的配準(zhǔn)圖Fig.7 Registration images among different registration algorithms
本文采用匹配正確率(CMR)評(píng)價(jià)圖像拼接的準(zhǔn)確度[27]。CMR 作為一種相對(duì)客觀評(píng)價(jià)算法匹配性能的衡量指標(biāo),其得到的數(shù)值越高,表明算法的匹配性能越優(yōu),相應(yīng)的圖像配準(zhǔn)準(zhǔn)確度也更優(yōu)。匹配正確率(計(jì)算中用RCM)的計(jì)算式如下:
其中:NC表示正確匹配點(diǎn)數(shù)量;NR表示優(yōu)化后所有匹配點(diǎn)數(shù)量。
不同算法配準(zhǔn)對(duì)比實(shí)驗(yàn)結(jié)果如表1 所示,SURF在匹配正確率和時(shí)間上比SIFT 有更大的優(yōu)勢(shì),匹配正確率提高了9.52 個(gè)百分點(diǎn),耗時(shí)縮短了9.18 s?;赟URF+RANSAC 算法的匹配正確率比SURF 算法有較大優(yōu)勢(shì),但在時(shí)間上沒(méi)有優(yōu)勢(shì),匹配正確率提高7.84 個(gè)百分點(diǎn),耗時(shí)增加了6.94 s?;诟倪M(jìn)SURF的算法與基于SURF+RANSAC 的算法相比,特征點(diǎn)的匹配正確率提高3.63 個(gè)百分點(diǎn),匹配時(shí)間加快了5.83 s,與基于SURF 的算法相比,特征點(diǎn)的匹配正確率提高11.47 個(gè)百分點(diǎn)。因此,改進(jìn)SURF 算法的整體性能更優(yōu)。
表1 不同算法配準(zhǔn)實(shí)驗(yàn)結(jié)果 Table 1 Experimental results of registration using different algorithms
3.1.2 基于圓弧函數(shù)的加權(quán)融合實(shí)驗(yàn)
為了更好地進(jìn)行后續(xù)水面障礙物目標(biāo)檢測(cè)工作,本文需要得到更清晰的圖像。在改進(jìn)SURF 算法圖像配準(zhǔn)的基礎(chǔ)上,本文選用分辨率較高的圖像作為待拼接圖,對(duì)采用的基于圓弧函數(shù)的加權(quán)融合算法進(jìn)行驗(yàn)證。圖8 所示為較高分辨率待拼接原圖,圖9 所示為融合前后的拼接圖。
圖8 較高分辨率待拼接原圖Fig.8 Original images to be stitched in higher resolution
圖9 融合前后的拼接圖Fig.9 Stitching images before and after fusion
從圖9 可以看出,經(jīng)過(guò)基于圓弧函數(shù)的加權(quán)融合之后,在圖像拼接過(guò)程中出現(xiàn)的拼接縫隙以及重影問(wèn)題已經(jīng)得到基本解決,使拼接圖像的中心區(qū)域具有自然過(guò)渡效果并得到質(zhì)量較高的圖像,為后續(xù)進(jìn)行目標(biāo)檢測(cè)奠定了基礎(chǔ)。
本文實(shí)驗(yàn)使用的深度學(xué)習(xí)框架是PyTorch 1.7.0,操作系統(tǒng)是Ubuntu 18.04,CPU 是Intel?Xeon?Platinum 8255C CPU @2.5 GHz,GPU 是單卡NVIDIA GeForce RTX 3080(10 GB)。網(wǎng)絡(luò)訓(xùn)練的初始學(xué)習(xí)率設(shè)置為0.01,學(xué)習(xí)率動(dòng)量因子設(shè)置為0.937,權(quán)重衰減系數(shù)設(shè)置為0.000 5,超參數(shù)配置使用hyp.scratch.yaml 文件。Batch_size 設(shè)置為8,迭代次數(shù)為200。
本文將平均精度(mAP)作為模型性能的評(píng)價(jià)指標(biāo)[28]。準(zhǔn)確率(P)、召回率(R)和平均精度(mAP,計(jì)算中用mmAP)的計(jì)算式如式(8)~式(10)表示:
其中:TTP為真陽(yáng)性;FFP為假陽(yáng)性;FFN為假陰性;AAPi為某一類i的P-R曲線下的面積,通過(guò)將某些列的閾值調(diào)整為使用不同P和R值繪制的圖像而獲得。mAP 可以通過(guò)將每個(gè)對(duì)應(yīng)類別下的AP 值相加和平均來(lái)獲得,以反映模型的整體性能。
為驗(yàn)證該模型的有效性,本文選擇YOLOv3[29]、YOLOv4[30]、YOLOv5s、YOLOv5m 和DS-YOLOv5s這5 種模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2 所示,加粗表示最優(yōu)數(shù)據(jù)。從表2 可以看出,DS-YOLOv5s 準(zhǔn)確性和實(shí)時(shí)性都優(yōu)于對(duì)比模型。在精度方面,DSYOLOv5s 比YOLOv5s 提 高1 個(gè)百分 點(diǎn),mAP@0.5達(dá)到95.7%。在檢測(cè)速度方面,DS-YOLOv5s 比YOLOv5s 提 高6 幀/s。YOLOv4 的 網(wǎng)絡(luò)參數(shù)量更 大,導(dǎo)致其在各個(gè)指標(biāo)性能均不理想。因此,當(dāng)同時(shí)考慮檢測(cè)實(shí)時(shí)性和準(zhǔn)確性時(shí),DS-YOLOv5s 具有更優(yōu)的性能。
表2 不同目標(biāo)檢測(cè)模型的實(shí)驗(yàn)結(jié)果 Table 2 Experimental results among different target detection models
為更加直觀地評(píng)價(jià)該模型的性能,本文對(duì)改進(jìn)前后以及對(duì)比實(shí)驗(yàn)中其余模型的檢測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果如圖10 所示。第1 列為被遮擋目標(biāo),第2 列為復(fù)雜水面環(huán)境,第3 列為多目標(biāo)的圖像。從圖10可以看出,DS-YOLOv5s 模型表現(xiàn)較優(yōu)的檢測(cè)性能,檢測(cè)到了更多目標(biāo),并識(shí)別出被遮擋目標(biāo),檢測(cè)精度高,且不存在誤檢和漏檢問(wèn)題。在被遮擋目標(biāo)檢測(cè)對(duì)比中,YOLOv4 和YOLOv5m 模型存在漏檢問(wèn)題。這是因?yàn)? 個(gè)模型的網(wǎng)絡(luò)參數(shù)量較大,隨著網(wǎng)絡(luò)深度的加深,感受野增大,而特征圖的尺寸減小,位置信息變得越來(lái)越模糊,使得小目標(biāo)的精確檢測(cè)變得困難。綜上所述,本文提出的模型在被遮擋目標(biāo)、復(fù)雜水面環(huán)境以及多目標(biāo)檢測(cè)中檢測(cè)效果最好。DS-YOLOv5s 模型檢測(cè)速度為51 幀/s,具有實(shí)時(shí)的檢測(cè)速度,且不存在誤檢、漏檢等問(wèn)題,滿足水面環(huán)境復(fù)雜場(chǎng)景下障礙物檢測(cè)實(shí)時(shí)性與準(zhǔn)確性的要求。
圖10 面向復(fù)雜場(chǎng)景的對(duì)比實(shí)驗(yàn)結(jié)果Fig.10 Comparison experimental results for complex scenarios
YOLOv5s 模型改進(jìn)前后的P-R曲線如圖11 所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。從圖11 可以看出,對(duì)于每個(gè)類別,DS-YOLOv5s 模型整體性能是最優(yōu)的,且絕大多數(shù)類別的檢測(cè)準(zhǔn)確率均高于YOLOv5s 模型。
圖11 YOLOv5s 模型改進(jìn)前后的P-R 曲線Fig.11 P-R curves before and after the improvement of the YOLOv5s model
為評(píng)估本文引入的模塊和不同模塊組合順序?qū)λ惴ㄐ阅軆?yōu)化的程度,本文設(shè)計(jì)一系列消融實(shí)驗(yàn)。消融實(shí)驗(yàn)結(jié)果如表3 所示,其中,“√”表示在YOLOv5s網(wǎng)絡(luò)模型的基礎(chǔ)上加入該策略,“—”表示無(wú)任何策略加入。消融實(shí)驗(yàn)以組合形式考慮了DSCOV、SimOTA 分配策略這2 種因素的影響。從表3 可以看出,相比DSCOV,YOLOv5s+DSCOV 的mAP@0.5有所下降,這是因?yàn)镈SCOV 使網(wǎng)絡(luò)參數(shù)量減少,且加快檢測(cè)速度,同時(shí)也會(huì)降低精度。相比YOLOv5s、YOLOv5s+DSCOV,YOLOv5s+SimOTA 的mAP@0.5分別提高1.2 和1.6 個(gè)百分點(diǎn)。相比DSCOV、YOLOv5s+DSCOV,YOLOv5s+DSCOV+SimOTA 的mAP@0.5 分別提高1.0 和1.4 個(gè)百分點(diǎn)。本文綜合考慮實(shí)時(shí)性和準(zhǔn)確度,改進(jìn)后模型的14 個(gè)類別AP值更優(yōu),說(shuō)明采用DSCOV 以及SimOTA 分配策略可以提升模型性能。因此,本文提出的網(wǎng)絡(luò)在該數(shù)據(jù)集上具有最佳的綜合性能。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experimental results %
本文將拼接完成的全景圖輸入到訓(xùn)練好的模型中進(jìn)行檢測(cè),檢測(cè)該模型是否可以快速準(zhǔn)確識(shí)別到水面障礙物。圖12 所示為從水平方向多個(gè)角度獲得參與測(cè)試的多目視覺(jué)圖像,對(duì)圖像進(jìn)行全景拼接,將得到的全景圖用于測(cè)試。拼接后的多目視覺(jué)全景圖如圖13 所示,障礙物檢測(cè)圖如圖14 所示。
圖12 參與測(cè)試的多目視覺(jué)圖像Fig.12 Multi-eye visual images of the participants in the test
圖13 多目視覺(jué)全景拼接圖Fig.13 Multi-eye vision panorama stitching image
圖14 障礙物檢測(cè)圖Fig.14 Obstacle detection image
從圖13 可以看出,拼接圖已消除拼接縫隙或重影,進(jìn)而得到更優(yōu)的圖像質(zhì)量,用于后續(xù)的目標(biāo)物檢測(cè)。從圖14 可以看出,對(duì)拼接好的全景圖可以實(shí)現(xiàn)精準(zhǔn)識(shí)別,檢測(cè)速度為50 幀/s,滿足實(shí)時(shí)性要求。
為解決無(wú)人船在海洋或內(nèi)河等水域環(huán)境下水面障礙物檢測(cè)視角狹窄問(wèn)題,本文提出一種基于全景視覺(jué)的無(wú)人船水面障礙物目標(biāo)檢測(cè)方法。為提升圖像配準(zhǔn)速度和配準(zhǔn)率,引入k-d 樹(shù)來(lái)構(gòu)建數(shù)據(jù)索引,實(shí)現(xiàn)搜索空間級(jí)分類,通過(guò)MSAC 算法對(duì)匹配點(diǎn)進(jìn)行優(yōu)化,剔除誤匹配點(diǎn)。采用一種基于圓弧函數(shù)的加權(quán)融合算法解決圖像融合中出現(xiàn)的拼接縫隙或重影問(wèn)題,獲得自然過(guò)渡效果和質(zhì)量較高的圖像。在目標(biāo)檢測(cè)部分,采用深度可分離卷積網(wǎng)絡(luò)替換YOLOv5 主干網(wǎng)絡(luò)中原有卷積網(wǎng)絡(luò),并對(duì)損失函數(shù)計(jì)算分配策略進(jìn)行改進(jìn),提出水面障礙物目標(biāo)檢測(cè)模型DS-YOLOv5s。實(shí)驗(yàn)結(jié)果表明,基于改進(jìn)的SURF 算法在特征點(diǎn)的匹配正確率和匹配速度均有明顯的改善。在障礙物檢測(cè)方面,基于改進(jìn)的YOLOv5s 目標(biāo)檢測(cè)方法在實(shí)時(shí)性和準(zhǔn)確度方面得到顯著提高,可對(duì)多目視覺(jué)全景拼接圖中的目標(biāo)障礙物實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)檢測(cè)識(shí)別。因此,基于全景視覺(jué)的無(wú)人船水面障礙物檢測(cè)方法為無(wú)人船自主避障、自主航行提供有效的解決方案。后續(xù)將采集更多樣本進(jìn)行檢測(cè)研究,提高目標(biāo)檢測(cè)準(zhǔn)確率。