摘" 要: 針對海上搜救圖像中遇難人員在水面露出的面積小并且容易受到海浪反光、雨霧天氣等惡劣環(huán)境影響,導(dǎo)致特征提取困難的問題,提出一種海浪上下文信息補償小目標(biāo)檢測算法。首先,通過基于滑動窗口的圖像預(yù)處理模塊將圖像進行裁剪,把關(guān)注點集中在目標(biāo)物體周圍,并減少圖像中的無關(guān)區(qū)域,降低了計算量并提高了準(zhǔn)確率;其次,提出一種海浪上下文模塊,首次通過分析海浪的運動方向和強度,提取海浪上下文信息來輔助海上搜救小目標(biāo)檢測,提高檢測精度。在SeaDronesSee v1和SeaDronesSee v2數(shù)據(jù)集上的實驗結(jié)果表明,所提算法平均精度分別達到了73.29%和87.81%,相比YOLOv7?tiny算法,平均精度分別提高了21.84%和6.5%。所提算法提高了海上搜救小目標(biāo)的檢測精度,提高了海上搜救的效率。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); 目標(biāo)檢測; 無人機; 海上搜救; 上下文信息; YOLOv7?tiny
中圖分類號: TN911.73?34; TP391.41" " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)17?0098?07
Wave context information compensation for small object detection algorithm
LI Shibao1, LI Chen1, LI Zuozhi2, WANG Zhaoyu1, JIA Zekun1
(1. College of Oceanography and Space Informatics, China University of Petroleum (East China), Qingdao 266580, China;
2. Qingdao Port Emergency Rescue Co., Ltd., Qingdao 266000, China)
Abstract: In the images of maritime search and rescue, the area of the victims exposed on the water surface is not big enough and is susceptible to harsh environments such as reflections from waves and adverse weather conditions (rainy, foggy, etc.), which makes the image feature extraction difficult. In view of this, a scheme of wave context information compensation for small object detection algorithm is proposed. A sliding?window?based image preprocessing module is employed to crop the image so that the focus is concentrated on the object. The irrelevant area of the image is reduced, which lowers computational load and enhances the accuracy rate. A wave context module is proposed. It is for the first time by analyzing the motion direction and intensity of waves to extract the wave contextual information to assist in detecting small objects in maritime search and rescue scenarios and improving the detection accuracy. The experimental results on datasets SeaDronesSee v1 and SeaDronesSee v2 demonstrate that the proposed algorithm achieves an average precision of 73.29% and 87.81%, respectively. In comparison with the YOLOv7?tiny algorithm, the proposed method exhibits an average precision improvement of 21.84% and 6.5% on the two datasets. To sum up, the proposed algorithm significantly improves the detection accuracy of small objects in the scenarios of maritime search and rescue and raise the efficiency of maritime search and rescue.
Keywords: convolutional neural network; object detection; unmanned aerial vehicle; maritime search and rescue; contextual information; YOLOv7?tiny
0" 引" 言
海上搜救任務(wù)對大多數(shù)沿海國家來說是至關(guān)重要的[1]。傳統(tǒng)的海上搜救行動需要大量的人力和物力,且救援人員時刻面臨風(fēng)險,搜救效率低。無人機因其具有小巧靈活、智能自主、易于操控等優(yōu)點,已逐漸成為海上搜救的主要工具,在海上搜救行動中拯救了很多生命。近幾年,神經(jīng)網(wǎng)絡(luò)的快速發(fā)展促使目標(biāo)檢測[2?5]的性能得到了顯著提升,已逐漸發(fā)展成為無人機海上搜救的主要手段。當(dāng)前最好的目標(biāo)檢測器能夠很準(zhǔn)確地檢測出陸地上拍攝的物體,但應(yīng)用于無人機海上搜救場景時,仍面臨巨大挑戰(zhàn):海上遇難人員露出水面的面積有限,在視野中非常小,因此提取特征困難,并且目標(biāo)檢測器經(jīng)常受到海浪反光、雨霧天氣等惡劣環(huán)境因素影響,導(dǎo)致提取特征變得更加困難,檢測精度低,需要精確挖掘有用的局部背景上下文信息來輔助檢測。因此,研究一種能夠提取局部背景上下文信息的結(jié)構(gòu)來輔助海上搜救小目標(biāo)檢測具有巨大的研究意義。
目前,有很多研究通過提取目標(biāo)周圍局部背景上下文信息來解決小目標(biāo)檢測特征提取難的問題[6?10]。當(dāng)前大多數(shù)通用的小目標(biāo)檢測器都是通過直接改變窗口大小來獲取目標(biāo)周圍的局部背景上下文信息來輔助檢測。如文獻[6]是第一個專注于小目標(biāo)的檢測器,通過將建議框擴大4倍來獲取局部背景上下文信息;文獻[7]通過將區(qū)域建議框擴大為1.5倍、2倍、4倍來獲取局部背景上下文信息;文獻[8]使用物體區(qū)域大小1.5倍的邊界框作為局部背景上下文。但是這些方法都是以啟發(fā)和經(jīng)驗的方式獲取局部背景上下文信息,沒有嚴格的理論存在,很難確定上下文窗口的合適大小。窗口過小無法完全捕捉物體與周圍環(huán)境的關(guān)系,窗口過大可能會引入過多的噪聲,降低物體檢測精度,不能用在海上搜救小目標(biāo)檢測中。因此,需要一種能夠精確建模待搜救人員周圍局部背景上下文信息的結(jié)構(gòu)來輔助海上搜救小目標(biāo)檢測。
近年來,隨著目標(biāo)檢測技術(shù)的不斷發(fā)展,YOLO系列[11?12]因其精度高、速度快而備受關(guān)注。特別是YOLOv7[2]算法,其檢測速度和精度遠超過其他目標(biāo)檢測算法。最近的研究已經(jīng)開始使用YOLOv7?tiny算法進行小目標(biāo)檢測,并且取得了顯著的效果[13?14]。
受此啟發(fā),本文在YOLOv7?tiny的基礎(chǔ)上,提出了一種海浪上下文信息補償小目標(biāo)檢測算法(Wave Context?YOLOv7?tiny, WC?YOLOv7?tiny)。首先通過基于滑動窗口的圖像預(yù)處理模塊將圖像進行裁剪,提高小目標(biāo)的分辨率。然后在此基礎(chǔ)上提出海浪上下文(Wave Context)模塊,首次通過分析海浪的運動方向和強度等物理特性,來提取待搜救目標(biāo)周圍精確的海浪上下文信息,從而輔助海上搜救小目標(biāo)檢測。海浪上下文模塊首先通過卷積提取目標(biāo)周圍海浪的方向特征和強度特征;其次,將海浪的方向特征和強度特征加權(quán)融合,獲取到在海浪最可能方向上的強度,這也就是目標(biāo)周圍的有效海浪上下文信息;最后,將海浪上下文信息與原特征融合,來提高海上搜救小目標(biāo)檢測精度。
在著名的SeaDronesSee[15?16]數(shù)據(jù)集上對WC?YOLOv7?tiny進行了廣泛的測試。實驗結(jié)果表明,本文設(shè)計的WC?YOLOv7?tiny算法在保持實時性的同時,有效地提高了無人機海上搜救小目標(biāo)的檢測精度。
1" 海浪上下文信息補償小目標(biāo)檢測算法
1.1" 基于滑動窗口的圖像預(yù)處理模塊
無人機海上搜救圖像都是高分辨率圖像,但是待搜救目標(biāo)在圖像中占的像素卻非常少,因此都是小目標(biāo)。這造成特征提取網(wǎng)絡(luò)在經(jīng)過下采樣等一系列操作處理圖像后,待搜救目標(biāo)所占的像素變得更加少,極易導(dǎo)致漏檢、誤檢等問題,從而影響了海上搜救小目標(biāo)檢測的準(zhǔn)確性。此外,無人機海上搜救圖像分辨率過大,還容易導(dǎo)致在特征提取過程中訓(xùn)練速度緩慢,顯著影響了海上搜救小目標(biāo)檢測的效率。
為了應(yīng)對這些問題,本文提出了基于滑動窗口的圖像預(yù)處理模塊。該模塊通過滑動窗口的形式對原始圖像進行裁剪,具體而言:首先,設(shè)置指定大小的窗口作為裁剪圖像的尺寸,例如在本文設(shè)定窗口大小為640× 640;其次,設(shè)置兩張相鄰照片重疊率的大小,以盡量減少圖像中目標(biāo)被分割的情況,在本文中,重疊率的大小設(shè)置為15%;最后,進行滑動窗口裁剪并剔除裁剪后沒有目標(biāo)的圖像。
滑動窗口裁剪方法的具體操作方式如圖1所示。
圖1中,正方形虛線框1為窗口的初始位置。首先將窗口沿著箭頭a的方向,根據(jù)設(shè)置的重疊率進行滑動,移動到窗口2的位置,窗口1和窗口2的圖像重疊部分大小為重疊率的大小。然后沿箭頭a方向,根據(jù)初始化時設(shè)定的重疊率繼續(xù)滑動窗口并裁剪,直到滑動并裁剪到窗口3的位置,這樣就完成了第一行的圖像裁剪。接著將窗口置于圖像中虛線框4的位置,沿著箭頭b的方向,根據(jù)初始化時設(shè)定的重疊率進行滑動窗口并裁剪,完成對圖像第二行的裁剪。重復(fù)此操作,直到窗口滑動并裁剪完整張圖像。
基于滑動窗口的圖像預(yù)處理模塊將一張圖像裁剪成多張小圖像,并將沒有目標(biāo)物體的圖像剔除,擴充了海上搜救數(shù)據(jù)集,提高了小目標(biāo)的分辨率,而且還減少了計算量。最終提高了海上搜救小目標(biāo)檢測器的檢測速度和檢測準(zhǔn)確率。
1.2" 海浪上下文模塊
在海上搜救圖像中,遇難人員在水面露出的面積小,特征提取難,并且容易受到海浪反光、雨霧天氣等惡劣環(huán)境影響,導(dǎo)致特征提取變得更加困難。針對這一問題,本文提出了海浪上下文模塊,首次通過分析海浪的運動方向和強度來提取海浪上下文信息輔助海上搜救小目標(biāo)檢測,提高檢測精度。海浪上下文模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
海浪上下文模塊分別融合目標(biāo)周圍海浪的方向特征和強度特征作為有效局部背景上下文信息輔助海上搜救小目標(biāo)檢測,具體而言:
1) 將輸入特征[X]通過殘差網(wǎng)絡(luò)進行處理,將其分為四個部分。其中,前兩部分專注于提取海浪的方向特征,第三部分則致力于捕捉海浪的強度特征,剩余的一部分則保留原始輸入特征[X],以便在后續(xù)的步驟中將原始特征與海浪特征進行融合,豐富模型對于海浪特性的表征。
2) 采取并行處理的方式,同時提取海浪的方向特征和強度特征,這樣模型能夠更高效地關(guān)注海浪的方向信息和強度信息。
關(guān)于海浪的方向特征,海浪上下文模塊首先通過使用一個大小為1×3的卷積核對特征[X]進行水平卷積(Conv[X])操作。在進行水平卷積之前,將原始特征[X]的左右兩側(cè)各填充一列零,以確保在卷積后特征的尺寸大小保持不變。水平卷積操作的目的是計算目標(biāo)周圍各點梯度的水平分量,使模型能夠捕捉到目標(biāo)周圍海浪水平方向上的細微變化。類似地,使用一個大小為3×1的卷積核對特征[X]進行垂直卷積(Conv[Y])操作。在進行垂直卷積之前,對原始特征[X]的上下方分別填充一行零,以確保在卷積后特征的尺寸大小保持不變。這一操作的目的是計算目標(biāo)周圍各點梯度的垂直分量,使模型能夠精確地捕捉到海浪垂直方向上的微小變化。然后,通過對梯度水平分量和垂直分量進行反正切計算,并將反正切計算應(yīng)用于每個像素點,從而獲得每個像素點的梯度方向,即得到海浪的方向信息。在這里,海浪的方向以[x]軸正方向為0°,逆時針方向為正。其次,將計算得到的海浪方向映射到[[0,C)]的范圍內(nèi),其中[C]表示當(dāng)前通道數(shù)量。這一映射操作的目的是將連續(xù)的方向信息離散化,把海浪的方向信息轉(zhuǎn)化為離散的通道索引。最后,使用一個與特征[X]大小相同的矩陣來生成海浪方向的掩碼。具體而言,首先創(chuàng)建一個與特征[X]尺寸大小相同的全零矩陣,然后對該矩陣進行離散方向編碼。在編碼過程中,矩陣的每個通道分別代表一個離散化的方向。對于每個特征點,如果其離散方向信息與某個通道表示的方向相同,則將相應(yīng)位置標(biāo)記為1,否則標(biāo)記為0。通過這樣的操作,海浪上下文模塊成功獲取到了目標(biāo)周圍海浪的方向特征。
關(guān)于海浪的強度特征,海浪上下文模塊首先利用一個3×3大小的卷積核對特征[X]進行特征提取。通過這一卷積操作,模塊能夠捕捉到目標(biāo)周圍海浪的局部特征,以更好地理解海浪的強度變化。隨后,通過執(zhí)行全連接、Softmax等一系列操作,對提取的特征進行進一步處理,從而獲取到目標(biāo)周圍海浪的強度特征。
3) 將海浪的方向特征和強度特征進行融合。這一融合操作旨在獲取海浪在最可能方向下的強度信息,即待搜救目標(biāo)周圍最有效的海浪背景上下文信息。這樣模型能夠綜合考慮海浪的方向和強度分布,提供更為全面和準(zhǔn)確的海浪上下文信息。
4) 將待搜救目標(biāo)周圍最有效的海浪背景上下文信息與原始特征[X]進行疊加,增強原始特征,使其包含了更豐富和詳細的海浪背景上下文信息,這樣網(wǎng)絡(luò)能夠更準(zhǔn)確地理解目標(biāo)所處的海浪環(huán)境,最終提升海上搜救小目標(biāo)的檢測精度。
1.3" WC?YOLOv7?tiny網(wǎng)絡(luò)架構(gòu)
將本文設(shè)計的基于滑動窗口的圖像預(yù)處理模塊和海浪上下文模塊有機地整合到Y(jié)OLOv7?tiny網(wǎng)絡(luò)中。具體而言,基于滑動窗口的圖像預(yù)處理模塊被置于骨干網(wǎng)絡(luò)之前,以在輸入圖像上執(zhí)行預(yù)處理操作。同時,海浪上下文模塊則被放置在骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)之間,以確保海浪上下文信息能夠充分融入網(wǎng)絡(luò)中。這樣的整合架構(gòu)形成了海浪上下文信息補償小目標(biāo)檢測算法WC?YOLOv7?tiny,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
WC?YOLOv7?tiny的網(wǎng)絡(luò)結(jié)構(gòu)可以被分為四個主要部分,即輸入端、骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測頭。在輸入端,輸入圖像首先經(jīng)過基于滑動窗口的圖像預(yù)處理模塊進行滑動窗口裁剪,并歸一化到統(tǒng)一的大小。目的是通過局部感受野的選擇,提高小目標(biāo)在圖像中的分辨率?;瑒哟翱诓眉暨^程涵蓋了圖像的不同區(qū)域,允許網(wǎng)絡(luò)更加專注于小目標(biāo)的局部特征,從而為后續(xù)的處理步驟提供更詳細的信息,增強整體目標(biāo)檢測性能。
隨后,將裁剪后的圖片傳遞到骨干網(wǎng)絡(luò)進行基礎(chǔ)特征的提取,通過這一步驟,網(wǎng)絡(luò)能夠捕捉到圖像中的一般特征。再將骨干網(wǎng)絡(luò)提取到的特征傳遞給海浪上下文模塊,用于捕捉目標(biāo)周圍海浪的方向和強度特征,使網(wǎng)絡(luò)能夠更準(zhǔn)確地理解目標(biāo)所處環(huán)境中海浪的情況。
頸部網(wǎng)絡(luò)在這一設(shè)計中承擔(dān)了進一步處理骨干網(wǎng)絡(luò)提取的特征和海浪上下文模塊提取到的目標(biāo)周圍的海浪特征的任務(wù),通過自上而下的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)結(jié)構(gòu)和自下而上的路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PAN)結(jié)構(gòu),對深層網(wǎng)絡(luò)中豐富的語義信息和底層網(wǎng)絡(luò)中的位置信息以及海浪上下文模塊提取到的海浪上下文信息進行有效融合,有針對性地利用了海浪信息,以實現(xiàn)不同尺度特征信息的傳遞,提升網(wǎng)絡(luò)的多尺度預(yù)測能力。
最后,將融合好的特征信息傳遞給檢測頭,經(jīng)過RepConv模塊處理后生成目標(biāo)的邊界框并預(yù)測目標(biāo)類別,得到最終的預(yù)測結(jié)果。
綜合而言,WC?YOLOv7?tiny網(wǎng)絡(luò)在保留了YOLOv7?tiny的輕量和高效特性的同時,通過引入基于滑動窗口的圖像預(yù)處理模塊和海浪背景上下文模塊,使其具備了更強大的海浪環(huán)境感知能力。特別是在存在明顯海浪等復(fù)雜條件下,可以通過融合目標(biāo)周圍海浪的特征來增強海上搜救小目標(biāo)檢測精度。
2" 實驗與結(jié)果分析
2.1" 數(shù)據(jù)集
在著名海上搜救數(shù)據(jù)集SeaDronesSee v1[15](S?ODv1)和SeaDronesSee v2[16](S?ODv2)上測試WC?YOLOv7?tiny算法的效果。S?ODv1和S?ODv2是大規(guī)模的數(shù)據(jù)集,旨在實現(xiàn)海洋場景中使用無人機海上搜救系統(tǒng)。S?ODv1數(shù)據(jù)集共有5 630張圖像(訓(xùn)練集:2 975張,驗證集:859張,測試集:1 796張)和400 000個實例;S?ODv2包含14 227張RGB圖像(訓(xùn)練集:8 930張,驗證集:1 547張,測試集:3 750張)。數(shù)據(jù)集中的實例來自不同的高度和拍攝夾角,范圍為5~260 m和0°~90°,同時提供關(guān)于高度、拍攝夾角等其他元數(shù)據(jù)。本文實驗在訓(xùn)練集和驗證集上進行。
2.2" 實驗指標(biāo)
本文使用平均精度(mean Average Precision, mAP)來評估模型的性能,其中交并比(Intersection over Union, IoU)為0.5,并通過每秒幀數(shù)(Frames per Second, FPS)來衡量模型的檢測速度。在這里,AP和mAP的計算表達式是重要的評估指標(biāo)。
[AP=TP+TNTP+TN+FP+FN] (1)
[mAP=n=1Num(classes)AP(n)TP+TN+FP+FN]" " " (2)
式中:TP表示正確識別的正樣本數(shù)量;TN表示正確識別的負樣本數(shù)量;FP表示錯誤識別的負樣本數(shù)量;FN表示錯誤識別的正樣本數(shù)量[17]。
2.3" 實驗環(huán)境及參數(shù)
在WC?YOLOv7?tiny算法中,選擇PyTorch 1.9.1作為深度學(xué)習(xí)框架,并使用4塊NVIDIA GeForce RTX 3090 GPU,每塊GPU配備了大容量的24 GB顯存,CUDA版本為11.7。
為了在有限的訓(xùn)練輪數(shù)內(nèi)取得良好的效果,本文設(shè)定了訓(xùn)練輪數(shù)為200輪,批量大小為64,并將輸入圖像的大小設(shè)置為640×640。
本文將帶動量的隨機梯度下降法作為算法優(yōu)化器。并使用[L2]正則化,權(quán)重衰減設(shè)置為0.005。在學(xué)習(xí)率方面,本文使用預(yù)熱學(xué)習(xí)率策略,預(yù)熱學(xué)習(xí)率從一個較小的值開始逐漸增大,直至達到設(shè)定的初始學(xué)習(xí)率0.01。
2.4" 實驗結(jié)果
2.4.1" WC?YOLOv7?tiny算法在S?ODv1上的效果
為驗證本文提出方法對無人機海上搜救小目標(biāo)檢測的性能優(yōu)勢,將YOLOv7?tiny基準(zhǔn)算法、改進算法與相關(guān)領(lǐng)域具有代表性的網(wǎng)絡(luò)如YOLOv7、YOLOX?nano、Deformable?detr進行對比,實驗結(jié)果如表1所示。
從表1可以清晰地看出,相較于同等規(guī)格的模型,WC?YOLOv7?tiny算法展現(xiàn)出最高的平均精度值。值得注意的是,該平均精度值超過了參數(shù)量和計算量比WC?YOLOv7?tiny算法大得多的YOLOv7算法和Deformable?detr算法。WC?YOLOv7?tiny算法之所以能夠取得最高的平均精度值,主要原因在于其采用了滑動窗口裁剪方法對圖像進行處理,從而提高了小目標(biāo)的分辨率,使網(wǎng)絡(luò)更容易提取到小目標(biāo)的特征。此外,通過引入海浪上下文模塊,WC?YOLOv7?tiny算法能夠分析海浪的運動方向和強度等物理特性,獲取到精確的海浪上下文信息,從而增強了小目標(biāo)的特征,提高了海上搜救小目標(biāo)的檢測精度。
值得一提的是,引入這兩個模塊并沒有顯著降低檢測速度,使得WC?YOLOv7?tiny算法在海上搜救目標(biāo)檢測的需求下仍能夠滿足良好的檢測速度。綜合來看,WC?YOLOv7?tiny算法在無人機海上搜救圖像中展現(xiàn)出卓越的檢測能力,不僅在速度和精度方面表現(xiàn)出色,而且在綜合性能上明顯優(yōu)于其他算法。這進一步突顯了本文算法的顯著優(yōu)勢。
2.4.2" WC?YOLOv7?tiny算法在S?ODv2上的效果
為了全面驗證WC?YOLOv7?tiny算法的適用性和魯棒性,本文在更大的數(shù)據(jù)集S?ODv2上進行了詳細的對比實驗,實驗結(jié)果如表2所示。
根據(jù)實驗結(jié)果顯示,WC?YOLOv7?tiny在S?ODv2數(shù)據(jù)集上的平均精度實現(xiàn)了6.5%的提升,達到了87.81%。這一提升表明,在更為豐富的數(shù)據(jù)集環(huán)境中,本文算法仍然能夠更有效地提取待搜救目標(biāo)的特征,從而顯著提高了檢測準(zhǔn)確率。這個結(jié)果充分證實了本文改進方法在更復(fù)雜的數(shù)據(jù)集上表現(xiàn)出良好的適用性和魯棒性,同樣,這也再次印證了本文提出的算法在無人機海上搜救小目標(biāo)檢測方面的卓越性能。
2.4.3" 消融實驗結(jié)果
為了驗證在相同的實驗條件下,引入基于滑動窗口的圖像預(yù)處理模塊和海浪上下文模塊對YOLOv7?tiny算法的有效性,進行了消融實驗,實驗結(jié)果如表3所示。
表3的第一行表示了消融實驗的基準(zhǔn)結(jié)果,即在S?ODv1和S?ODv2數(shù)據(jù)集上使用YOLOv7?tiny算法得到的平均精度。第二行引入了基于滑動窗口的圖像預(yù)處理模塊,通過提高小目標(biāo)的分辨率,使網(wǎng)絡(luò)能夠更充分地提取小目標(biāo)的特征,從而顯著提升了檢測精度。第三行引入了海浪上下文模塊,使網(wǎng)絡(luò)能夠分析海浪的運動方向和強度等物理特性,獲取準(zhǔn)確的海浪上下文信息,增強了小目標(biāo)的特征,從而顯著提高了海上搜救小目標(biāo)的檢測精度。最后一行是同時添加了基于滑動窗口的圖像預(yù)處理模塊和海浪上下文模塊的結(jié)果,即本文設(shè)計的WC?YOLOv7?tiny算法??梢郧逦乜闯觯撍惴ňC合了兩個模塊的優(yōu)點,成功解決了海上搜救小目標(biāo)檢測中特征提取困難的問題,從而顯著提高了檢測精度。
2.4.4" 熱力圖結(jié)果
為了深入闡述所設(shè)計的WC?YOLOv7?tiny算法在提取目標(biāo)周圍海浪背景上下文信息方面的有效性,本文選擇采用Grad?CAM(Gradient?weighted Class Activation Mapping)算法[18]生成注意力熱力圖。在熱力圖中,通過增強待搜救目標(biāo)周圍區(qū)域的亮度來突顯關(guān)注點。淺色區(qū)域(顯示為高亮)表示該區(qū)域?qū)τ诖丫饶繕?biāo)識別的影響更為顯著。
在圖4中展示了YOLOv7?tiny算法和WC?YOLOv7?tiny算法生成的熱力圖。觀察圖4可以發(fā)現(xiàn),WC?YOLOv7?tiny算法在目標(biāo)周圍海浪區(qū)域表現(xiàn)出更為明顯的關(guān)注,進一步驗證了海浪上下文模塊對于提取目標(biāo)周圍海浪背景上下文信息的有效性。在圖4a)中展示的是原始圖像,圖4b)展示的是YOLOv7?tiny算法小目標(biāo)檢測層生成的熱力圖。從中可以清晰地觀察到,網(wǎng)絡(luò)對目標(biāo)周圍的海浪背景上下文信息關(guān)注較少,關(guān)注程度較低,更加注重高亮顯示圖像中的無關(guān)區(qū)域。在圖4c)中展示的是WC?YOLOv7?tiny算法小目標(biāo)檢測層的熱力圖??梢灾庇^地看到,網(wǎng)絡(luò)精準(zhǔn)地關(guān)注到了目標(biāo)周圍的海浪背景上下文信息,顯示為高亮狀態(tài)。這表明WC?YOLOv7?tiny算法能夠更加精準(zhǔn)地捕捉目標(biāo)周圍的海浪背景上下文信息,提高海上搜救小目標(biāo)檢測的精度,從而提升對海上落水人員的檢測準(zhǔn)確性。
3" 結(jié)" 語
本文針對海上搜救小目標(biāo)檢測特征提取難的問題,提出一種海浪上下文信息補償小目標(biāo)檢測算法。該算法首先通過滑動窗口裁剪,提高小目標(biāo)的分辨率,使小目標(biāo)的特征更加清晰;其次通過分析海浪的運動方向和強度,來提取海浪上下文信息輔助海上搜救小目標(biāo)檢測,提高檢測精度。在無人機海上搜救數(shù)據(jù)集SeaDronesSee上的實驗表明,本文提出的算法優(yōu)于基線算法YOLOv7?tiny,并且與其他先進方法相比綜合性能最好,能夠滿足實時性和準(zhǔn)確性的需求。在保證檢測精度提升的前提下,降低模型的參數(shù)量和計算量,是本文后續(xù)研究的重點。
注:本文通訊作者為李世寶。
參考文獻
[1] GA?SIENICA JóZKOWY J, KNAPIK M, CYGANEK B. An ensemble deep learning method with optimized weights for drone?based water rescue and surveillance [J]. Integrated computer?aided engineering, 2021, 28(3): 221?235.
[2] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464?7475.
[3] GE Z, LIU S T, WANG F, et al. YOLOX: Exceeding YOLO series in 2021 [EB/OL]. [2022?04?05]. https://arxiv.org/abs/2107.08430.
[4] ZHU X Z, SU W J, LU L W, et al. Deformable DETR: Defor?mable transformers for end?to?end object detection [EB/OL]. [2022?11?05]. https://arxiv.org/abs/2010.04159.
[5] REN S Q, HE K M, GIRSHICK R B, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137?1149.
[6] CHEN C Y, LIU M Y, TUZEL O, et al. R?CNN for small object detection [C]// 13th Asian Conference on Computer Vision. Heidelberg, Germany: Springer, 2016: 214?230.
[7] ZAGORUYKO S, LERER A, LIN T Y, et al. A multipath network for object detection [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1604.02135.
[8] CAI Z W, FAN Q F, FERIS R S, et al. A unified multi?scale deep convolutional neural network for fast object detection [C]// 14th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2016: 354?370.
[9] LI J N, WEI Y C, LIANG X D, et al. Attentive contexts for object detection [J]. IEEE transactions on multimedia, 2017, 19(5): 944?954.
[10] GIDARIS S, KOMODAKIS N. Object detection via a multi?region amp; semantic segmentation?aware CNN model [C]// 2015 IEEE International Conference on Computer Vision. New York: IEEE, 2015: 1134?1142.
[11] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1804.02767.
[12] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020?04?28]. https://arxiv.org/abs/2004.10934.
[13] 楊永剛,謝睿夫,龔澤川.改進YOLOv7?tiny的無人機目標(biāo)檢測算法[J].計算機工程與應(yīng)用,2024,60(6):121?129.
[14] 張光華,李聰發(fā),李鋼硬,等.基于改進YOLOv7?tiny的無人機航拍圖像小目標(biāo)檢測算法[J/OL].工程科學(xué)與技術(shù):1?14[2023?12?12].https://doi.org/10.15961/j.jsuese.202300593.
[15] VARGA L A, KIEFER B, MESSMER M, et al. SeaDronesSee: A maritime benchmark for detecting humans in open water [C]// 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). New York: IEEE, 2022: 3686?3696.
[16] KIEFER B, KRISTAN M, PERS J, et al. 1st workshop on maritime computer vision (MaCVi) 2023: Challenge results [C]// IEEE/CVF Winter Conference on Applications of Computer Vision Workshops. New York: IEEE, 2023: 265?302.
[17] 劉朋飛,周海,馮水春,等.基于改進SSD的多尺度低空無人機檢測[J].計算機工程與設(shè)計,2021,42(11):3277?3285.
[18] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad?CAM: Visual explanations from deep networks via gradient?based localization [J]. International journal of computer vision, 2020, 128(2): 336?359.