摘" 要: 針對無人機在獲取海上艦船目標影像時面臨的實時性與清晰度之間的矛盾,提出一種影像壓縮模糊重建方法。該方法利用改進的YOLOv8檢測模型和Real?ESRGAN網(wǎng)絡(luò),通過數(shù)據(jù)集構(gòu)建、網(wǎng)絡(luò)訓練調(diào)試和部署運用等步驟,實現(xiàn)了在有限帶寬和計算資源環(huán)境下地面端高質(zhì)量艦船目標影像的實時重建。首先利用改進的YOLOv8模型對影像中艦船目標進行精準檢測和定位,隨后通過Real?ESRGAN網(wǎng)絡(luò)對壓縮及模糊影像進行重建,以恢復影像的高分辨率和細節(jié)信息。實驗結(jié)果表明,該方法不僅顯著提升了影像的清晰度和檢測準確性,還大幅減少了帶寬消耗,滿足了無人機艦船識別的高實時性要求,且在資源受限的情況下表現(xiàn)尤為突出。為無人機在海上艦船目標監(jiān)測領(lǐng)域提供了一種有效的解決方案,不僅提高了無人機的監(jiān)測和識別能力,也為進一步推進無人機在海洋監(jiān)測中的廣泛應(yīng)用奠定了基礎(chǔ)。
關(guān)鍵詞: 無人機影像; 海面艦船; 雙向特征融合模型; Real?ESRGAN網(wǎng)絡(luò); 改進的YOLOv8檢測模型; 海上艦船目標監(jiān)測
中圖分類號: TN911.73?34; TP751" " " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)01?0017?06
Super?resolution reconstruction of UAV maritime vessel target images
SUN Weiwei1, CUI Yaqi1, 2, 3, ZHANG Shaoqing2, 3, XIA Shutao1
(1. Naval Aeronautical University, Yantai 264000, China;
2. Shenyang Aircraft Design and Research Institute of Aviation Industry of China, Shenyang 110035, China;
3. Northwestern Polytechnical University, Xi’an 710072, China)
Abstract: A method for compressive and blurry image reconstruction has been proposed to get rid of the conflict between real?time requirements and image clarity during the acquisition of maritime vessel images by unmanned aerial vehicles (UAVs). By utilizing an improved YOLOv8 detection model and Real?ESRGAN network, this method achieves real?time reconstruction of high?quality vessel images at the ground station under limited bandwidth and computational resource constraints with the steps of dataset construction, network training, debugging and deployment. Initially, the improved YOLOv8 model is used for precise detection and localization of vessel within the images. Subsequently, the Real?ESRGAN network is used to reconstruct the compressive and blurry images to restore high?resolution and details of the image. Experimental results indicate that the method enhances image clarity and detection accuracy significantly while greatly reducing bandwidth consumption, meeting the high real?time requirements of UAV?based vessel recognition, particularly in resource?constrained scenarios. This method provides an effective solution for UAVs in the field of maritime vessel monitoring, enhancing their capabilities for surveillance and identification, and laying the groundwork for the broader application of UAVs in marine monitoring.
Keywords: UAV image; surface vessel; bidirectional feature fusion model; Real?ESRGAN network; improved YOLOv8 detection model; monitoring of maritime vessel target
0" 引" 言
無人駕駛飛機在民用和軍事應(yīng)用中都承擔著重要的任務(wù),為有效支撐海上艦船目標發(fā)現(xiàn)識別任務(wù),要求無人機盡可能遠地獲取艦船目標高清影像[1]。然而由于通信帶寬的限制,地面站僅能獲取壓縮后的模糊影像[2],無法獲取高清無損影像,嚴重影響地面站影像分析判讀工作,海上目標檢測識別作為無人機的重要應(yīng)用方向,實現(xiàn)無人機海上艦船目標影像壓縮模糊重建需求迫切。
近年來,深度學習技術(shù)在計算機視覺領(lǐng)域取得了令人矚目的進展,特別是在圖像超分辨率重建這一挑戰(zhàn)性的任務(wù)上。超分辨率重建旨在從低分辨率圖像中恢復出高分辨率圖像,這一過程對于改善圖像質(zhì)量、提升視覺體驗以及滿足日益增長的圖像處理需求至關(guān)重要[3],深度學習算法因其強大的特征學習能力而在這方面發(fā)揮了重要作用。文獻[4?5]提出的SRCNN算法是早期將深度學習應(yīng)用于超分辨率重建的代表作之一,SRCNN通過使用深層卷積網(wǎng)絡(luò)和空間金字塔池化技術(shù),有效地學習低分辨率圖像到高分辨率圖像的映射[6]。文獻[7]進一步推進了這一領(lǐng)域的研究,提出了VDSR算法。VDSR采用了非常深的網(wǎng)絡(luò)結(jié)構(gòu),通過學習大量的樣本,能夠在圖像重建中恢復更多的細節(jié)和紋理信息[8]。文獻[9]提出的EDSR算法則是在網(wǎng)絡(luò)結(jié)構(gòu)上的進一步創(chuàng)新。EDSR使用了高效的殘差網(wǎng)絡(luò)結(jié)構(gòu),能夠在網(wǎng)絡(luò)較深時仍保持梯度的有效性,從而實現(xiàn)更高質(zhì)量的圖像重建[10]。文獻[11]提出的GAN算法,不僅在圖像生成領(lǐng)域引起了革命,也被應(yīng)用于超分辨率重建。GAN通過訓練一個生成器和判別器之間的對抗性網(wǎng)絡(luò),能夠生成非常逼真的高分辨率圖像。
由于真實世界中很少存在成對的高低分辨率影像,現(xiàn)有方法主要通過對高分辨率影像進行退化以生成低分辨率影像,基于原始影像和退化影像形成數(shù)據(jù)集進行訓練。數(shù)據(jù)集中低分辨率影像對高清影像進行退化獲取,具體采用例如模糊、下采樣、噪聲和JPEG壓縮等方法,但真實低分辨率影像退化更加復雜和多樣,簡單的退化組合難以模擬真實數(shù)據(jù),造成訓練的模型泛化性不佳。由于無人機對海探測飛行過程中即可獲取實時回傳的低分辨率壓縮影像,也可事后獲取高分辨無損影像,因此可以綜合運用低分辨率壓縮影像和高分辨無損影像進行數(shù)據(jù)集構(gòu)建,以提高模型泛化性能。由于數(shù)據(jù)集構(gòu)建方式不同,導致現(xiàn)有方法難以直接應(yīng)用于無人機圖像超分辨率重建,需要進行優(yōu)化改進。
本文提出了一種適用于無人機海上目標探測的超分辨率重建技術(shù),算法流程圖如圖1所示。首先使用改進YOLOv8目標檢測網(wǎng)絡(luò)對包含地物目標的原始影像進行快速篩選,準確地篩選出所有包含目標的圖像幀,并經(jīng)人工確認,形成海面艦船目標數(shù)據(jù)集;進一步,利用海面艦船目標數(shù)據(jù)集訓練超分辨率Real?ESRGAN網(wǎng)絡(luò),將低分辨率圖像轉(zhuǎn)換為高清晰度的超分辨率圖像;最終,部署由YOLOv8和Real?ESRGAN聯(lián)合構(gòu)成的超分辨率重建網(wǎng)絡(luò)至無人機地面控制端,實現(xiàn)實時壓縮影像到高分辨率影像的轉(zhuǎn)換。
1" 艦船目標數(shù)據(jù)集構(gòu)建
無人機執(zhí)行飛行任務(wù),實時對地物目標進行拍攝。收集無人機多次任務(wù)數(shù)據(jù),包括無人機實時回傳的低分辨壓縮影像[X]和飛行結(jié)束卸載的高分辨無損影像[Z]。對無人機視頻影像數(shù)據(jù)利用改進的YOLOv8[12]檢測模型進行目標檢測處理,構(gòu)建生成艦船目標數(shù)據(jù)集。改進的YOLOv8檢測模型整體框架如圖2所示。整個網(wǎng)絡(luò)由三部分組成:特征提取(Backbone)、特征融合(Neck)、檢測頭(Head)。在YOLOv8基礎(chǔ)上采用雙向特征融合和注意力機制進行特征融合。
1.1" 特征提取網(wǎng)絡(luò)
特征提取網(wǎng)絡(luò)(Backbone)采用Darknet?53模型[13]。該模型是YOLO目標檢測系統(tǒng)中的一款網(wǎng)絡(luò)結(jié)構(gòu),由文獻[14]設(shè)計。Darknet?53在設(shè)計上注重于速度與性能的平衡,相比于VGG16,它的層數(shù)較少,但每個卷積層通常會使用更大的卷積核(如7×7或5×5),并且在某些層之間加入殘差連接(Residual Connection),以幫助信息在不同層次間更好地流動。網(wǎng)絡(luò)結(jié)構(gòu)詳細信息如圖2右側(cè)所示,由Conv卷積模塊和Residual Block殘差塊串行疊加4次構(gòu)成。
研究結(jié)果表明,Darknet?53因為參數(shù)少,計算效率較高,適合用于需要實時處理大量圖片的目標檢測任務(wù)。
1.2" 特征融合網(wǎng)絡(luò)
1.2.1" 雙向特征融合模型
特征融合網(wǎng)絡(luò)(Neck)采用雙向特征融合模型。CNN在特征提取過程中采用了一種層次化的方法。通常情況下,隨著網(wǎng)絡(luò)層數(shù)的增加,每個特征點能夠覆蓋的區(qū)域(即感受野)也隨之增大,從而可以提取出更高級別的抽象特征和更豐富的語義信息。相反,淺層特征更多地關(guān)注于捕獲一些較為簡單的細節(jié),例如輪廓和紋理。為了克服低層特征在語義信息方面的缺陷,采用雙向特征融合模塊,該模塊通過一種特殊的聚合和重用機制,有效地補充了高層特征中的信息。
具體的融合過程如圖3所示,將高層特征的語義信息與低層特征的細節(jié)信息進行有效整合,以提高目標檢測的準確性和效率。
1.2.2" 注意力機制
注意力機制通過評估特征的重要性對特征進行加權(quán),以此來優(yōu)化特征的表示。本文采用了兩種注意力機制,即通道注意力機制和空間注意力機制。這些機制的集成處理流程如圖4所示。
2" 基于Real?ESRGAN的影像重建
2.1" 生成網(wǎng)絡(luò)
Real?ESRGAN模型生成網(wǎng)絡(luò)是基于ESRGAN生成網(wǎng)絡(luò)來實現(xiàn)的,輸入的是低分辨壓縮影像,經(jīng)過生成網(wǎng)絡(luò)的處理,得到一個4倍分辨率放大的圖片。在處理2倍和1倍的放大時,通過pixel?unshuffle將影像尺寸進行縮小,影像的通道數(shù)會有所增加。將原來的像素分配到低分辨壓縮影像中,從而得到一個影像通道數(shù)增多,但分辨率降低的新影像。然后,這個處理后的圖片被輸入到生成網(wǎng)絡(luò)中(如圖5所示),經(jīng)過網(wǎng)絡(luò)的處理,可以得到一個2倍或1倍分辨率增大的圖片[y]。
2.2" 判別網(wǎng)絡(luò)
Real?ESRGAN模型的判別網(wǎng)絡(luò)采用的是U?Net網(wǎng)絡(luò)[15],由編碼下采樣部分和解碼上采樣部分組成,以區(qū)分生成的影像和真實的影像。輸入是生成的影像[y]或卸載的高分辨無損影像[z],輸出是對應(yīng)的影像是真實影像還是生成影像的概率。當概率越接近0,影像被認為是生成的,當概率越接近1,影像被認為是真實的。
2.3" 損失函數(shù)
Real?ESRGAN模型采用的損失函數(shù)由感知損失(Perceptual Loss)、對抗損失(GAN Loss)和像素級別損失(Pixel Loss)組成,具體表達式為:
[LG=Lpercep+λLRaG+ηL1] (1)
式中:[Lpercep]表示感知損失;[LRaG]表示對抗損失;[L1]表示像素級別損失;[λ]、[η]表示對抗損失和內(nèi)容損失的系數(shù)。
Real?ESRGAN模型進一步優(yōu)化了這一感知損失,通過利用激活層之前的特征進行計算,具體如式(2)所示。這種做法顯著增強了重建圖像在細節(jié)上的表現(xiàn),使得圖像更加接近原始的高質(zhì)量視覺內(nèi)容。
[Lpercep=?xi-?yi1] (2)
[LRaG]是生成器所產(chǎn)生的圖片與真實圖片之間的差異,即[Dxi]判別網(wǎng)絡(luò)的輸出,是一個概率值,具體表達式如下:
[LRaG=-yrilogDxi-1-yrilog1-Dxi" " =-yrilogDxi] (3)
[L1]為像素級別損失,具體表達式如下:
[L1=meanGxi-yi1] (4)
3" 實驗結(jié)果分析
3.1" 數(shù)據(jù)集
按照無人機視角自建艦船目標數(shù)據(jù)集,含680張樣本,具體如圖6所示。
3.2" 初始無人機影像重建
首先將影像當作一個整體,進行超分辨處理,具體過程如圖7所示。
通過圖7可以看出,對影像進行整體重建,整體分辨率有所改善,但是目標船體的分辨率并未達到預期的效果。
3.3" 無人機艦船目標影像重建
先對影像中的船體進行目標檢測,再對目標船體進行超分辨率處理,具體過程如圖8所示。
通過圖8可以看出,先對船體目標進行檢測,再進行高分辨重建的艦船細節(jié)明顯高于對影像的整體重建。
4" 結(jié)" 語
本文針對無人機海上艦船目標影像獲取面臨的實時與清晰之間的矛盾,考慮到現(xiàn)有方法由于數(shù)據(jù)集構(gòu)建方式不同,難以直接應(yīng)用于無人機圖像超分辨率重建,基于改進的YOLOv8檢測模型和Real?ESRGAN網(wǎng)絡(luò),提出了一種適用于無人機影像的壓縮模糊重建方法。
實驗結(jié)果顯示,本文處理方法可顯著改善艦船目標影像清晰度。后續(xù)計劃結(jié)合實際裝備開展算法部署應(yīng)用研究。
注:本文通訊作者為崔亞奇。
參考文獻
[1] 徐曉婷,滕杰.無人機偵察圖像實時展示方法研究[J].科技創(chuàng)新與應(yīng)用,2024,14(5):137?140.
[2] 王鈺寧,劉曉霞,胡云冰.基于能效感知的無人機協(xié)助的視頻數(shù)據(jù)傳輸[J].彈箭與制導學報,2021,41(6):7?11.
[3] LI H B, JIA Y Y, ZHU H Z, et al. Multi?level feature extraction and reconstruction for 3D MRI image super?resolution [J]. Computers in biology and medicine, 2024, 171: 10815.
[4] DONG C, LOY C C, HE K M, et al. Image super?resolution using deep convolutional networks [EB/OL]. [2024?09?18]. http://arxiv.org/abs/1501.00092.
[5] LIU D L, ZHAO H N, CHEN B T, et al. THz time?domain spectral imaging enhancement based on an MLP?SRCNN composite network [J]. Optics and lasers in engineering, 2024, 176: 108101.
[6] LIU D L, ZHEN Z, DU Y F, et al. Super?resolution stress imaging for terahertz?elastic based on SRCNN [J]. Optics and photonics journal, 2022, 12(11): 253?268.
[7] KIM J, LEE J K, LEE K M. Accurate image super?resolution using very deep convolutional networks [EB/OL]. [2015?11?14]. https://arxiv.org/abs/1511.04587v1.
[8] CHEN X. Efficient?VDSR network for super?resolution [C]// Proceedings of 4th International Conference on Computer Engi?neering, Information Science and Internet Technology. [S.l.: s.n.], 2022: 9.
[9] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super?resolution [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2017: 1132?1140.
[10] JENEFA A, KURIAKOSE M B K, NAVEEN V E, et al. EDSR: Empowering super?resolution algorithms with high?quality DIV2K images [J]. Intelligent decision technologies, 2023, 17(4): 1249?1263.
[11] GOODFELLOW I J, POUGET?ABADIE J, MIRZA M. Generative adversarial nets [C]// Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014. [S.l.: s.n.], 2014: 2672?2680.
[12] 張建東.融合深度監(jiān)督與改進YOLOv8的海上目標檢測[J].南京信息工程大學學報,2024,16(4):482?489.
[13] 李冠,龐玉琳,田坤.基于YOLO和ConvLSTM混合神經(jīng)網(wǎng)絡(luò)的暴力視頻檢測[J].計算機應(yīng)用與軟件,2023,40(11):233?240.
[14] REDMON J, DIVVALA K S, GIRSHICK B R, et al. You only look once: Unified, real?time object detection [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1506.02640.
[15] WANG X T, XIE L B, DONG C, et al. Real?ESRGAN: Training real?world blind super?resolution with pure synthetic data [EB/OL]. [2024?09?18]. https://arxiv.org/abs/2107.10833.
基金項目:國家自然科學基金項目(62171453)
作者簡介:孫煒瑋(1989—),女,山東棲霞人,碩士研究生,講師,研究方向為圖像處理、信息融合。
崔亞奇(1987—),男,河南西平人,博士研究生,副教授,研究方向為航跡關(guān)聯(lián)、信息融合。