李志朋,趙長明,張海洋,張子龍,吳 璇
(1.光電成像技術(shù)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100081;2.北京理工大學(xué) 光電學(xué)院,北京 100081)
隨著現(xiàn)代航空技術(shù)的發(fā)展與電子通信水平的提高,全球無人機(jī)數(shù)量飛速增長,在軍事、民用領(lǐng)域都有著較為廣泛的應(yīng)用[1]。由于執(zhí)行任務(wù)的飛行無人機(jī)具有低空、慢速、小型的特點(diǎn),因此通常被稱作“低慢小”目標(biāo)[2],同時也在嚴(yán)重威脅著人身安全與設(shè)施安全。近年來對非合作低慢小目標(biāo)的檢測與識別取得了較多的關(guān)注,在該場景下,如何快速捕獲視場中的疑似目標(biāo)并做出準(zhǔn)確的識別成為應(yīng)用的關(guān)鍵。目前無人機(jī)的檢測主要分為雷達(dá)探測[3-4]、光電探測[5-6]、射頻探測[7]與聲波探測[8]。由于無人機(jī)圖像信息較為充分可靠,因此常被作為主要判定依據(jù)。對于遠(yuǎn)距離低慢小目標(biāo),其所呈數(shù)字圖像中的像素數(shù)目極為有限,目標(biāo)特征嚴(yán)重退化,輪廓特征不明顯,且容易受到復(fù)雜環(huán)境的影響,因此做出準(zhǔn)確的識別變得非常困難,常常與飛鳥、飛機(jī)或漂浮物等難以區(qū)分,造成誤判或虛警[9]。針對以上問題,圖像超分辨技術(shù)可以利用目標(biāo)輪廓的先驗(yàn)知識,在低分辨率的區(qū)塊中恢復(fù)出目標(biāo)的高分辨率細(xì)節(jié)特征,比如李有為等在識別自然場景的交通標(biāo)志等小目標(biāo)時使用了SRGAN(super-resolution generative adversarial network)網(wǎng)絡(luò)[10],提高了小目標(biāo)檢測的精度,mAP(mean average precision)提高了3.6%;黃露等在壓縮視頻超分辨率重建中使用CVSRnet(compressed video superresolution network)算法[11],提高了車牌識別的精度。圖像超分辨率重建是指通過單幅或者多幅低分辨率圖像重建得到相同場景的高分辨率圖像。無人機(jī)探測超分辨重建屬于單圖超分辨,以視頻中截取的單幀圖片作為輸入?;贑NN的圖像超分辨率重建方法現(xiàn)今已成為超分辨任務(wù)的優(yōu)選方案,它能充分利用先驗(yàn)知識,對圖像細(xì)節(jié)進(jìn)行高質(zhì)量的恢復(fù)。隨著SRCNN(super-resolution convolutional neural network)和FSRCNN分 別 在2014、2016年的提出[12-13],CNN在圖像超分辨率領(lǐng)域的應(yīng)用被大量研究,所涉及的算法主要有兩大類型:首先是基于全卷積神經(jīng)網(wǎng)絡(luò)的直接超分辨率算法,該類算法訓(xùn)練較為簡單,對樣本量的需求不太大,但由于損失函數(shù)多為像素級的MSE(mean square error)函數(shù),恢復(fù)出的高分辨率圖像往往較為平滑,難以在細(xì)節(jié)紋理較多的圖像中適用;除此之外,利用對抗生成網(wǎng)絡(luò)成為另一種常用的實(shí)現(xiàn)路徑,經(jīng)典的代表有SRGAN[14]、ESRGAN(enhanced super-resolution generative adversarial networks)[15],該網(wǎng)絡(luò)主要改變了網(wǎng)絡(luò)的訓(xùn)練方式和損失函數(shù)類型,在訓(xùn)練方式上采用對抗形式生成的超分辨率圖像更加清晰,具有較好的視覺效果,但GAN對噪聲的處理較弱,對樣本的需求量高,且生成器的參數(shù)量和密集程度往往較高,無法滿足無人機(jī)識別實(shí)時性的要求。
為了解決圖像超分辨率的精度與推理速度的矛盾,在FSRCNN基礎(chǔ)上提出一種新的網(wǎng)絡(luò)架構(gòu),即多尺度融合圖像超分辨重建MFSRCNN(multiscale fusion super-resolution convolutional neural networks)。低分辨率圖像同時進(jìn)行上下采樣得到多分辨率圖像以保留更多的信息,并將多分辨率圖像子網(wǎng)絡(luò)并行連接,在整個過程中,通過在并行的相鄰多分辨率子網(wǎng)絡(luò)間多次交換信息進(jìn)行多尺度的重復(fù)融合。與現(xiàn)有的廣泛超分辨率重建的網(wǎng)絡(luò)相比,MFSRCNN有兩個好處:1)采用并行連接高分辨率和低分辨率子網(wǎng)的方式,重建過程中減少各分辨率圖像信息的丟失,能夠有效保留無人機(jī)的信息,有利于提高重建圖像分辨率;2)采用重復(fù)的多尺度融合的方式,子網(wǎng)絡(luò)信息不斷交流融合,不同頻率的圖像特征通過整合,能夠兼容低頻成分和高頻成分,對圖像的細(xì)節(jié)和輪廓特征都具備較好的復(fù)原效果。經(jīng)無人機(jī)真實(shí)數(shù)據(jù)驗(yàn)證,本文所提出的MFSRCNN算法在圖像超分辨率重建效果上有了一定的提高,并利用YOLO驗(yàn)證了MFSRCNN算法在實(shí)際無人機(jī)探測中的可行性。
MFSRCNN算法通過卷積網(wǎng)絡(luò)擬合圖像特征提取、非線性映射、多尺度融合以及最終的重建,最后輸出高分辨率圖像結(jié)果,是在借鑒FSRCNN算法的特征提取與非線性映射思想基礎(chǔ)上,結(jié)合反復(fù)的多尺度融合設(shè)計得到的模型。
如圖1所示,F(xiàn)SRCNN模型是一種基于SRCNN改進(jìn)的單一圖像的快速超分辨率重建卷積神經(jīng)網(wǎng)絡(luò),而SRCNN網(wǎng)絡(luò)結(jié)構(gòu)十分簡單,感受野比較小,提取的是非常局部的特征,細(xì)節(jié)無法恢復(fù)出來。
圖1 FSRCNN模型以及與SRCNN的模型對比圖Fig.1 Model comparison diagram of FSRCNN and SRCNN
FSRCNN在網(wǎng)絡(luò)末尾采用反卷積層用于生成最終的超分辨率圖像,減少了運(yùn)算量。在網(wǎng)絡(luò)結(jié)構(gòu)上使用更多的卷積層與更小的卷積核來改變特征維數(shù),在提升重建速度的同時保證圖像重建質(zhì)量[16]。FSRCNN重建速度快,但對于無人機(jī)這種較小目標(biāo)的圖像重建效果有限。FSRCNN中特征提取與非線性映射過程對于提高網(wǎng)絡(luò)的運(yùn)算速度是十分有啟發(fā)性的,MFSRCNN算法同樣采用更多的卷積層與更小的卷積核進(jìn)行特征提取與非線性映射。
針對無人機(jī)圖像目標(biāo)較小、特征不明顯的問題,基于FSRCNN設(shè)計了一個包含4個子網(wǎng)絡(luò)并行的網(wǎng)絡(luò)結(jié)構(gòu),見圖2。
圖2 多尺度融合超分辨率重建算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of multi-scale fusion super-resolution reconstruction algorithm
網(wǎng)絡(luò)結(jié)構(gòu)以4個不同分辨率的分支為主,低分辨率圖像經(jīng)過4×、2×、1×和0.5×變換后分別進(jìn)行非線性變換,并將不同分辨率的feature map進(jìn)行concatenate運(yùn)算,用以融合不同分辨率特征。在特征融合階段,不同頻率的圖像特征能夠得到較好的整合,使其能夠兼容低頻成分和高頻成分,對圖像的細(xì)節(jié)和輪廓特征都具備較好的復(fù)原效果。
1.2.1 圖像處理與特征提取
低分辨率圖像到高分辨率圖像,需要進(jìn)行上采樣。MFSRCNN上采樣類似于FSRCNN,全部采用反卷積操作,增加感受野,改善圖像質(zhì)量,將重建過程轉(zhuǎn)化為端到端的自主學(xué)習(xí)過程[17]。
通過卷積與反卷積對LR(low resolution)圖像(100×100像素)進(jìn)行upsampling與subsampled得到4種分辨率大小的特征圖(400×400像素、200×200像素、100×100像素、50×50像素),作為4個并行的分支輸入。并行網(wǎng)絡(luò)從上到下依次命名為子網(wǎng)絡(luò)1、子網(wǎng)絡(luò)2、子網(wǎng)絡(luò)3和子網(wǎng)絡(luò)4。卷積在改變圖像大小的同時進(jìn)行4個尺度的特征提取。上采樣過程中的反卷積在upsampling大于2時均采用多個串行反卷積(步長為2),具體過程見圖3。
圖3 圖像處理與特征提取結(jié)構(gòu)圖Fig.3 Structure diagram of image processing and feature extraction
此網(wǎng)絡(luò)結(jié)構(gòu)中p取168,q取36,m取12。以子網(wǎng)絡(luò)1為例,特征提取共168個卷積核,圖4是前10個卷積核進(jìn)行上采樣與特征提取的結(jié)果。逆卷積后的圖像放大到400×400像素,不同的卷積核提取不同的特征,某些卷積核對無人機(jī)輪廓較為敏感,例如卷積核1、7。某些卷積核對無人機(jī)內(nèi)部特征比如4、5較為敏感。168個卷積核共同從輪廓、色彩、細(xì)節(jié)等方面提取無人機(jī)特征。
圖4 子網(wǎng)絡(luò)1中特征提取部分卷積核結(jié)果Fig.4 Partial convolution kernel results of feature extraction in subnetwork 1
1.2.2 非線性變換
以FSRCNN非線性變換為基礎(chǔ),通過1×1的卷積核進(jìn)行降維,將維度由p降到q(p>>q),用于減少運(yùn)算量;再經(jīng)過N(N=2)個小的3×3的卷積層串聯(lián)進(jìn)行特征映射,卷積核的數(shù)目為q。以上操作在4個子網(wǎng)絡(luò)上并行操作,如圖5所示。
圖5 非線性變換結(jié)構(gòu)圖Fig.5 Structure diagram of non-linear transformation
1.2.3 多尺度融合
多尺度融合是將不同尺度的特征圖進(jìn)行融合,增強(qiáng)圖像細(xì)節(jié),有利于提高超分辨率重建精度[18]。直接將不同分辨率的圖像輸入不同的子網(wǎng)絡(luò)中,再進(jìn)行特征融合,具體融合步驟見圖6。
圖6 多尺度融合示意圖Fig.6 Schematic diagram of multi-scale fusion
如圖6所示,不同子網(wǎng)絡(luò)的特征圖,分別做上采樣與下采樣調(diào)整到相鄰子網(wǎng)絡(luò)的特征圖大小。每個子網(wǎng)絡(luò)接收來自相鄰并行子網(wǎng)絡(luò)的信息進(jìn)行融合。采用多次的特征融合,使子網(wǎng)絡(luò)信息不斷的交流融合,有利于超分辨率重建的目標(biāo)細(xì)節(jié)特征提取。
圖7為多尺度融合的過程,MFSRCNN相鄰分辨率之間的feature map通過concatenate運(yùn)算進(jìn)行多尺度融合。以200×200像素 feature map為例,分別做卷積與逆卷積得到100×100像素與400×400像素的feature map,并與原100×100像素與400×400像素的feature map進(jìn)行concatenate運(yùn)算,得到對應(yīng)尺度的融合結(jié)果。
圖7 多尺度融合結(jié)構(gòu)圖Fig.7 Structure diagram of multi-scale fusion
1.2.4 圖像重建
圖像重建過程如圖8所示,將4個并行子網(wǎng)絡(luò)的特征融合結(jié)果分別進(jìn)行特征提取,并通過1×1的卷積核進(jìn)行擴(kuò)充維度(擴(kuò)充到p)解決低維度特征圖的重建效果不好的問題。將4個并行子網(wǎng)絡(luò)全部上采樣到目標(biāo)尺寸(400×400像素)進(jìn)行特征融合并進(jìn)行特征提取,最終得到3通道的超分辨率圖像。
圖8 圖像重建結(jié)構(gòu)圖Fig.8 Structure diagram of image reconstruction
融合后的特征圖中包含來自4個網(wǎng)絡(luò)分支的3通道特征圖,融合結(jié)果切片后得到特征圖如圖9。
圖9 特征融合結(jié)果特征圖Fig.9 Feature diagram of feature fusion results
融合結(jié)果中子網(wǎng)絡(luò)1中的特征圖圖像輪廓更加清晰,細(xì)節(jié)比較豐富,含有較多的細(xì)節(jié)與輪廓信息,而網(wǎng)絡(luò)的原始輸入越小,其輸出含有的輪廓與細(xì)節(jié)特征越少,低頻信息越豐富。融合后的圖像能夠有效兼容高頻信息與低頻信息。圖10是12個卷積核特征提取的灰度圖。有些卷積核提取輪廓信息等高頻信息,例如卷積核9,有些卷積核提取無人機(jī)內(nèi)部(不包括紋理特征)的低頻信息,例如卷積核1、2等。
圖10 特征提取結(jié)果特征圖Fig.10 Feature diagram of feature extraction results
在卷積層(反卷積除外)之后均接PRelu函數(shù)進(jìn)行激活,加速訓(xùn)練過程,同時將FSRCNN中大的卷積核全部替換成多個3×3的小卷積核,保證重建質(zhì)量。網(wǎng)絡(luò)中全部采用零填充進(jìn)行圖像信息的恢復(fù)避免截斷誤差。卷積層中權(quán)值w采用Xavier初始化,反卷積層中采用正態(tài)分布初始化,參數(shù)b全部初始化為0。
1.3.1 實(shí)驗(yàn)數(shù)據(jù)與硬件設(shè)置
常用的數(shù)據(jù)集沒有包含低慢小無人機(jī)的數(shù)據(jù)集,本文采用的數(shù)據(jù)樣本均為實(shí)驗(yàn)獲取。樣本原始圖像大小為1 920×1 080像素,傳感器為對角線8.467 mm(2/3英寸)的CMOS,焦距為8.1 mm~310 mm(光圈F1.8~F5.6)。樣本數(shù)據(jù)如圖11所示。
圖11 實(shí)驗(yàn)數(shù)據(jù)示例Fig.11 Example of experimental data
實(shí)驗(yàn)采集樣本數(shù)量有限,而現(xiàn)有數(shù)據(jù)集中很少有無人機(jī)的樣本,故采用數(shù)據(jù)增強(qiáng)的方式擴(kuò)充訓(xùn)練樣本集。數(shù)據(jù)集增強(qiáng)可以減少網(wǎng)絡(luò)的過擬合現(xiàn)象,通過對訓(xùn)練圖片進(jìn)行變換可以得到泛化能力更強(qiáng)的網(wǎng)絡(luò),更好的適應(yīng)應(yīng)用場景[19]。通過仿射變換、伽馬變換以及一些裁剪工作,對無人機(jī)原始樣本進(jìn)行了數(shù)據(jù)集擴(kuò)充,最后得到大約1 650個包含無人機(jī)的樣本數(shù)據(jù)。
數(shù)據(jù)增強(qiáng)后,無人機(jī)數(shù)據(jù)樣本依然有限。采用遷移學(xué)習(xí)的方式進(jìn)行訓(xùn)練,先通過MFSRCNN網(wǎng)絡(luò)對COCO數(shù)據(jù)集進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練模型,提高模型的特征提取能力,并有效地防止過擬合現(xiàn)象[20]。通過fine-tune訓(xùn)練無人機(jī)數(shù)據(jù)實(shí)現(xiàn)無人機(jī)圖像的超分辨率重建。
1.3.2 訓(xùn)練過程
目前超分辨重建領(lǐng)域常用的損失函數(shù)是Perceptual Loss與MSE。Perceptual Loss是將真實(shí)圖片卷積得到的feature與生成圖片卷積得到的feature作比較,使得高層信息(內(nèi)容和全局結(jié)構(gòu))接近。網(wǎng)絡(luò)訓(xùn)練速度快,在GAN中收斂效果好,具有高頻細(xì)節(jié)信息[21]。MSE是目標(biāo)變量與預(yù)測值之間距離平方之和,MSE loss雖難以避免細(xì)節(jié)上的模糊,但依然能得到不錯的超分辨率結(jié)果。對于非GAN網(wǎng)絡(luò),MSE更為合適。故本算法采用MSE作為loss進(jìn)行訓(xùn)練,并采用Adam優(yōu)化算法。
無人機(jī)的輸入數(shù)據(jù)為100×100像素,輸出超分辨率大小為400×400像素,訓(xùn)練集與測試集中圖片數(shù)量比例為4∶1。batch設(shè)置為8,初始學(xué)習(xí)率設(shè)置為0.000 1,并且在訓(xùn)練過程中設(shè)置一定的衰減。經(jīng)過預(yù)訓(xùn)練與無人機(jī)數(shù)據(jù)訓(xùn)練后得到的loss曲線如圖12所示。
圖12 訓(xùn)練過程中l(wèi)oss與step關(guān)系曲線Fig.12 Relationship curve between loss and step during training
圖12中,前13 000個steps是對COCO數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,增強(qiáng)其特征提取能力。在曲線接近于平滑之后,開始遷移學(xué)習(xí)無人機(jī)數(shù)據(jù),并設(shè)置學(xué)習(xí)率為0.000 1繼續(xù)訓(xùn)練,step在30 000左右loss開始趨于平穩(wěn)。如圖13所示,無預(yù)訓(xùn)練重建結(jié)果PSNR=34.45,SSIM=0.814 4,經(jīng)過預(yù)訓(xùn)練后PSNR=34.74,SSIM=0.824 2,預(yù)訓(xùn)練在一定程度上能夠有效地增強(qiáng)重建細(xì)節(jié),提升重建效果。
圖13 有無預(yù)訓(xùn)練的超分辨率結(jié)果對比圖Fig.13 Comparison of super-resolution results with and without pre-training
2.1.1 實(shí)驗(yàn)結(jié)果分析
經(jīng)過訓(xùn)練,得到無人機(jī)超分辨率4×重建結(jié)果,并與雙三次插值(Bicubic)和FSRCNN重建結(jié)果對比,得到圖14。
圖14 MFSRCNN、FSRCNN與Bicubic重建效果對比圖Fig.14 Comparison of reconstruction effects of MFSRCNN,F(xiàn)SRCNN and Bicubic
如圖14所示,雙三次插值、FSRCNN與MFSRCNN都對無人機(jī)模糊圖像有一定的重建效果,其中雙三次插值重建的圖像比較模糊,失去了無人機(jī)的輪廓特征與細(xì)節(jié)特征,只是單純地放大圖像,而且會出現(xiàn)一定程度的黑邊(可以通過算法改進(jìn)去除),不利于后期的無人機(jī)識別。FSRCNN重建效果較好,比較清晰地展現(xiàn)無人機(jī)的輪廓特征,但重建結(jié)果中背景噪聲較大。通過對比發(fā)現(xiàn)一方面MFSRCNN在明顯地提高無人機(jī)圖像重建效果的同時能夠有效抑制背景噪聲,提高圖像的信噪比;另一方面,采用多次的多尺度融合加COCO數(shù)據(jù)集預(yù)訓(xùn)練,在超分辨率重建中不僅能更好地提取出無人機(jī)的特征,而且能在反復(fù)的多尺度融合中始終保留細(xì)節(jié)特征,有效重建出無人機(jī)的細(xì)節(jié)信息。為了更直觀表示重建質(zhì)量,將MFSRCNN算法與ESRGAN算法重建結(jié)果經(jīng)beyond compare對比,得到圖15。在細(xì)節(jié)方面,MFSRCNN結(jié)果更接近于ground truth,特別是對于重建目標(biāo)比較大的情況。對比ESRGAN邊緣信息更加豐富,重建效果更好。但是目標(biāo)的高頻細(xì)節(jié)還有部分缺失,有待于進(jìn)一步的改進(jìn)。
圖15 MFSRCNN算法與ESRGAN算法重建結(jié)果對比Fig.15 Comparison of reconstruction results of MFSRCNN algorithm and ESRGAN algorithm
對4個子網(wǎng)絡(luò)輸出結(jié)果與超分辨率重建最終結(jié)果圖進(jìn)行傅里葉變換,得到圖16。由頻譜圖可以看出,子網(wǎng)絡(luò)1輸出的高頻信息豐富,輪廓與細(xì)節(jié)都較為明顯,子網(wǎng)絡(luò)2、3、4輸出結(jié)果圖高頻信息偏少,低頻信息比較豐富。超分辨率重建結(jié)果中高頻信息與低頻信息都比單獨(dú)的子網(wǎng)絡(luò)結(jié)果更加豐富,證明了特征融合對能夠有效兼容高低頻信息,對超分辨重建結(jié)果有一定的提升。
圖16 4個子網(wǎng)絡(luò)輸出與超分辨率輸出結(jié)果圖和對應(yīng)頻譜圖Fig.16 Results diagram of four subnetworks output and super-resolution output,and corresponding spectrogram
2.1.2 對比結(jié)果
重建圖像的質(zhì)量評價可檢驗(yàn)超分辨率重建算法好壞,優(yōu)化重建算法中的參數(shù)常用客觀評價方法:峰值信噪比法(peak-signal-to-noise,PSNR)、結(jié)構(gòu)相似性度量法(structural similarity index measurement,SSIM)等。
PSNR基于對應(yīng)像素點(diǎn)間的誤差,失真圖像與原始圖像的相似性通過計算對應(yīng)像素點(diǎn)之間的差距來衡量。兩個m×n單色圖像I和K,如果一個為另外一個的噪聲近似,那么它們的均方差定義為
峰值信噪比定義為
式中MAXI2為圖像點(diǎn)顏色可能的最大像素數(shù)值。
結(jié)構(gòu)相似度度量方法是運(yùn)用結(jié)構(gòu)相似度指標(biāo),量化失真圖像和原始圖像之間的差異,評價失真圖像的質(zhì)量好壞,描述圖像的質(zhì)量,用亮度、對比度、結(jié)構(gòu)3項(xiàng)信息相結(jié)合,與MSE和PSNR相比較,結(jié)構(gòu)相似度度量方法與人類視覺特性更符合。
式中:μx為x的均值;μy為y的均值;σ2x為x的方差;σ2y為y的方差;σxσy為x和y的協(xié)方差;c1=(k1L)2;c2=(k2L)2;c3=(k3L)2為常數(shù),避免除零,L為像素值的范圍。取c3=c2/2,可以得到:
對MFSRCNN算法與其他經(jīng)典的超分辨率重建算法對無人機(jī)測試集圖像進(jìn)行測試,并統(tǒng)計出在4×情況下不同算法下的PSNR與SSIM,得到表1。因?yàn)镋SRGAN的損失函數(shù)采用Perceptual Loss,雖然重建視覺效果好,但是不適合采用PSNR進(jìn)行衡量,故表1不列入ESRGAN對比。
根據(jù)表1得到MFSRCNN與其他算法性能與參數(shù)比較結(jié)果圖,如圖17所示。
表1 4×情況下不同算法對無人機(jī)測試集重建的PSNR與SSIM與參數(shù)對比Table 1 Comparison of PSNR,SSIM and parameters of UAV test set reconstruction by different algorithms in 4× case
圖17 MFSRCNN與其他先進(jìn)的輕量級網(wǎng)絡(luò)在Urban100數(shù)據(jù)集上4×的性能和參數(shù)比較Fig.17 4× performance and parameter comparison of MFSRCNN and other advanced lightweight networks on Urban100 dataset
MFSRCNN的總體框架與體系結(jié)構(gòu)非常簡單,但是比以往的很多模型更加有效,尤其是針對小目標(biāo)的無人機(jī)超分辨率重建問題。MFSRCNN在模型尺寸與重建性能方面取得了很好的權(quán)衡。MFSRCNN雖然比FSRCNN、DRRN等輕量級網(wǎng)絡(luò)模型參數(shù)多,但是其在無人機(jī)測試集上的效果遠(yuǎn)超出了其他網(wǎng)絡(luò)模型。SRResNet雖然重建效果好,但是其網(wǎng)絡(luò)過于復(fù)雜,網(wǎng)絡(luò)參數(shù)是MFSRCNN模型的3~4倍,需要更多的網(wǎng)絡(luò)訓(xùn)練與無人機(jī)超分辨率重建時間。
經(jīng)實(shí)驗(yàn)驗(yàn)證:對于100×100像素的圖像,在GPU運(yùn)行條件下,MFSRCNN重建平均時間為0.033 s。在輸入圖像較小的情況下滿足無人機(jī)實(shí)時探測的要求。
2.1.3 多尺度融合的作用分析
在保持原有網(wǎng)絡(luò)參數(shù)和訓(xùn)練方法的基礎(chǔ)上,將MFSRCNN中多尺度融合(即相鄰分辨率之間的feature map進(jìn)行concatenate運(yùn)算)部分去掉,得到新的網(wǎng)絡(luò)模型,訓(xùn)練得到結(jié)果與MFSRCNN對比結(jié)果如圖18所示。
圖18 有無經(jīng)過多尺度融合對比圖Fig.18 Comparison diagram with and without multi-scale fusion
經(jīng)過對比,多尺度融合能夠在一定程度上增強(qiáng)超分辨率重建的效果,輪廓與細(xì)節(jié)等信息更加清晰,對背景的復(fù)原程度更好,能夠有效抑制噪聲。多尺度融合的圖像brenner函數(shù)大于無多尺度融合的圖像,證明其能夠有效提升重建清晰度。
為了衡量無人機(jī)圖像超分辨率重建效果,把無人機(jī)數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)重建前后的圖像(200幅)依次輸入YOLOV3網(wǎng)絡(luò)進(jìn)行無人機(jī)識別[22],得到部分結(jié)果如圖19所示。
圖19 無人機(jī)超分辨率重建前后通過YOLO網(wǎng)絡(luò)檢測結(jié)果圖Fig.19 Diagram of detection results by YOLO network before and after UAV super-resolution reconstruction
圖19中,LR表示重建前的圖像,SR表示重建后的圖像,數(shù)字代表檢測的confidence score。從200幅重建前后的圖像結(jié)果中選出部分典型數(shù)據(jù)如表2。
結(jié)合表2和圖19可以看出,超分辨率重建對無人機(jī)的檢測精度有了一定程度的提升,重建前的平均confidence score為80.73%,重建后為86.59%,平均提升6.72%。對于重建前LR無人機(jī)圖像比較明顯、score比較大的情況,檢測提升效果不明顯,置信度提升2%左右;對于重建前LR無人機(jī)圖像不明顯、score比較小的情況,重建后能夠有效提升無人機(jī)分類預(yù)測概率與邊界框定位精度;在某些無人機(jī)圖像輪廓特征不明顯、特征退化嚴(yán)重情況下,LR圖像檢測不出無人機(jī),SR圖像無人機(jī)可以檢測到,提升了無人機(jī)的檢測準(zhǔn)確度;在較少情況下會出現(xiàn)無人機(jī)檢測無提升甚至退化的現(xiàn)象,超分辨率模型還有待進(jìn)一步的提升改進(jìn)。結(jié)果證實(shí)MFSRCNN算法重建的有效性,具備較高的實(shí)際應(yīng)用價值。
表2 部分無人機(jī)超分辨率重建前后通過YOLO網(wǎng)絡(luò)檢測結(jié)果Table 2 Detection results by YOLO network before and after partial UAV super-resolution reconstruction
根據(jù)無人機(jī)圖像目標(biāo)小、特征不明顯的特點(diǎn),在FSRCNN基礎(chǔ)上采用并行網(wǎng)絡(luò)反復(fù)多尺度融合構(gòu)建出一種新的超分辨率模型——MFSRCNN,對無人機(jī)圖像進(jìn)行超分辨率重建。在現(xiàn)有數(shù)據(jù)集上進(jìn)行fine-tune對無人機(jī)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,最終得到超分辨率圖像。該模型能夠有效去除噪聲,在增加分辨率的同時盡可能重建出無人機(jī)的細(xì)節(jié)與輪廓,提升了重建性能。通過與經(jīng)典輕量級超分辨率重建算法進(jìn)行對比,證明了MFSRCNN模型在模型尺寸與重建性能之間實(shí)現(xiàn)了較好的平衡,并通過YOLO網(wǎng)絡(luò)證實(shí)了其后續(xù)在無人機(jī)檢測識別領(lǐng)域的有效性。雖然MFSRCNN屬于輕量級網(wǎng)絡(luò),能夠基本滿足無人機(jī)探測實(shí)時性的要求,但因?yàn)榇嬖?個并行子網(wǎng)絡(luò),模型參數(shù)較多,還需在模型尺寸上做進(jìn)一步改進(jìn),以提高重建速度,提升重建效果。