王志虎,沈小青,桂偉龍
(中國衛(wèi)星海上測控部,江蘇 江陰 214431)
長期以來,小目標檢測始終是計算機視覺領(lǐng)域的研究難點。對于小目標的定義,目前還沒有統(tǒng)一的標準[1],一般情況下,將距離較遠,在成像平面上只占數(shù)十個像素區(qū)域,顯示為點狀并且具有低對比度和信噪比的目標稱為小目標。近年來,伴隨光學系統(tǒng)成像距離的拓展,以及對目標監(jiān)測魯棒性、智能化、準確度要求的提高,在目標監(jiān)視、智能控制、視覺導(dǎo)航等方面,小目標檢測技術(shù)都將發(fā)揮巨大的作用,并且為目標跟蹤、識別等提供技術(shù)基礎(chǔ)。由于距離遠,目標成像尺寸小,形狀、紋理、顏色、輪廓等特征缺乏;同時,背景噪聲,例如云層、波浪、房屋、樹木等,很容易將目標掩蓋,這些都將增加小目標檢測的難度。本文將從紅外小目標檢測、可見光小目標檢測、基于深度學習的小目標檢測3個方面對國內(nèi)外相關(guān)研究成果進行匯總和綜述,旨在為本領(lǐng)域的研究人員提供參考。
典型的紅外小目標檢測結(jié)果如圖1所示。通常情況下,場景中目標物體的紅外輻射較強,從而在圖像中形成局部顯著區(qū)域,根據(jù)這一特征,許多研究人員通過搜索圖像極值來檢測目標[2]。Wang等[3]基于最小二乘向量機(least squares support vector machine,LS-SVM)模型,設(shè)計了一種新型的小目標檢測方法,它利用LS-SVM函數(shù)擬合圖像塊,然后使用2個高通濾波器和圖像卷積來表達擬合后的極值,方法具有很高的運算效率。Deng等[4]利用信息理論提出了一種基于自信息圖的小目標檢測方法。對應(yīng)于前景目標的直接檢測,間接檢測方法首先預(yù)測圖像背景,然后基于實際圖像和預(yù)測背景之間的差異來突出目標區(qū)域。Bae[5]提出了一種基于雙邊濾波的背景預(yù)測方法,可以在預(yù)測背景的同時保護邊緣細節(jié)。為了更加準確地預(yù)測場景背景,Gu等[6]提出了一種基于核的非參數(shù)回歸模型(nonparametric regression model)。
一些研究人員通過提取對應(yīng)于目標的頻域信息來實現(xiàn)小目標的檢測。Yang等[7]設(shè)計的自適應(yīng)巴特沃斯(Butterworth)高通濾波器能夠有效抑制圖像低頻成分,同時突出高頻信息,以增強包含高頻分量的目標。Sadjadi[8]首先對圖像進行小波分解,然后估計分解后小波域子帶的概率密度,最后依據(jù)矩信息聚類提取紅外小目標。
此外,數(shù)學形態(tài)學在紅外小目標檢測中也被廣泛應(yīng)用。Tom等[9]提出了著名的數(shù)學形態(tài)學方法,即Top-hat算子,它通過開運算消除圖像中的高頻信息,然后利用其與原始圖像的差異來檢測目標。Jong-Ho Kim等[10]首先基于形態(tài)學方法檢測候選區(qū)域,緊接著使用改進的高斯距離函數(shù)確定真實目標。為了減少背景場景中邊緣信息對前景目標的干擾,算法首先利用中值濾波預(yù)處理輸入圖像。為了提高紅外小目標的檢測能力,Zhou等[11]提出了一種利用序列型Top-hat濾波器實現(xiàn)紅外小目標增強的新算法。
近年來,隨著生物視覺研究的深入,越來越多的研究者開始關(guān)注仿生視覺紅外目標檢測算法。Li等[12]基于圖像的顯著性信息,首先利用尺度空間表達得到原始圖像的顯著圖從而提取出感興趣區(qū)域,然后再從這些感興趣區(qū)域中進一步檢測紅外目標。Wang等[13]設(shè)計了一種高斯差分濾波器,首先根據(jù)視覺注意機制計算顯著性圖,然后結(jié)合回歸抑制機制和贏者優(yōu)先競爭機制,提取候選目標區(qū)域。Zhao等[14]結(jié)合形態(tài)學理論和顯著性檢測技術(shù),設(shè)計了一種基于局部頻率調(diào)諧的顯著性提取技術(shù),以突出潛在目標區(qū)域,然后通過閾值處理,得到潛在目標映射,最后采用形態(tài)學運算進行噪聲抑制。受生物視覺的啟發(fā),Wei[15]提出了一種基于多尺度區(qū)域?qū)Ρ榷人阕?multiscale patch-based contrast measure,MPCM)的紅外小目標檢測方法。MPCM算法可以提高目標和背景的對比度,使得簡單的自適應(yīng)閾值即可實現(xiàn)小目標分割。
圖1 典型紅外小目標檢測結(jié)果Fig.1 Typical infrared small target detection results
紅外成像作用距離遠、抗干擾能力強,并且可以全天候工作,但是分辨率低、目標與背景邊界模糊,而且不包含顏色、紋理等細節(jié)信息,目標檢測識別性差,因此可見光圖像中的目標檢測技術(shù)不可或缺。
針對可見光圖像小目標檢測問題,早期的工作主要集中于通過對目標的狀態(tài)估計來提高目標的檢測結(jié)果,但是,在低信噪比情況下表現(xiàn)較差。為了提高檢測準確度,研究者期望通過圖像的預(yù)處理來達到抑制背景和增強目標的目的。針對應(yīng)用場景的不同,國內(nèi)外學者提出了多種圖像預(yù)處理方法,包括有限或無限脈沖響應(yīng)濾波器抑制算法、基于各向異性擴散的增強算法[16]、Top-hat變換[17]、自適應(yīng)濾波技術(shù)等。然而,這些算法要求背景的統(tǒng)計特性是恒定的或緩慢變化的,因此它們對非平穩(wěn)、非線性、快速變化的背景,抑制效果并不理想。為了抑制非平穩(wěn)、非線性和快速變化的背景,研究人員提出了時頻分析方法,如方向濾波器組、自適應(yīng)頻域巴特沃斯高通濾波器[18]、基于高階累計量和小波變換的預(yù)處理算法[19]等。然而,這些算法是從傅里葉變換導(dǎo)出的,受海森堡不確定性原理的限制,存在時頻分析不足的局限,限制了其在圖像預(yù)處理中的應(yīng)用。
近期,南京理工大學婁競等[20]提出結(jié)合穩(wěn)定圖和顯著性檢測的海上艦船小目標檢測方法,方法首先生成圖像的穩(wěn)定圖,然后通過逐像素比較LAB顏色空間獲取顯著圖,最后融合穩(wěn)定圖和顯著圖來移除虛警,實現(xiàn)飛機、車輛等小目標的檢測,算法流程如圖2所示。華中師范大學的鄧鶴[21]發(fā)現(xiàn)小目標會導(dǎo)致圖像局部反熵值發(fā)生較大變化,利用該特性提出基于改進的區(qū)域生長技術(shù)和局部反熵算子的小目標檢測新方法。中國科學院大學的李大偉[22]在其博士論文中針對固定翼無人機地面車輛目標的自動檢測問題,分別提出了基于目標特性、機器學習以及卷積神經(jīng)網(wǎng)絡(luò)的小目標檢測算法,其中基于卷積神經(jīng)網(wǎng)絡(luò)的方法檢測精度最高,達到80%以上,不過也存在計算過程復(fù)雜度高,不滿足實時性的弊端。Nathan Mundhenk[23]提出一種基于逐像素提取區(qū)域特征的方法,將區(qū)域特征通過卷積神經(jīng)網(wǎng)絡(luò)進行分類檢測,然而這種逐像素搜索的方法效率太低,而且對目標沒有尺度適應(yīng)能力。Sebastien Razakarivony[24]利用流形學習的方法分別建立目標與背景模型來檢測復(fù)雜背景中的小目標(航空影像中的車輛),并且在OIRDS數(shù)據(jù)集取得48.9%的平均準確率。
可見光圖像中小目標檢測的傳統(tǒng)方法主體部分通常是提取人為設(shè)計的圖像特征,為了提高算法檢測準確率,或者前端進行圖像預(yù)處理,或者后端進行不同檢測結(jié)果融合。這些方法往往針對某些特定應(yīng)用領(lǐng)域或者數(shù)據(jù)集有效,適用范圍窄,如果目標物體某些特征變化后性能便急劇下降。幾十年來,盡管研究人員不斷設(shè)計出新的提取特征,但在目標檢測準確率上的提高并不明顯,現(xiàn)實結(jié)果表明傳統(tǒng)檢測模型并不能很好解決目標檢測問題。
圖2 RSS模型框架及小目標檢測結(jié)果Fig.2 RSS model framework and small target detection results
傳統(tǒng)的目標檢測方法主要面臨2個問題:一是基于滑動窗口的區(qū)域選擇策略冗余且時間復(fù)雜度高;二是手工設(shè)計的特征對于多樣性的變化沒有很好的魯棒性[25]。而且,對于弱小目標,傳統(tǒng)的處理方法難以獲得諸如形狀、大小、結(jié)構(gòu)、紋理等的有用信息,這增加了目標檢測的難度。得益于深度學習技術(shù)的快速發(fā)展,目標檢測技術(shù)近年來取得了巨大的突破。深度學習方法相比于傳統(tǒng)手工提取特征的方法在圖像識別、區(qū)域分割、檢測、分類等領(lǐng)域具有巨大優(yōu)勢,它通過多層非線性模型將輸入數(shù)據(jù)轉(zhuǎn)變?yōu)楦邔哟?、更加抽象的表達,從而達到從整體上認識目標的目的[26],其中具有代表性的為Girshick提出了region CNN(R-CNN)[27]算法和Joseph Redmon[28]提出的Yolo(you only look once)網(wǎng)絡(luò)。
由于深度學習的快速發(fā)展,陸續(xù)有研究者開始嘗試使用深層網(wǎng)絡(luò)模型檢測弱小目標。李大偉對比了Faster R-CNN、Yolo等深度學習方法在小目標檢測中的應(yīng)用,并針對性地進行了系統(tǒng)的改進和優(yōu)化,Yolo檢測結(jié)果如圖3所示[22]。針對PASCAL VOC數(shù)據(jù)集中的小目標檢測,王昊然[29]設(shè)計并實現(xiàn)了基于多層卷積特征高階融合的小目標檢測系統(tǒng)。陳江昀[30]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)CNN和超像素算法檢測圖像中的車輛年檢標志,取得了不錯的效果。唐聰?shù)萚31]分析了傳統(tǒng)SSD(single shot multibox detector)方法在小目標檢測上不足的原因,基于深度學習技術(shù),提出了一種多視窗SSD目標檢測方法。Akito Takeki等[32]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法,在視場的大范圍區(qū)域檢測鳥類小型目標:首先利用全卷積網(wǎng)絡(luò)融合多尺度的神經(jīng)網(wǎng)絡(luò)輸出特征,再使用SVM來獲取更高的檢測效果。Michael Kampffmeyer[33]等提出一種基于像素級、塊區(qū)域以及兩者相結(jié)合的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)來實現(xiàn)航拍圖像中單像素的分類,建立土地覆蓋圖以實現(xiàn)小目標檢測。林兩魁等[34]構(gòu)建紅外小目標深度學習檢測框架,通過設(shè)計兩個面向紅外小目標檢測的回歸型和分類型DCNN(deep convolution neural network)網(wǎng)絡(luò),實現(xiàn)了基于深度學習的紅外小目標檢測。馮小雨等[35]改進了基于深度學習的目標檢測框架Faster R-CNN,將其專用于空中目標檢測,實驗表明,改進后的Faster R-CNN在應(yīng)對弱小目標、多目標、雜亂背景、光照變化、模糊、大面積遮擋等檢測難度較大的情況時,均能獲得很好的效果。Rui Zhu等[36]基于ResNet網(wǎng)絡(luò),通過加入BatchNorm層,同時去掉部分下采樣層設(shè)計了一種不依賴預(yù)訓練分類器的目標檢測網(wǎng)絡(luò)ScratchDet,改進后的網(wǎng)絡(luò)模型在保持常規(guī)目標檢測能力的同時,有效提高了小目標物體檢測準確度。
圖3 Yolov2的小目標檢測實際效果Fig.3 Small target detection results in Yolov2
2012年,得益于ImageNet數(shù)據(jù)集的出現(xiàn),深度學習技術(shù)井噴式發(fā)展,在計算機視覺領(lǐng)域帶來了一場革命。由此,除了設(shè)計及優(yōu)化網(wǎng)絡(luò)模型外,不少研究者開始著眼于從基礎(chǔ)數(shù)據(jù)集的角度提高小目標檢測的準確度,主要包括2類:一類是在現(xiàn)有的目標檢測數(shù)據(jù)集上做數(shù)據(jù)增強,Mate Kisantal等[37]針對小目標檢測問題提出2種數(shù)據(jù)增量方法,即過采樣和復(fù)制粘貼,過采樣簡單來說是將數(shù)據(jù)重復(fù)使用,復(fù)制粘貼即將輸入圖像中的小目標在多個位置復(fù)制,如圖4所示。另一類為收集制作專門針對小目標的數(shù)據(jù)集,如航空影像中的車輛檢測(vehicle detection in aerial imager,VEDAI)[38]數(shù)據(jù)、OIRDS(overhead imagery research data set)[39]數(shù)據(jù)集、RSS(regional stability and saliency)[20]數(shù)據(jù)集等。
圖4 復(fù)制粘貼小對象的數(shù)據(jù)增強Fig.4 Data enhancements for small objects by copying and pasting
深度學習算法通過逐層運算提取物體更高層次的特征,近幾年在目標檢測領(lǐng)域取得了突破性進展,然而,伴隨網(wǎng)絡(luò)模型層數(shù)的增加,對目標物體的特征表達愈加抽象,當目標物體本身較小時,抽象后的特征將無法有效表征目標物體。針對該問題,目前主要通過保留淺層特征和融合上下文交互信息2種方法來提高小目標檢測準確率[40],實驗效果證明其有效性,改進模型在小目標圖像數(shù)據(jù)集上的檢測結(jié)果無論較傳統(tǒng)目標檢測算法還是通用的目標檢測深度模型都有一定程度的提高,但是準確率依然不能令人滿意,與生物視覺之間仍然存在很大的差距。雖然現(xiàn)有的研究表明生物視覺系統(tǒng)采用層次模型處理視覺信息,然而對其高層次的處理機制依然知之甚少。筆者認為,想要解決小目標檢測難題,必將需要先驗知識的支持,雖然現(xiàn)在的數(shù)據(jù)集數(shù)據(jù)量已經(jīng)相當大,但相比較現(xiàn)實世界,尤其是生物視覺系統(tǒng)所接收的三維視覺信息而言仍然是遠遠不足的,因此有些研究者在目標檢測模型中加入獨立的空間變換模塊[41],以期達到拓展先驗信息的有效手段,這也許是一個可以有所作為的研究方向。
光學系統(tǒng)小目標檢測技術(shù)研究不僅在目標監(jiān)視、遠程預(yù)警、精確制導(dǎo)等軍事領(lǐng)域具有重大意義,而且在智能控制、人機交互、視覺導(dǎo)航等民用領(lǐng)域也有很大的發(fā)展空間。然而,傳統(tǒng)檢測方法在小目標檢測問題中局限性大、準確率低,性能提升已到瓶頸,深度學習算法為解決該問題提供了新的技術(shù)手段,然而,一方面小目標檢測數(shù)據(jù)集規(guī)模有限;另一方面目前研究者還沒有設(shè)計出專門針對小目標的性能優(yōu)異的檢測模型。想要解決小目標檢測難題,必將需要先驗知識的支持,因此如何設(shè)計能夠自主學習的智能算法將是關(guān)鍵。本文首先依據(jù)圖像類別分別對紅外圖像小目標檢測和可見光圖像小目標檢測的相關(guān)研究及國內(nèi)外發(fā)展現(xiàn)狀進行了梳理。接著,針對傳統(tǒng)方法進行小目標檢測時遭遇的瓶頸以及機器學習在目標檢測領(lǐng)域的出色表現(xiàn),詳細敘述了基于深度學習的小目檢測技術(shù)研究現(xiàn)狀,期望本文綜述內(nèi)容能為相關(guān)領(lǐng)域科研人員研究小目標檢測技術(shù)時提供一定的參考。