林翊鈞, 吳鳳鴿, 趙軍鎖
(1. 中國(guó)科學(xué)院大學(xué), 北京 100190; 2. 中國(guó)科學(xué)院軟件研究所, 北京 100190)
近年來,在衛(wèi)星小型化、低成本、快速研發(fā)及部署的趨勢(shì)下,各個(gè)機(jī)構(gòu)發(fā)射低軌衛(wèi)星的數(shù)量呈爆發(fā)式增長(zhǎng),這為獲取海量高時(shí)空分辨率的遙感圖像序列提供可能,也保證了天基對(duì)地動(dòng)目標(biāo)檢測(cè)的數(shù)據(jù)基礎(chǔ)。例如,2015年發(fā)射的光學(xué)遙感衛(wèi)星吉林一號(hào),能夠在656 km軌道高度上采集幅寬11.6 km、分辨率優(yōu)于0.72 m的高精度視頻[1],即使是繁忙公路上高速奔馳的汽車也清晰可見。基于遙感視頻的動(dòng)目標(biāo)檢測(cè)研究具有廣泛的應(yīng)用場(chǎng)景,如城市安全、交通控制及軍事目標(biāo)檢測(cè)等。但由于每幀圖像幅寬可達(dá)數(shù)十公里,且內(nèi)部存在運(yùn)動(dòng)視差、光照變化以及不精確配準(zhǔn)等誤差,傳統(tǒng)動(dòng)目標(biāo)檢測(cè)算法的應(yīng)用存在復(fù)雜度高、精度差、約束多等缺陷,模型的星上部署更將受到運(yùn)行時(shí)間及計(jì)算資源的嚴(yán)重制約。
為了提升精度并減少目標(biāo)搜索空間,大幅寬遙感圖像下的動(dòng)目標(biāo)檢測(cè)研究通?;诙嘁晥D的方法實(shí)現(xiàn)。首先利用遙感圖像分割[2-4]或顯著性檢測(cè)[5-6]算法,粗糙快速地定位目標(biāo)可能存在的區(qū)域,然后利用手工提取的外觀特征如HOG(Histogram of Oriented Gradient)、Haar等訓(xùn)練一個(gè)魯棒的分類器來逐個(gè)過濾錯(cuò)誤的檢測(cè)結(jié)果。而近來基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的模型替代傳統(tǒng)分類器取得了顯著的效果。LaLonde等[4]通過使卷積層同時(shí)學(xué)習(xí)目標(biāo)的運(yùn)動(dòng)和外觀信息,提出了一個(gè)端到端的全CNN模型,在實(shí)現(xiàn)多目標(biāo)檢測(cè)、簡(jiǎn)化流程的同時(shí)達(dá)到了精度最優(yōu)。Blasch等[7]利用卷積和全連接層對(duì)圖像塊進(jìn)行分類,結(jié)果顯著優(yōu)于支持向量機(jī)方法。其他以包含背景信息的圖像塊作為原始輸入,基于CNN實(shí)現(xiàn)的高精度多目標(biāo)檢測(cè)模型包括FasterR-CNN(Faster Region with CNN)[8]、YOLO(You Only Look Once)[9]、SSD(Single Shot multibox Detector)[10]及R-FCN (Region-based Fully Convolutional Networks)[11]等。
當(dāng)前高精度CNN模型存在的不足是:其和傳統(tǒng)分類器一樣無法減少動(dòng)目標(biāo)在大幅寬圖像下的搜索空間。任何硬件都無法支持CNN同時(shí)處理數(shù)百萬像素點(diǎn),直接將圖像尺寸歸一到固定大小則可能導(dǎo)致小目標(biāo)消失融合在背景中[4]。因此,通過運(yùn)動(dòng)信息對(duì)目標(biāo)進(jìn)行預(yù)提取依然是必要的步驟,但現(xiàn)有的像素級(jí)分割算法通常都不是為CNN設(shè)計(jì)優(yōu)化的,其輸出不規(guī)則的區(qū)域(blob)或質(zhì)心點(diǎn)[12]作為候選目標(biāo),而CNN需要背景信息來輔助檢測(cè),其以矩形的圖像塊(patch)作為原始輸入,如果直接在目標(biāo)聚集區(qū)域簡(jiǎn)單地通過區(qū)域擴(kuò)展得到圖像塊,則會(huì)導(dǎo)致塊之間存在大量的重疊,也就意味著小目標(biāo)可能在后續(xù)的CNN模型中被重復(fù)地檢測(cè),需要額外的后處理過程并浪費(fèi)計(jì)算資源。
本文為優(yōu)化CNN在大幅寬遙感圖像下的輸入,提出了一種多尺寸動(dòng)目標(biāo)分塊提取方法。首先,將現(xiàn)有圖像分割算法中普遍采用的誤差全局處理轉(zhuǎn)換為局部操作,實(shí)現(xiàn)快速、粗糙地提取候選目標(biāo)運(yùn)動(dòng)區(qū)域;然后,通過合并相鄰區(qū)域的方式減少輸出圖像塊的面積和數(shù)量。針對(duì)該過程存在的目標(biāo)規(guī)模龐大、空間密度分布不均勻、結(jié)果易陷入局部最優(yōu)等問題,在相鄰塊合并階段設(shè)計(jì)了一種基于空間約束的密度聚類算法——SC-DBSCAN,利用對(duì)象的相對(duì)密度自適應(yīng)地將數(shù)據(jù)分解為多個(gè)相互獨(dú)立的子簇,實(shí)現(xiàn)了問題的分治,可并行化處理。同時(shí)分析了模擬退火思想與合并過程的相關(guān)性,將數(shù)量及面積指標(biāo)作為相鄰對(duì)象合并的優(yōu)化目標(biāo),引入隨機(jī)擾動(dòng)來提升圖像塊質(zhì)量。
本文主要貢獻(xiàn)有:①?gòu)膬?yōu)化圖像塊質(zhì)量的角度減少檢測(cè)模型的搜索空間,避免了目標(biāo)的重復(fù)檢測(cè)。②改進(jìn)的分割及誤差處理算法在保證檢測(cè)精度的同時(shí)提升了候選區(qū)域提取的效率。③SC-DBSCAN算法能根據(jù)目標(biāo)聚集程度自適應(yīng)地進(jìn)一步減小檢測(cè)范圍。
本文方法結(jié)構(gòu)如圖1所示。首先,提取動(dòng)目標(biāo)候選區(qū)域的過程依賴于像素級(jí)圖像分割算法實(shí)現(xiàn),雖然已有許多研究針對(duì)光照變化、運(yùn)動(dòng)視差等遙感圖像特有的問題給出了改進(jìn)方案,但根據(jù)CNN模型特性進(jìn)行優(yōu)化的工作鮮有進(jìn)展。CNN模型以具有一定尺寸大小、包含目標(biāo)背景信息的圖像塊作為輸入數(shù)據(jù),這在進(jìn)一步減少搜索空間的同時(shí)能夠?yàn)楹?jiǎn)化誤差預(yù)處理提供可能,本節(jié)基于此介紹并分析了幾種主流分割算法的特點(diǎn),并以鄰域三幀差分法為基礎(chǔ),對(duì)誤差優(yōu)化過程進(jìn)行改進(jìn)。
圖1 模塊結(jié)構(gòu)Fig.1 Modular structure
利用目標(biāo)運(yùn)動(dòng)信息的算法通常需要先固定背景,即對(duì)相鄰幀執(zhí)行配準(zhǔn)操作以補(bǔ)償相機(jī)運(yùn)動(dòng)。本文與其他文獻(xiàn)[3-4]一致,考慮到大幅寬遙感圖像的處理對(duì)計(jì)算復(fù)雜度更加敏感,采用基于特征點(diǎn)匹配的算法實(shí)現(xiàn)幀配準(zhǔn)[13]。首先分別對(duì)每幀圖像提取Harris角點(diǎn),然后在各角點(diǎn)周圍提取128維尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT),通過隨機(jī)抽樣一致 (Random Sample Consensus,RANSAC) 算法過濾掉不合適的特征點(diǎn),最后執(zhí)行匹配得到單應(yīng)性矩陣,完成坐標(biāo)轉(zhuǎn)換過程。
1.2.1 面向CNN的分割算法分析
分割得到目標(biāo)運(yùn)動(dòng)區(qū)域等價(jià)于檢測(cè)相鄰幀圖像的像素級(jí)變化。相比于計(jì)算量較大的光流法,背景建模[12]和時(shí)域差分法[2-3](幀差法)在大幅寬圖像中的應(yīng)用更為普遍。背景建模法通過連續(xù)幀像素的統(tǒng)計(jì)信息來構(gòu)建靜態(tài)背景,再將當(dāng)前幀與其做差得到運(yùn)動(dòng)區(qū)域,該類方法能抑制場(chǎng)景中突變的運(yùn)動(dòng),如樹葉隨風(fēng)搖曳、湖水的波動(dòng)等,但其最優(yōu)精度需要依據(jù)相機(jī)和場(chǎng)景的實(shí)際情況進(jìn)行調(diào)參,且使用幀數(shù)越多,圖像可建模區(qū)域就越窄。時(shí)域差分法直接計(jì)算相鄰幀的像素差,其速度快且對(duì)光照緩慢變化的情況更加魯棒,但易受噪聲影響產(chǎn)生不精確的結(jié)果。
Sommer等[12]比較了11種基于背景建模和時(shí)域差分法實(shí)現(xiàn)的動(dòng)目標(biāo)檢測(cè)算法,其中引入局部鄰域考慮的策略取得了最優(yōu)的精度。該實(shí)驗(yàn)對(duì)正確檢測(cè)的定義是提取的區(qū)域質(zhì)心點(diǎn)和真實(shí)標(biāo)注距離在20像素以內(nèi),但這并不適合于評(píng)價(jià)作為CNN輸入的圖像塊質(zhì)量。如圖2所示,為實(shí)現(xiàn)多目標(biāo)同時(shí)檢測(cè),網(wǎng)絡(luò)模型輸入的圖像塊尺寸通常遠(yuǎn)大于單個(gè)小目標(biāo),如224×224或512×512[4],簡(jiǎn)單分割算法導(dǎo)致的局部不精確(目標(biāo)融合、分離、位置漂移等)不會(huì)對(duì)最終的結(jié)果產(chǎn)生顯著影響。因此,現(xiàn)有文獻(xiàn)對(duì)造成局部不精確的光照變化、運(yùn)動(dòng)視差以及配準(zhǔn)誤差等而設(shè)計(jì)的全局圖像預(yù)處理方法(全局直方圖匹配[12]、高斯盒濾波[2]和平均梯度歸一化[3]等)是可以簡(jiǎn)化的。更重要的是,簡(jiǎn)化這些誤差消除操作能加快目標(biāo)檢測(cè)的過程,在大幅寬圖像上即使是簡(jiǎn)單濾波的耗時(shí)也是不可忽視的,將有限的星上資源利用在其他過程以提升精度是更好的選擇。
圖2 面向圖像塊的局部不精確分割效果比較Fig.2 Comparsion of patch-oriented local imprecise segmentation effect
1.2.2 鄰域三幀差分法
基于1.2.1節(jié)分析及現(xiàn)有研究成果[12,14],本節(jié)利用基于鄰域考慮的三幀差分法快速獲取目標(biāo)候選區(qū)域,在計(jì)算差分圖像的同時(shí)執(zhí)行濾波操作來抑制局部噪聲,保證檢測(cè)質(zhì)量。計(jì)算公式如下:
(1)
式中:N為鄰域;It為第t幀圖像;It′為相鄰的t-1和t+1幀圖像;Dres為差分圖像,取值為It內(nèi)各像素點(diǎn)與相鄰幀對(duì)應(yīng)位置鄰域內(nèi)的最小差值,本文中鄰域的尺寸為3×3。
差分圖像中目標(biāo)和背景處于不同的灰度級(jí),因此需通過閾值分割(二值化)提取出運(yùn)動(dòng)區(qū)域,多數(shù)文獻(xiàn)基于最為著名的大津法OTSU[3]自適應(yīng)地確定分割閾值GT:
GT=ω0ω1(μ0-μ1)2
(2)
式中:ω和μ分別為某類像素占圖像的比例和平均灰度,下標(biāo)0和1分別為背景和前景。但在大幅寬遙感圖像中,本文認(rèn)為低閾值分割是更優(yōu)的選擇,一方面其能降低漏警率,遙感圖像中存在不同亮度的車輛及道路背景,且目標(biāo)與背景的大小比例極度懸殊,這不符合OTSU法以最小化類內(nèi)方差為目標(biāo)求取最優(yōu)值的理論前提,易導(dǎo)致低速運(yùn)動(dòng)或與背景相似的目標(biāo)被漏檢、分離,較低閾值則可更好地保留這類復(fù)雜目標(biāo)。另一方面,由于事先引入鄰域考慮來計(jì)算差分圖像,多數(shù)局部噪聲已被有效抑制,因此低閾值分割并不會(huì)造成虛警率的顯著增加。
1.2.3 任務(wù)驅(qū)動(dòng)的誤差處理
地物的復(fù)雜環(huán)境決定了誤差處理的必要性,本節(jié)采用基于任務(wù)驅(qū)動(dòng)的局部處理替代主流分割算法中直接的全局優(yōu)化操作。其出發(fā)點(diǎn)在于:幅寬數(shù)十公里的遙感圖像內(nèi),地物間的強(qiáng)相關(guān)性只存在于局部范圍,并非整幅圖像都需要進(jìn)行對(duì)比度增強(qiáng)、拼接線消除等操作?,F(xiàn)有算法統(tǒng)一地使用某種濾波器執(zhí)行全局銳化或去噪處理,雖然能增強(qiáng)某一區(qū)域的圖像質(zhì)量,但也意味著在正常區(qū)域執(zhí)行了不必要的計(jì)算。因此有針對(duì)性地根據(jù)局部的具體情況,如運(yùn)動(dòng)視差、目標(biāo)模糊或光照不一致等,選擇對(duì)應(yīng)的消除算法,相比全局性的統(tǒng)一操作不僅處理速度快,而且在保證了該區(qū)域圖像質(zhì)量改進(jìn)的同時(shí)杜絕其他區(qū)域產(chǎn)生額外誤差造成虛警的可能。
與傳統(tǒng)算法中先進(jìn)行全圖去噪,再計(jì)算差分圖像、精確定位動(dòng)目標(biāo)的流程不同,本文采用自頂向下的思路,先粗糙確定目標(biāo)位置(即任務(wù)范圍),再執(zhí)行局部操作提升分割精度。得益于CNN輸入圖像塊具有容忍小目標(biāo)局部不精確的優(yōu)勢(shì),拼接線、 視差、配準(zhǔn)不精確等易導(dǎo)致虛警但不會(huì)造成目標(biāo)漏檢的誤差,本文在提取候選目標(biāo)區(qū)域后再分別對(duì)其執(zhí)行消除操作。而在計(jì)算差分圖像前僅重點(diǎn)關(guān)注對(duì)結(jié)果影響顯著的光照變化問題,過程如下:
1) 提取光照變化區(qū)域。圖像內(nèi)光照變化區(qū)域面積通常遠(yuǎn)大于單一小目標(biāo),其在差分圖像上呈現(xiàn)一定的規(guī)模及幾何特征,因此先執(zhí)行形態(tài)學(xué)分析,再根據(jù)各連通分量的面積及邊緣線段來提取各光照不一致區(qū)域。
2) 局部直方圖匹配。獲取目標(biāo)區(qū)域后,對(duì)相鄰幀圖像的每個(gè)變化區(qū)域分別建立灰度級(jí)映射關(guān)系,使原始圖像的直方圖匹配特定的形狀。由于遙感成像機(jī)理復(fù)雜,拍攝角度、陰影變化、樹葉擺動(dòng)都會(huì)導(dǎo)致相鄰幀對(duì)應(yīng)區(qū)域的灰度級(jí)不能完全匹配,因此在光照問題上,局部處理能精準(zhǔn)消除亮度不一致,同時(shí)避免在光照正常區(qū)域執(zhí)行無效的匹配,產(chǎn)生大量誤差。
獲取不規(guī)則的候選動(dòng)目標(biāo)區(qū)域后,需將其擴(kuò)展為矩形圖像塊作為CNN模型的輸入??紤]到在目標(biāo)高密度聚集位置直接拓展每個(gè)候選區(qū)域?yàn)榫匦螇K,會(huì)導(dǎo)致相鄰塊之間出現(xiàn)大量的重疊部分,浪費(fèi)計(jì)算資源,因此問題轉(zhuǎn)化為二維空間矩形聚類(合并)的最優(yōu)化求解,迭代地合并鄰近圖像塊以減少檢測(cè)次數(shù)和計(jì)算量。
本節(jié)首先基于密度聚類算法,利用最大空間尺寸約束將目標(biāo)區(qū)域劃分為相互獨(dú)立的簇,通過剔除孤立點(diǎn)并對(duì)各簇分治處理的方式來縮小問題搜索空間。隨后以最小化輸出圖像塊的面積和數(shù)量作為優(yōu)化目標(biāo),以各核心對(duì)象為初始點(diǎn),依據(jù)相對(duì)密度權(quán)重動(dòng)態(tài)確定遍歷順序。在迭代合并過程中,引入模擬退火思想概率選取當(dāng)前狀態(tài)下的次優(yōu)解,以跳出局部最優(yōu)。
2.1.1 目標(biāo)規(guī)模大及分布不均勻
大幅寬遙感圖像,特別是以城鎮(zhèn)、高速公路等為拍攝背景的圖像,可能同時(shí)采集到成百上千的動(dòng)目標(biāo),且其空間分布受到所處的復(fù)雜地物環(huán)境約束,變化過程難以建模,無法根據(jù)先驗(yàn)信息初始化聚類個(gè)數(shù)、中心點(diǎn)、大小等參數(shù)。在相關(guān)的無監(jiān)督聚類研究中,原型聚類算法k-均值、高斯混合模型 (Gaussian Mixed Model,GMM)[15]或?qū)哟尉垲?Hierarchical Clustering,HC) 算法等需多次更新對(duì)象間距離關(guān)系,不僅計(jì)算量大,且不適合處理非球型、大小不同的簇。相比之下,先驗(yàn)參數(shù)少、對(duì)噪聲和聚類形狀不敏感的空間密度聚類算法[16]——DBSCAN在本問題中具備更好的魯棒性。
DBSCAN算法是最經(jīng)典的基于密度峰值的空間聚類算法,其以數(shù)據(jù)在空間分布上的稠密程度為依據(jù)進(jìn)行聚類,主要思想是從某個(gè)核心對(duì)象出發(fā),不斷向密度可達(dá)的區(qū)域擴(kuò)張,從而得到一個(gè)內(nèi)部任意兩點(diǎn)密度相連,包含核心和邊界對(duì)象的最大化區(qū)域(簇),不在簇內(nèi)的對(duì)象則視為噪聲。其優(yōu)點(diǎn)是:無需預(yù)先設(shè)定聚類個(gè)數(shù),能夠發(fā)現(xiàn)任意形狀的簇并有效剔除噪聲。劣勢(shì)是:原始算法在全局范圍內(nèi)使用2個(gè)固定參數(shù)(即鄰域大小ε和密度閾值MinPts)來定義數(shù)據(jù)的密度范圍及稠密程度,當(dāng)空間數(shù)據(jù)的密度分布不均勻時(shí),會(huì)導(dǎo)致聚類質(zhì)量較差。
本文所檢測(cè)車輛動(dòng)目標(biāo)的空間分布形狀多樣,如長(zhǎng)條形(市內(nèi)公路)、環(huán)形(高架橋)、十字形(交叉路口),因此其本質(zhì)上可看作是一個(gè)非凸稠密的數(shù)據(jù)集,適用于DBSCAN的思想進(jìn)行區(qū)域劃分,但需解決算法自適應(yīng)問題。
2.1.2 易陷入局部最優(yōu)
在多數(shù)環(huán)境下目標(biāo)稀疏分布,相鄰塊合并存在唯一解,如圖3(a)、(b)所示,圓形范圍的中心為各運(yùn)動(dòng)目標(biāo)位置,矩形框?yàn)樽罱K輸出結(jié)果,但在目標(biāo)密集區(qū)域,圖像塊合并的先后順序?qū)Y(jié)果影響顯著,如圖3(c)所示,這使得解空間數(shù)量龐大,難以在有限時(shí)間內(nèi)遍歷得到最優(yōu)解,可考慮引入隨機(jī)效應(yīng)跳出局部最優(yōu)。其中,模擬退火算法[17]在隨機(jī)搜索中的使用最為著名,其思想來源于模擬高溫晶體的物理退火原理,最早于20世紀(jì)80年代由Kirkpatrick和Vecchi[18]提出并用于解決組合優(yōu)化問題。在給定目標(biāo)函數(shù)E時(shí),可根據(jù)Metropolis準(zhǔn)則,引入溫度參數(shù)T和玻爾茲曼常數(shù)k來動(dòng)態(tài)地調(diào)整優(yōu)化過程中接受次優(yōu)解的概率為:Pr=e-ΔE/(kT),最終通過隨機(jī)搜索策略跳出局部極小,達(dá)到全局最優(yōu)。
圖3 基于SC-DBSCAN算法的分簇結(jié)果Fig.3 Clustering results by SC-DBSCAN algorithm
空間圖像塊的合并也可看作是求取最優(yōu)解的問題,本文以最小化圖像塊數(shù)量及面積作為優(yōu)化目標(biāo),等價(jià)于求解模擬退火中的能量最低狀態(tài),迭代選擇圖像塊的合并過程則可理解為退火中的溫度冷卻階段。因此理論上模擬退火的思想能夠指導(dǎo)圖像塊合并過程,提升圖像塊質(zhì)量。
基于分治思想將數(shù)據(jù)劃分為不同大小的簇,各簇相互獨(dú)立且與原問題性質(zhì)相同,因而可減少每個(gè)子問題的搜索空間。本節(jié)針對(duì)該任務(wù)設(shè)計(jì)了一種新的基于空間約束的自適應(yīng)密度聚類算法,并將其稱之為SC-DBSCAN,不同于經(jīng)典的DBSCAN算法需預(yù)先設(shè)定2個(gè)固定參數(shù)值對(duì)鄰域和密度進(jìn)行硬劃分,其通過約束先驗(yàn)?zāi)軌蜃赃m應(yīng)地為每個(gè)對(duì)象定義鄰域大小,并對(duì)每個(gè)對(duì)象的相對(duì)稠密程度賦予權(quán)重表示,解決全局密度分布不均勻問題。其中,空間約束這一前提是合理的,因?yàn)镃NN模型執(zhí)行卷積計(jì)算的時(shí)空間復(fù)雜度與輸入的圖像尺寸呈正相關(guān),包含待檢測(cè)目標(biāo)的每個(gè)圖像塊都不能無限制地?cái)U(kuò)展大小。
2.2.1 基本定義
在給定二維矩形數(shù)據(jù)集D及對(duì)象合并的最大尺寸約束Smax下,本文定義相關(guān)概念如下。
1) 距離權(quán)重。對(duì)任意圖像塊P和Q,定義w(P,Q)來度量其可合并程度。
Dmax(P,Q)=max{dist(pi,qi)pi∈P,qi∈Q}
(3)
(4)
式中:pi和qi分別為2個(gè)圖像塊內(nèi)的任意點(diǎn)。距離計(jì)算使用各坐標(biāo)數(shù)值差的最大值即Chebyshev距離:
dist(pi,qi)=max(x1-x2,y1-y2)
(5)
權(quán)重w表示圖像塊的關(guān)聯(lián)程度,當(dāng)其為負(fù)數(shù)時(shí),圖像塊的關(guān)系超出空間約束,無可行的合并方案。
2) 鄰域及密度。對(duì)于?P∈D,定義其鄰域N(P)為包含所有可與P合并的對(duì)象集合:
N(P)={Q∈Dw(P,Q)≥0}
(6)
鄰域內(nèi)的對(duì)象數(shù)即為P的密度ρ(P):
ρ(P)=N(P)
(7)
3) 核心、邊界、噪聲對(duì)象。對(duì)于?P∈D,根據(jù)其與鄰域內(nèi)對(duì)象的密度關(guān)系進(jìn)行分類:
① 核心對(duì)象Pc。定義P為核心對(duì)象的條件是?Q∈N(P)且N(P)≠?時(shí),ρ(P)≥ρ(Q)。
② 邊界對(duì)象Pb。當(dāng)P不屬于核心對(duì)象,但其落在某個(gè)核心對(duì)象的鄰域內(nèi)時(shí),定義其為邊界對(duì)象。
③ 噪聲對(duì)象Pn。當(dāng)P既不是核心,也不是邊界對(duì)象即N(P)=?時(shí),定義其為噪聲對(duì)象。
4) 相對(duì)密度。給定對(duì)象P和Q∈N(P),定義Q相對(duì)于P的密度u(P,Q)為
(8)
相對(duì)密度是非對(duì)稱的,即u(P,Q)≠u(Q,P)。
5) 密度可達(dá)。假設(shè)存在對(duì)象鏈P1,P2,…,Pn,對(duì)Pi∈D,有Pi∈N(Pi+1),那么稱對(duì)象P1和Pn是密度可達(dá)的,密度可達(dá)是對(duì)稱的。
6) 簇。從某個(gè)核心對(duì)象出發(fā),不斷地向密度可達(dá)區(qū)域擴(kuò)展,其內(nèi)所有對(duì)象構(gòu)成一個(gè)簇,不在簇內(nèi)的視為噪聲。
2.2.2 目標(biāo)區(qū)域分簇
對(duì)空間中給定的一系列分布不均勻矩形區(qū)域,其分簇過程可看作圖論中連通分量的構(gòu)建,SC-DBSCAN算法過程如下:
1) 將所有對(duì)象按定義分別標(biāo)記為核心對(duì)象、邊界對(duì)象和噪聲對(duì)象。
2) 鄰域大小為空、不存在合并可能的噪聲對(duì)象,可直接擴(kuò)展為單一圖像塊輸出,如圖3(a)所示。
3) 互相在對(duì)方鄰域內(nèi)的核心對(duì)象之間構(gòu)建一條邊,每組連通的核心對(duì)象形成一個(gè)簇。
4) 將邊界對(duì)象歸類到所屬核心對(duì)象的簇中。
5) 當(dāng)某一簇內(nèi)所有對(duì)象都在各自鄰域的交集中,即只存在核心對(duì)象時(shí),稱其為簡(jiǎn)單簇,如圖3(b)所示。簡(jiǎn)單簇在滿足空間尺寸的約束下僅需要一個(gè)最小包圍框即可覆蓋所有對(duì)象,因此可以直接得到固定解。否則稱其為復(fù)雜簇,如圖3(c)所示。復(fù)雜簇存在多種合并策略,需引入模擬退火思想迭代求解。
2.3.1 目標(biāo)函數(shù)
本節(jié)使用對(duì)CNN模型輸入影響較大的評(píng)價(jià)指標(biāo)作為對(duì)象合并的準(zhǔn)則函數(shù)E(等價(jià)于模擬退火算法中的能量函數(shù)), 給定一個(gè)復(fù)雜簇C,相關(guān)定義如下:
(9)
式中:Area(Pk)為圖像塊k的面積;γ為用于權(quán)衡兩項(xiàng)指標(biāo)的因子,當(dāng)其較大時(shí),算法更傾向于合并距離更遠(yuǎn)的圖像塊,這在導(dǎo)致總數(shù)量減少的同時(shí)可能增加面積。
目標(biāo)函數(shù)包含了輸出圖像塊的總面積和數(shù)量,前者決定CNN的計(jì)算量,后者決定了CNN需要執(zhí)行的推斷次數(shù)。
參數(shù)γ保證了本文方法可適用于豐富的應(yīng)用場(chǎng)景。例如對(duì)低軌微納衛(wèi)星而言,星上計(jì)算資源有限,無法部署以大尺寸圖像為輸入的CNN模型,因而可降低γ值實(shí)現(xiàn)最小化圖像塊面積;反之,地面高性能平臺(tái)以實(shí)時(shí)處理為主要需求,最小化圖像塊數(shù)量以減少CNN模型的推斷次數(shù)則是更優(yōu)的選擇。
2.3.2 基于模擬退火思想的鄰域?qū)ο蠛喜?/p>
各復(fù)雜簇間相互獨(dú)立,因此可實(shí)現(xiàn)并行化處理。基于模擬退火思想的鄰域?qū)ο蠛喜⑦^程如下:
1) 在某一復(fù)雜簇中以核心對(duì)象為中心點(diǎn)P′。
2) 按照相對(duì)密度u大小降序進(jìn)行合并,即優(yōu)先將中心點(diǎn)P′與鄰域N(P′)內(nèi)距離最近的對(duì)象用生成的最小包圍框替換,并計(jì)算能量函數(shù)E。
3) 引入隨機(jī)擾動(dòng),對(duì)中心點(diǎn)P′以概率u(P,Q)選取鄰域內(nèi)對(duì)象Q做合并,計(jì)算新的能量函數(shù)E′。
4) 當(dāng)ΔE=E′-E<0時(shí),接受E′作為新解,否則按照Metropolis準(zhǔn)則定義概率:
(10)
式中:k為0~1范圍內(nèi)的隨機(jī)數(shù)。當(dāng)概率Pr>k時(shí),接受E′作為新解,擾動(dòng)過程在目標(biāo)函數(shù)不再變化時(shí)停止。
5) 輸出生成的最小包圍框并重新計(jì)算各項(xiàng)權(quán)重,迭代上述過程直到?jīng)]有對(duì)象可在空間尺寸約束下合并。
對(duì)象間是以距離為合并準(zhǔn)則,因而在迭代過程中,進(jìn)行合并的相鄰塊重疊度是逐漸降低的,這使得目標(biāo)函數(shù)下降速度由快到慢,此過程等價(jià)于模擬退火思想中,概率在時(shí)間的推移下,隨著溫度冷卻而逐漸降低。
本文使用美國(guó)空軍實(shí)驗(yàn)室提供的公開數(shù)據(jù)集wpafb2009[19]進(jìn)行實(shí)驗(yàn),其包含了數(shù)千條車輛標(biāo)注信息,傳感器成像平臺(tái)由6臺(tái)相機(jī)按2行3列的形式排列組成,幀率為2幀/s,拼接后的圖像尺寸達(dá)到2萬像素×2萬像素。為了與其他算法[2,7,12,20]進(jìn)行對(duì)照,本文參考Basharat 等[20]的研究成果裁剪了3個(gè)區(qū)域用于實(shí)驗(yàn)。如圖4所示,區(qū)域1和區(qū)域2包含了交通要道上的大量車輛目標(biāo),用于比較最終生成的圖像塊質(zhì)量,區(qū)域3用于比較光照變化處理。
圖4 wpafb2009數(shù)據(jù)集Fig.4 wpafb2009 dataset
本文算法包含基于圖像分割提取候選目標(biāo)、相鄰塊聚類合并2個(gè)獨(dú)立模塊,故將每個(gè)模塊分別與對(duì)應(yīng)的經(jīng)典算法進(jìn)行了對(duì)照實(shí)驗(yàn)分析。實(shí)驗(yàn)硬件環(huán)境為Intel Core i7-7700HQ 64位處理器、8 GB內(nèi)存、NIVIDIA GTX 1050 4 GB顯卡,編程語(yǔ)言為MATLAB。
3.2.1 候選運(yùn)動(dòng)區(qū)域提取方法比較
針對(duì)提取到的不規(guī)則候選運(yùn)動(dòng)區(qū)域,本節(jié)將對(duì)應(yīng)算法與包含有全局誤差處理過程的混合高斯背景建模法GMM[15]、標(biāo)準(zhǔn)三幀差分法S-3frame[4]以及鄰域三幀差分法N-3frame[14]進(jìn)行了相關(guān)的對(duì)照實(shí)驗(yàn)。如表1所示,由于容忍了目標(biāo)分離、融合等局部不精確誤差,本文算法的精度有所降低,但3.2.2節(jié)實(shí)驗(yàn)驗(yàn)證了精度可在后續(xù)聚類過程中得到改進(jìn)。
此外,本文算法顯著提升了召回率,這是得益于低閾值分割策略,實(shí)驗(yàn)中的閾值設(shè)定為OTSU法的取值乘以權(quán)重系數(shù)0.6。如圖5(a)所示,低閾值分割提取到的白色不規(guī)則區(qū)域或是更為完整、貼近圖中圓點(diǎn)所示的真實(shí)標(biāo)注,或是能夠檢測(cè)和道路背景相似的深色車輛目標(biāo),有助于降低漏警率。
誤差處理上,本節(jié)實(shí)驗(yàn)將局部光照處理策略和全局直方圖匹配[12]、基于盒濾波的均值濾波算法[2]進(jìn)行了對(duì)比,效果如圖6所示,圖中圓點(diǎn)為目標(biāo)的真實(shí)標(biāo)記,白色區(qū)域?yàn)闄z測(cè)出的候選目標(biāo),在未經(jīng)處理的圖6(a)中,由于相鄰幀對(duì)應(yīng)像素點(diǎn)的灰度差值大,光照變化區(qū)域被誤分割為目標(biāo),形成了白色寬條帶。在處理效果方面,大幅寬圖像中的光照變化區(qū)域只占據(jù)小部分面積,簡(jiǎn)單的全局直方圖匹配無法精確地定位局部的光照變化位置,且易產(chǎn)生額外噪聲,如圖6(b)左下角樹木的陰影處就錯(cuò)誤地檢測(cè)出運(yùn)動(dòng)信息。類似的,雖然均值濾波能夠緩解光照不一致現(xiàn)象,但由于邊緣像素鄰域同時(shí)包含了亮度正常和變化的2種情況,均值無法準(zhǔn)確表達(dá)像素點(diǎn)受到的光照強(qiáng)度,導(dǎo)致邊緣亮度匹配的效果較差,同時(shí)濾波器還造成部分目標(biāo)被過度模糊,融合在背景中而遭漏檢,這些在圖6(c)中體現(xiàn)為邊緣產(chǎn)生2條白色細(xì)條帶及道路上圓點(diǎn)標(biāo)注的部分車輛未被分割為目標(biāo)。與現(xiàn)有算法不同,本文通過差分圖像定位光照變化區(qū)域再分別處理,使得直方圖能夠更好地表達(dá)局部光照強(qiáng)度,圖6(d)中算法很好地消除了光照條帶,在不產(chǎn)生額外誤檢測(cè)的同時(shí)位于該區(qū)域內(nèi)的目標(biāo)也能被完整地分割檢測(cè)到。
表1 候選運(yùn)動(dòng)目標(biāo)質(zhì)量比較Table 1 Qualitative comparison in candidate moving objects %
圖5 低閾值分割和OTSU閾值分割的效果比較Fig.5 Comparsion of low-threshold segmentation and OTSU threshold segmentation
圖6 相鄰幀光照變化處理比較Fig.6 Comparison of illumination in neighbor frames
計(jì)算速度上,本文算法在區(qū)域3的光照處理速度比全局直方圖匹配快2.3倍,比基于盒濾波器的均值濾波法快8.9倍,這得益于光照變化區(qū)域平均僅占全圖的2.5%。此外,實(shí)驗(yàn)在區(qū)域1、2中提取到的候選目標(biāo)區(qū)域平均僅占全圖的 6.1%,使得對(duì)應(yīng)的高斯模糊、平均梯度抑制等用于消除拼接線、視差的操作范圍大幅度縮小。
3.2.2 相鄰塊聚類合并算法比較
對(duì)于生成圖像塊的質(zhì)量評(píng)估,本節(jié)實(shí)驗(yàn)將直接拓展不規(guī)則區(qū)域?yàn)榫匦螇K的方法作為本文相鄰塊合并方法的參考基線,將經(jīng)典層次聚類算法HC和空間密度聚類算法DBSCAN作為對(duì)照算法進(jìn)行比較。
評(píng)價(jià)指標(biāo)上,除精度與召回率外,本文重點(diǎn)分析了對(duì)CNN模型影響較大的評(píng)價(jià)指標(biāo),即輸出圖像塊的總數(shù)量、面積以及重復(fù)出現(xiàn)在不同區(qū)域內(nèi)的目標(biāo)數(shù)量,其值等價(jià)于CNN所浪費(fèi)的冗余檢測(cè)。這3個(gè)指標(biāo)除以真實(shí)人工標(biāo)注所對(duì)應(yīng)的取值后得到比率。
參數(shù)取值上,考慮到CNN一方面需提供部分背景信息作為輔助檢測(cè),或?qū)崿F(xiàn)多目標(biāo)同時(shí)檢測(cè),另一方面需避免每次推斷階段占用過多內(nèi)存和計(jì)算資源,本節(jié)參考LaLonde等[4]將默認(rèn)圖像塊尺寸設(shè)為64×64,合并最大尺寸約束為256×256。
表2展示了固定參數(shù)γ值為0的結(jié)果。如表2所示,得益于相鄰目標(biāo)的合并過程,不精確分割導(dǎo)致的局部目標(biāo)分離或運(yùn)動(dòng)視差、配準(zhǔn)造成的誤檢測(cè)都可能在迭代過程中和包含目標(biāo)的圖像塊融合輸出,由于本文選取目標(biāo)高度集中的交通要道作為實(shí)驗(yàn)數(shù)據(jù),因此精度提升顯著,但需要指出的是,在目標(biāo)稀疏分布區(qū)域,聚類對(duì)精度的提升能力還是有限的,精度主要取決于圖像分割和局部誤差處理過程。
此外,表2顯示本文相比經(jīng)典聚類算法能夠更好地降低圖像塊的數(shù)量、面積和重復(fù)率,從數(shù)據(jù)預(yù)篩選的角度為CNN模型的高效檢測(cè)提供了支持。利用本文SC-DBSCAN算法對(duì)數(shù)據(jù)進(jìn)行分簇后,可有效根據(jù)目標(biāo)密集程度選擇簡(jiǎn)單或復(fù)雜的策略進(jìn)行相鄰對(duì)象合并,實(shí)現(xiàn)自適應(yīng)處理。如圖7所示,在目標(biāo)離散稀疏分布區(qū)域,最優(yōu)解固定,因而所有算法的結(jié)果是一致的,但在十字路口、高速公路等目標(biāo)高密度聚集區(qū)域,經(jīng)典HC和DBSCAN算法生成的圖像塊存在尺寸較大且相互重疊的情況,而本文算法能夠以更少面積和數(shù)量的圖像塊來提取候選目標(biāo),區(qū)域中目標(biāo)的聚集密度越高,算法的優(yōu)勢(shì)就越大。
表3和圖8同時(shí)展示了目標(biāo)函數(shù)的權(quán)重參數(shù)γ遞減對(duì)結(jié)果的影響。在wpafb2009數(shù)據(jù)集中,本文算法可同時(shí)減少總數(shù)量和面積(-0.02<γ<0.06時(shí)),其中數(shù)量最多可在測(cè)試數(shù)據(jù)集中減少到原來的30%以內(nèi)(γ>0.3時(shí))。參數(shù)γ的取值增加意味著算法更注重減少圖像塊數(shù)量,等價(jià)于允許2個(gè)密度較稀疏的不相交圖像塊進(jìn)行合并,但這可能在進(jìn)一步減少數(shù)量的同時(shí)導(dǎo)致2個(gè)對(duì)象的最小包圍框面積增加。具體參數(shù)值的設(shè)定取決于算法在實(shí)際應(yīng)用時(shí),對(duì)應(yīng)的CNN模型特點(diǎn)及所部署平臺(tái)的各項(xiàng)計(jì)算約束條件。
表2 最終圖像塊質(zhì)量比較Table 2 Qualitative comparison of final image patches
圖7 不同算法在區(qū)域1、2的合并結(jié)果Fig.7 Merging results by different algorithms in Region 1 and Region 2
表3 參數(shù)γ對(duì)結(jié)果的影響Table 3 Impact of parameter γ on result
圖8 參數(shù)γ對(duì)最終圖像塊數(shù)量和面積的影響Fig.8 Impact of parameter γ on final image patches’ amount and area
本文為大幅寬圖像下的CNN動(dòng)目標(biāo)檢測(cè)模型提出了一種多尺寸運(yùn)動(dòng)圖像分塊提取方法,在目標(biāo)候選運(yùn)動(dòng)區(qū)域篩選、相鄰對(duì)象合并等問題上進(jìn)行了深入分析并給出了相應(yīng)的優(yōu)化算法。相關(guān)成果能夠用于在不同的神經(jīng)網(wǎng)絡(luò)模型、系統(tǒng)操作平臺(tái)上進(jìn)行對(duì)應(yīng)的數(shù)據(jù)預(yù)篩選操作,為避免遙感數(shù)據(jù)爆炸、快速獲取運(yùn)動(dòng)目標(biāo)的高價(jià)值信息提供了幫助。
1) 算法方面。本文主要基于目標(biāo)運(yùn)動(dòng)信息實(shí)現(xiàn)數(shù)據(jù)篩選,而事實(shí)上基于顯著性檢測(cè)的算法在興趣區(qū)域提取的研究中更類似于人類的視覺感知過程。一些利用生物視覺感知模型,對(duì)目標(biāo)陰影、形狀、顏色等信息進(jìn)行顯著性提取的算法[5,6,21]能夠有效加快遙感典型目標(biāo)檢測(cè)效率,且同樣適用于河流等分割算法無法處理的復(fù)雜非剛體目標(biāo)運(yùn)動(dòng)[22]。未來研究將嘗試把本文算法與顯著性檢測(cè)相關(guān)的視覺感知算法融合,以實(shí)現(xiàn)更準(zhǔn)確地快速提取候選目標(biāo)區(qū)域。
2) 應(yīng)用方面。雖然本文所提取的圖像塊是以CNN的輸入作為用途,但相關(guān)算法的應(yīng)用場(chǎng)景并不局限于此,其可用于衛(wèi)星在軌預(yù)篩選運(yùn)動(dòng)目標(biāo),避免星地間數(shù)據(jù)的冗余壓縮、傳輸;也可用于從海量遙感視頻中提取目標(biāo)檢測(cè)的數(shù)據(jù)集,并結(jié)合運(yùn)動(dòng)及外觀特征進(jìn)行標(biāo)注,為CNN模型在軌訓(xùn)練提供基礎(chǔ)等。后續(xù)研究中,算法將被部署在中國(guó)首顆軟件定義衛(wèi)星“天智一號(hào)”上進(jìn)行在軌實(shí)驗(yàn)驗(yàn)證,以期待減少數(shù)據(jù)存儲(chǔ)和計(jì)算上的冗余,進(jìn)一步實(shí)現(xiàn)星上加速及智能的運(yùn)動(dòng)目標(biāo)檢測(cè)。