劉佶鑫,魏 嫚
(1.寬帶無線通信技術(shù)教育部工程研究中心(南京郵電大學(xué)),南京 210003; 2.南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210003)(*通信作者電子郵箱liujixin@njupt.edu.cn)
場景識別作為模式識別、計算機視覺系統(tǒng)、信號處理及人機交互等學(xué)科的重要技術(shù),在圖像(視頻)檢索、計算機視覺任務(wù)、數(shù)字圖像處理、機器人移動定位、相機智能場景識別等方面都有非常重要的研究意義。常見的場景大致可以分為四類:自然場景、城市場景、室內(nèi)場景和事件場景[1-2]。
目前,場景識別研究的重點主要有基于圖像視覺詞袋(Bag of Words, BoW)的方法[3-4]、多特征融合的方法[5-6]、基于顯著區(qū)域?qū)W習(xí)的方法[7-8]以及基于稀疏表示(Sparse Representation, SR)[9]和卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)[10]分類器的方法。這些方法在場景目標(biāo)識別中都取得了較好的效果,尤其對室內(nèi)場景識別效果良好;但在自然場景識別中,由于不同的場景經(jīng)常有著相同的目標(biāo),所以具體的目標(biāo)只能給自然場景分類提供一個依據(jù),卻不能完全決定場景分類的結(jié)果,這使得對本就復(fù)雜多變的自然場景的識別精度一直難以提升。
近年來,隨著可見光-近紅外(Near-InfraRed, NIR)共平臺成像系統(tǒng)的普及,智能化自然場景識別[11]正在成為當(dāng)前的研究熱點。對于單一傳感器下彩色自然場景圖像信息不夠豐富的問題,部分學(xué)者開始嘗試將多光譜信息引入場景識別領(lǐng)域。Brown等[12]將近紅外圖像引入到場景分類中,并在他們采集的近紅外-可見光數(shù)據(jù)庫上通過實驗驗證了近紅外圖像在場景識別中的有效性。之后Salamati等[13]在該實驗基礎(chǔ)上通過提取并組合圖像的尺度不變特征(Scale-Invariant Feature Transform, SIFT)和顏色特征達到了更好的分類效果。但他們的實驗由于直接組合多個譜帶的信息使得圖像特征描述符維度隨著波段的組合而快速增加,給分類任務(wù)提高了難度,且實驗中采用的支持向量機(Support Vector Machine, SVM)方法在二分類情況下表現(xiàn)良好,而在多分類情況下卻容易形成局部最優(yōu)的情況。
因此,為了能夠更加有效地利用近紅外圖像中的場景信息,本文提出一種融合可見光和近紅外圖像的場景識別方法。另外,考慮到稀疏識別由于具有較高的有效性和魯棒性特點一直在圖像識別領(lǐng)域中表現(xiàn)優(yōu)秀,且深度學(xué)習(xí)需要較大的數(shù)據(jù)訓(xùn)練量[14],所以本文采用稀疏分類器代替SVM分類器進行融合后場景圖像的識別。不過值得注意的是,經(jīng)典稀疏識別在圖像識別任務(wù)中雖然表現(xiàn)良好,也仍然存在著一定的限制:一方面,稀疏表示模型要求圖像樣本空間足夠大;另一方面,該模型不能很好地應(yīng)對圖像中姿勢變化和沒有對齊的情況。實驗研究的近紅外-可見光圖像場景數(shù)據(jù)庫[12]不存在圖像對準(zhǔn)的問題,所以針對樣本不足的問題,本文將引入一種基于正則化K-奇異值分解(K-Singular Value Decomposition,K-SVD)的類字典學(xué)習(xí)算法,這種類字典學(xué)習(xí)算法與稀疏識別框架的結(jié)合可以大大增加場景圖像的類內(nèi)相關(guān)性和類間差異性,使得在沒有大量訓(xùn)練樣本的情況下依然可以獲得比較高的算法效率,在可見光-近紅外智能化自然場景識別領(lǐng)域具有很高的研究價值。
稀疏表示是壓縮感知(Compressed Sensing, CS)理論研究的重要分支,近幾年已經(jīng)被廣泛地應(yīng)用到計算機視覺和模式識別領(lǐng)域。CS理論最初由Candès等[15]提出,后來Wright等[16]將其應(yīng)用到人臉識別中,將其稱為SR下的分類(SR-based Classification, SRC)識別。
假設(shè)圖像共有c個類別,A=[A1,A2,…,Ai,…,Ac],其中Ai(i=1,2,…,c)是樣本類別為i的類樣本集。定義y為測試樣本,則有:
1)輸入向量y在樣本集上可以線性表示為y=Ax,由于這種線性表示并不唯一,所以通過l1-范式最小化獲得最佳的編碼系數(shù):
(1)
2)根據(jù)上述編碼選取重構(gòu)誤差小的類別作為測試樣本y的類別:
(2)
整個系統(tǒng)可以分為三個部分:近紅外圖像與可見光圖像的融合,圖像的特征提取和融合,類字典稀疏識別和分類決策。算法的流程框架如圖1所示,首先采用基于HSV顏色空間變換的方法融合RGB圖像和NIR圖像,之后提取融合圖像的通用搜索樹(Generalized Search Tree, GiST)特征和分層梯度方向直方圖(Pyramid Histogram of Oriented Gradients, PHOG)特征進行特征融合,然后對融合的特征進行類字典稀疏識別,最后求得測試樣本的稀疏系數(shù)進行分類決策,得到最終的識別結(jié)果。
圖1 本文方法流程Fig. 1 Flow chart of the proposed method
可見光圖像通常表示為三種顏色通道的組合:紅色、綠色和藍色,而近紅外(NIR)圖像則為灰度的強度圖像。與彩色圖像相比,NIR圖像既擁有彩色圖像的魯棒性特點又有著比彩色圖像更好的灰度對比度信息,因此用近紅外圖像替換可見光圖像中表示亮度的通道便可以得到信息更加豐富的彩色圖像。該方法借鑒了圖像偽彩色處理的原理,并應(yīng)用在自然場景稀疏識別上。
為了能夠提取更多有用的場景特征,本文選用HSV顏色空間進行圖像融合。算法首先將可見光圖像映射到HSV空間:
(3)
(4)
V?max
(5)
其中:min和max分別表示取R、G、B中的最小值和最大值。
然后將表示圖像明亮程度的通道(V)替換為NIR圖像:
V?NIR
(6)
最后將得到的HSV圖像按照原映射的逆變換還原到RGB空間,便得到融合了近紅外信息的彩色圖像。
圖2為將RGB-NIR數(shù)據(jù)庫中部分圖片使用HSV顏色空間變換融合的效果圖示。觀察圖2中相同場景的NIR和RGB圖像,不難發(fā)現(xiàn)NIR圖像有著比可見光圖像增強的局部和云對比度、更明亮的植被、更黑暗的水等,而融合后的彩色圖與近紅外圖像相比更清晰,與可見光圖像相比具有更大的對比度。
圖2 基于HSV顏色空間變換融合的近紅外和可見光圖像Fig. 2 Fused images of NIR and visible based on HSV color spatial transform
特征融合是指將兩個或多個特征向量按照某種規(guī)則組合成新的特征向量。為了能夠很好地表征融合后的彩色場景圖像,本文采用全局GiST特征[17]和局部PHOG特征[18]的融合方法。GiST特征模擬人的視覺提取圖像中簡明扼要的上下文信息,能夠很好地獲取場景類別的空間結(jié)構(gòu)特性,但對場景圖像的細節(jié)丟失較為嚴重,而PHOG特征提取的是場景圖像的局部輪廓特征,能夠很好地表達出場景圖像的局部細節(jié)。將GiST特征和PHOG特征進行融合可以更加有效地表示出場景圖像。雖然之前已經(jīng)有學(xué)者提出過GiST特征和PHOG特征融合的方法,但都只是使用了簡單的SVM分類器,在場景分類時沒有很好地解決局部最優(yōu)解的問題,所以本文將結(jié)合特征融合與本文提出的類字典稀疏分類器驗證其在場景識別中的有效性。
GiST特征提取算法主要是使用Gabor濾波器組對圖像進行濾波后通過稀疏網(wǎng)格的劃分提取的場景圖像的全局特征,步驟如下:
1)假設(shè)有灰度圖像f(x,y),大小為H×W,將其進行L×L的規(guī)則網(wǎng)格劃分,則每個網(wǎng)格的大小為h×w,其中h=H/L,w=W/L。
2)建立m個方向、n個尺度的Gabor濾波器,并使用這些Gabor濾波器對每個網(wǎng)格內(nèi)圖像進行卷積濾波,將每個網(wǎng)格內(nèi)的特征進行級聯(lián),得到網(wǎng)格內(nèi)圖像的GiST特征,即:
(7)
其中:cat為將各個特征級聯(lián)的符號;gmn(x,y)為Gabor濾波器組,m為方向數(shù),n為尺度數(shù);“*”為進行卷積運算。
3)取每個網(wǎng)格內(nèi)計算出的特征值的均值作為一個特征,將所有網(wǎng)格內(nèi)的特征進行級聯(lián),便得到整個場景圖像的GiST特征,維度為L×L×nc。
與大部分GiST特征提取的維度不同,本文從R、G、B三個通道分別將場景圖像劃分為4×4的網(wǎng)格,用8個方向、4個尺度的Gabor濾波器組進行處理,最終得到整幅圖像的GiST特征維數(shù)為3×4×4×32 =1 536維。
PHOG特征提取算法是使用空間四叉樹模型將場景圖像分解形成多分辨率表示,然后按照低分辨率到高分辨率的順序?qū)⒍嗉壍姆较蛱荻戎狈綀D級聯(lián),步驟可描述如下:
1)使用Canny算子邊界檢測方法對場景圖像的邊緣信息進行統(tǒng)計;
2)將場景圖像按照空間四叉樹模型進行分層分塊的表示,并提取每一層上所有子區(qū)域的HOG特征;
3)將每一層上的所有子區(qū)域上的HOG特征進行級聯(lián),進行歸一化處理即可得到PHOG特征。
本文將場景圖像分為4層,其中第0層表示整個場景圖像,接下來每一層都按照空間四叉樹模型將整個圖像依次均分為4、16、64個子區(qū)域。最終得到的整幅圖像的PHOG特征維數(shù)為(1+4+16+64)×8=680維。
在融合方法上,本文采用特征的串行融合方式。假設(shè)分別存在于特征空間Ω、Ζ的兩個特征向量α和β,其中α∈Ω,β∈Ζ,串行融合的方法就是將α和β串聯(lián)形成新的特征向量γ:
(8)
式中,k、l分別表示特征向量α和β的權(quán)值系數(shù)。為了充分體現(xiàn)GiST與PHOG在特征提取方面的互補性,本文采取與文獻[6]相同的實驗設(shè)置,采用均值加權(quán)的方式進行特征融合,即k=1、l=1。若α代表n維特征向量,β代表m維特征向量,此時新的特征向量γ為m+n維向量,即1 536+680=2 216維。
在獲得上述特征融合的特征矩陣后,需要解決稀疏識別樣本數(shù)量不足的問題,為此本文提出了一種基于正則化的K-SVD算法的類字典稀疏識別方法。一般的字典學(xué)習(xí)的問題可以描述為:
(9)
s. t. ‖xl‖0≤s,l=1,2,…,N
‖dj‖2=1,j=1,2,…,n
其中:D為字典,dj為D的第j個原子;xl是X的第l行;s為稀疏表示系數(shù)中非0分量數(shù)量的上限。式(9)的計算過程是一個不斷迭代的過程,首先固定字典D使用稀疏向量求解方法求解D上Y的稀疏表示A,然后根據(jù)A得到更優(yōu)化的字典D,直到滿足停止的迭代的條件時優(yōu)化結(jié)束。
但如上所述,這種字典學(xué)習(xí)算法在優(yōu)化時稀疏系數(shù)和對應(yīng)字典碼字不同時更新,這就有可能造成奇點的出現(xiàn)。為了可以同時更新所有的碼字和所有的稀疏系數(shù),Dai等[19]提出了一種正則化的字典學(xué)習(xí)算法,其優(yōu)化目標(biāo)函數(shù)為:
(10)
其中μ>0且μ是已知量。
這種算法雖然達到了稀疏系數(shù)和對應(yīng)字典碼字同時更新的要求,但依然沒有很好地解決稀疏識別訓(xùn)練樣本較少的問題,所以本文結(jié)合文獻[20]提出的類字典稀疏識別方法與文獻[21]提出的正則化K-SVD算法,提出一種基于正則化的K-SVD算法的類字典稀疏識別方法。首先假設(shè)D中除dj的其他原子都被固定,定義Ij為系數(shù)表達中用到dj的信號的維度,則信號的表示誤差為:
(11)
從而可以推導(dǎo)出此時的優(yōu)化函數(shù)為:
(12)
其中t=‖x‖。當(dāng)t=σ1/(1+μ)時有最小值。
與典型的字典學(xué)習(xí)算法相同的是,正則化K-SVD算法也需要經(jīng)過一系列的迭代優(yōu)化得到學(xué)習(xí)的字典;與之不同的是,本文將正則化K-SVD算法與類字典稀疏識別方法相結(jié)合,也就是說通過上述步驟得到的字典并不會直接作為最終稀疏識別時的字典,而是將其作為類字典組合在一起成為一個全局字典后再進行稀疏分類?;谡齽t化K-SVD的類字典學(xué)習(xí)算法如算法1所示。
算法1 基于正則化K-SVD的類字典學(xué)習(xí)。
輸入 初始化字典D,信號樣本集A=[A1,A2,…,Ai,…,Ac],迭代次數(shù)K;
fori=1 tocdo
//字典學(xué)習(xí)
fork=1 toKdo
//稀疏編碼
固定D,使用正交匹配追蹤(Orthogonal Matching Pursuit,
OMP)算法求解稀疏表示X
//字典更新
forj=1 tondo
根據(jù)Ij中使用到dj原子表示的信號的索引計算σ1、u1、ν1
設(shè)置新原子dj=u1以及新的稀疏表達式為Xj,Ij=
σ1ν1/(1+μ)
end for
end for
end for
(13)
與全局字典識別的方法相比,類字典識別方法有著很好的類內(nèi)相關(guān)性,而與局部字典識別的方法相比,它又有著很好的類間差異性,因此該算法既可以有效地克服樣本數(shù)量少的缺陷,又可以提高場景識別的效率。
本文采用RGB-NIR 場景數(shù)據(jù)庫[12],共有9類場景的近紅外與彩色圖像對,分別為country、field、forest、indoor、mountain、oldbuilding、street、urban、water,總計有477個圖像對。仿照文獻[12]的實驗設(shè)置,實驗每類別選取11張圖像用作測試,其余圖像用于訓(xùn)練。為了驗證本文方法的有效性,將進行4組實驗。
實驗1 為了驗證近紅外圖像在場景識別中的有效性,本文首先將原始圖像和采用一些主流融合方法融合后的圖像進行了對比,結(jié)果如圖3所示。
圖3(a)、3(b)分別為原始近紅外圖像和可見光圖像,圖3(c)、3(d)、3(e)、3(f)分別為采用平均加權(quán)融合法、主成分分析法(Principal Components Analysis, PCA)、HSV顏色替換法、YCbCr顏色替換法得到的圖像。從圖3中可以看出,雖然圖像融合后顏色上有一定的失真,但圖像的分辨率和對比度都得到了很大的提高。如圖3中圖像2顯示的山峰,融合后的圖像顏色更加突出,景物表現(xiàn)更加豐富,云層的對比度也更加明顯。
圖3 不同方法圖像融合結(jié)果Fig. 3 Image fusion results by different methods
實驗2 在從視覺效果上看出近紅外圖像和可見光圖像融合的效果后,還需要從客觀指標(biāo)上驗證融合圖像的優(yōu)勢。所以,在其他實驗設(shè)置都相同的情況下,將未融合的圖像與融合的圖像分別進行特征提取與融合、類字典稀疏識別等步驟得到各種識別結(jié)果,實驗結(jié)果如表1所示。
表1 不同圖像的分類準(zhǔn)確率對比Tab.1 Classification accuracy comparison of different images
從表1中可以發(fā)現(xiàn),當(dāng)只使用可見光圖像進行分類時,平均分類精度可以達到63.64%,但只使用將近紅外圖像進行分類卻只能達到27.27%,這說明可見光圖像中含有的場景信息比近紅外圖像中含有的場景信息要多得多。但是將近紅外圖像和彩色可見光圖像融合之后,識別準(zhǔn)確度最高達到了74.75%,明顯比單一傳感器下的場景識別效果更優(yōu)秀,這說明圖像融合之后場景信息增加了,場景的可辨識度得到了一定的提高,從而證明了融合近紅外圖像場景識別中確實是有效的。另外從實驗結(jié)果最后一行來看,使用HSV顏色替換的融合方法達到了最高的識別精度,相比簡單加權(quán)平均的方法提高了5.05個百分點,比熱門的PCA融合的方法也提高了7.07個百分點,證明在進行近紅外圖像融合進行場景識別時,采用HSV顏色替換的融合方法更加有效。
實驗3 由于實驗2中進行場景分類時用到了特征融合以及基于正則化K-SVD算法的類字典稀疏場景識別,所以本文又設(shè)計了實驗3和實驗4來分別驗證這兩種方法的性能。首先,實驗3是為了驗證融合GiST和PHOG特征在本文方法中的有效性。對使用了HSV方法融合后的彩色圖像分別提取GiST和PHOG這兩種特征(具體的特征提取過程見2.2節(jié)),然后對這兩種特征進行類字典稀疏識別,單獨使用GiST特征、單獨使用PHOG特征進行分類和融合兩種特征(GiST+PHOG)進行分類的分類準(zhǔn)確率分別為67.12%、45.23%、74.75%。上述結(jié)果為所有類別的平均分類準(zhǔn)確率,通過該結(jié)果可以看出,其他參數(shù)相同時,融合兩種特征進行分類分別比單獨使用GiST特征或是PHOG特征進行分類的效果分別提高了7.63個百分點和29.52個百分點,這表明這兩種特征的融合能夠獲得更多的場景信息,在自然場景識別中是非常有效的。
實驗4 為了驗證本文提出的基于正則化K-SVD算法的類字典在稀疏場景識別中的有效性,實驗4中將本文的基于正則化K-SVD算法的類字典和一些常見的字典學(xué)習(xí)(Dictionary Learning, DL)方法進行了比較,實驗結(jié)果如表2所示。
表2 不同DL方法的分類準(zhǔn)確率對比Tab. 2 Classification accuracy comparison of different DL methods
從表2中可以看出,當(dāng)使用經(jīng)典的K-SVD算法進行字典學(xué)習(xí)時,局部字典的使用識別精度最高,這是因為在使用K-SVD算法時,往往要求生成的字典是過完備字典,即需要輸入的樣本量夠大,而本文實驗采取的數(shù)據(jù)庫樣本量較少,因此在使用K-SVD算法進行字典學(xué)習(xí)時,使用局部字典可以達到更高的識別精度;但是當(dāng)使用正則化K-SVD算法時,本文使用的類字典學(xué)習(xí)方法便顯示出了其優(yōu)越性,識別精度也達到了最高,相比簡單的全局字典、局部字典的方法,本文方法的識別精度分別提高了36.37個百分點和 6.75個百分點,比局部字典與經(jīng)典K-SVD算法的結(jié)合也提高了9.09個百分點。
基于圖像融合的原理,本文從實用角度出發(fā),提出一種彩色可見光和近紅外圖像融合的場景類字典稀疏識別方法。該方法將可見光圖像和近紅外圖像進行HSV融合,提取融合圖像的GiST全局特征和PHOG局部特征,結(jié)合類字典稀疏識別得到場景分類結(jié)果。與現(xiàn)有使用多特征提取符分類的方法相比,所提方法利用了近紅外圖像中的有效信息,為場景識別提供了更多的依據(jù)。通過在RGB-NIR數(shù)據(jù)庫上的實驗結(jié)果表明,將兩種不同傳感器獲得的圖像進行融合后的場景識別準(zhǔn)確率明顯高于單一傳感器下的場景識別準(zhǔn)確率。