彭晏飛 陶 進 訾玲玲
(遼寧工程技術(shù)大學電子與信息工程學院 遼寧 葫蘆島 125105)
數(shù)字地球時代正在向我們走來,所謂的“數(shù)字地球”是指對真實地球及其相關(guān)現(xiàn)象的統(tǒng)一性的數(shù)字化重現(xiàn)與認識[1]。遙感圖像是一種內(nèi)容豐富、覆蓋面廣、經(jīng)濟適用的空間數(shù)據(jù)載體,是數(shù)字地球項目的一項基礎性數(shù)據(jù)。隨著各項觀測技術(shù)的快速發(fā)展,遙感圖像的數(shù)據(jù)規(guī)模發(fā)生了爆炸性增長,如何對大規(guī)模遙感圖像進行高效檢索成為了數(shù)字地球建設中的瓶頸性難題。為解決這一問題,眾多專家學者在這一領域進行研究并提出了很多行之有效的方法。
與普通圖像檢索類似,遙感圖像檢索的發(fā)展也經(jīng)歷了從基于文本檢索到基于內(nèi)容檢索CBIR(Content-Based Image Retrieval)的過程。成熟的CBIR技術(shù)在遙感圖像檢索領域得到了廣泛的應用,很多的團隊和機構(gòu)通過CBIR技術(shù)開發(fā)出一些遙感圖像檢索系統(tǒng)[2-4],例如其中的QBIC系統(tǒng)、Netra系統(tǒng)等,都是通過分析遙感圖像低層視覺特征的概率密度分布來實現(xiàn)檢索的。遙感圖像是眾多圖像的一種,但它又具有自身的特點,所以完全利用CBIR來檢索大規(guī)模的遙感圖像并不能得到一個令人滿意的檢索效果。因此,眾多專家學者從遙感圖像自身出發(fā)進行探索研究并提出了很多算法。例如,中國科學院開發(fā)的Mires系統(tǒng)不僅通過機器學習來提取圖像語義特征,而且利用SVM反饋算法來調(diào)節(jié)低層特征的權(quán)值;文獻[5]等提出一種綜合圖像的視覺特征度量函數(shù)和SVM 分類器函數(shù)的相關(guān)反饋算法,提高了系統(tǒng)對用戶反饋信息的語義理解能力,優(yōu)化了檢索結(jié)果;文獻[6]中利用感知哈希將遙感圖像進行分塊哈希,解決了檢索過程出現(xiàn)的圖像尺度大、信息豐富等問題;為了提高檢索精度和優(yōu)化結(jié)果排序,文獻[7]提出了一種基于遺傳算法和SVM的檢索算法;文獻[8]將形態(tài)學理論應用到遙感圖像檢索領域,提出了一種形態(tài)學屬性面結(jié)合SVM分類算法的遙感圖像檢索技術(shù)。
遙感圖像是一種特征維度高,信息豐富的圖像。至今,遙感圖像檢索還沒有一種特別優(yōu)異的方法。利用CBIR進行檢索最大難點在于低層特征和高層語義之間的鴻溝和它差強人意的檢索效果;而當前的檢索方法都存在圖像特征表達能力不足,并且將數(shù)據(jù)映射到低維空間,計算并排序海明距離后,還需利用歐式距離進行度量,距離及空間的轉(zhuǎn)換會產(chǎn)生信息損失,導致檢索效果不理想;針對以上存在的問題,本文提出一種基于歐氏距離的遙感圖像檢索方法,利用卷積神經(jīng)網(wǎng)絡CNN(Convolutional Neural Network)提取遙感圖像特征,提高特征之間的區(qū)別度,增強了方法的特征表達能力;隨后利用精確歐式距離的局部敏感哈希E2LSH[9]建立索引結(jié)構(gòu)以加速檢索過程,并利用其性質(zhì)直接計算歐式距離來檢索結(jié)果,避免了信息損失。多次實驗表明,提出的檢索方法能有效提高圖像特征表達能力,減少信息損失,比傳統(tǒng)遙感圖像檢索方法有更好的檢索效果。
卷積神經(jīng)網(wǎng)絡是深度學習在圖像領域的實踐成果。自從2012年Krizheevsky等[10]提出的AlexNet 模型至今,卷積神經(jīng)網(wǎng)絡被廣泛的應用在了圖像分類、圖像識別等領域,并取得了令人驚喜的成績,充分向我們證明了卷積神經(jīng)網(wǎng)絡在特征提取方面的巨大優(yōu)越性。基于卷積神經(jīng)網(wǎng)絡的各項研究成果展示在我們面前,讓我們認識到卷積神經(jīng)網(wǎng)絡的自主學習特征能力和強大的特征表達能力。自此,我們有了新的思考方向和研究路線,不再局限于對CBIR檢索結(jié)果優(yōu)化,利用卷積神經(jīng)網(wǎng)絡提取計算機視覺特征,對圖像內(nèi)容有了更加準確精細的描述,更有利于圖像檢索。
哈希技術(shù)將數(shù)據(jù)映射到低維空間內(nèi),使數(shù)據(jù)降維并在低維空間內(nèi)進行度量計算,故而使得哈希技術(shù)在速度和存儲上具有了很大優(yōu)勢,也使得哈希技術(shù)成為了高維數(shù)據(jù)近似近鄰搜索的主流方法。局部敏感哈希LSH(Locality-Sensitive Hashing)[11-12]是哈希與圖像的第一次結(jié)合,將圖像特征映射到低維的海明空間內(nèi),計算海明距離。但我們在進行距離比較的時候一般使用的都是歐氏距離,因此還需將兩種距離進行變換,這種映射與換算的過程不僅麻煩而且會引入很大的誤差。E2LSH是一種基于P穩(wěn)定分布的LSH,此方法不需要映射到低維空間,可以直接計算歐式距離,且利用P穩(wěn)定分布的性質(zhì)可以高效地近似高維特征向量,并在保證度量距離的同時,對特征向量有效降維。
本文的算法結(jié)構(gòu)圖如圖1所示。
圖1 算法結(jié)構(gòu)圖
遙感圖像質(zhì)量受大氣狀態(tài)和拍攝設備影響,為了有更好的檢索效果,我們需要在檢索之前對遙感圖像進行預處理?;谛〔ㄗ儞Q的圖像去噪算法是眾多去噪算法眾多佼佼者,所以我們實現(xiàn)了文獻[13]中的小波變換去噪算法來實現(xiàn)遙感圖像預處理。
從頻域特征上來看,圖像中的噪聲往往是一種高頻的分量,而大面積的圖像背景區(qū)域是低頻部分,通過這一特點,我們想做的就是把代表噪聲的高頻部分去掉。將圖像進行小波分解之后得到各個分解層的小波系數(shù),設定某一閾值,對大于和小于這一閾值的小波系數(shù)分別進行處理,最后利用處理過的小波系數(shù)進行重構(gòu)復原圖像。
一個含噪聲的圖像可以表示為:
s(i,j)=f(i,j)+n(i,j)
(1)
式中:f(i,j)表示原始圖像;n(i,j)為噪聲。
其去噪過程如下:
(1) 選擇一種小波并確定分解層次N,對信號s進行分解,利用mallat金字塔算法得到各級小波系數(shù)。
(2)
(3)
(2) 確定閾值,對高頻小波系數(shù)進行閾值量化。閾值的確定有很多方法,不同的閾值確定方法代表了對高頻系數(shù)的不同的量化策略。本文采用的是常見的軟閾值法。
根據(jù)低頻小波系數(shù)和被處理過的高頻系數(shù),對圖像進行重構(gòu)復原。
(4)
經(jīng)過小波閾值去噪,圖像的質(zhì)量得到一定的改善。圖2為原圖和經(jīng)過小波去噪后圖像的對比圖,由效果可知,經(jīng)過處理的圖像分辨率明顯高于原圖。
(a) 原圖像 (b) 預處理之后的圖片 圖2 效果對比圖
隨著卷積神經(jīng)網(wǎng)絡的深入研究和應用,卷積神經(jīng)網(wǎng)絡在計算機視覺領域取得了突破性發(fā)展,特別是圖像理解方面,基本取代了傳統(tǒng)圖像表示方法。MatConNet是一實現(xiàn)卷積神經(jīng)網(wǎng)絡的Matlab工具包,可以學習一些已經(jīng)訓練過的大型深度CNN模型,如AlexNet、GoogLeNet、VGGNet[14-15]等。MatConNet除了自身包含了很多的CNN計算塊,還允許研究者自己編寫新的計算塊,如卷積、歸一、池化等,來提高計算效率。相比于Caffe而言,MatConNet安裝簡單使用方便,為研究者提供了一個友好的使用環(huán)境。
本文采用的模型是VGGNet-D[16]模型,它在ILSVRC數(shù)據(jù)集上訓練過,取得了很好的成績,并且這一模型的泛化性非常好,將模型遷移到其他圖片數(shù)據(jù)上也可以取得很好的效果。VGGNet-D模型也就是我們常說的VGGNet-16模型,包含13個卷積層和3個全連接層。VGGNet-D模型整體采用若干個3×3的卷積核來代替5×5、7×7這樣的卷積核,因為這樣可以提取更多的消息。利用該模型進行特征提取時,首先會對輸入的圖片進行去均值預處理;然后通過3×3的卷積核進行卷積、池化交替操作,來發(fā)掘深層特征。
E2LSH是一種基于P穩(wěn)定分布的局部敏感哈希改進形式,也是一種專門針對大規(guī)模高維數(shù)據(jù)的ANN算法。其基本思想與LSH一致,找到一種hash映射,能夠使相鄰數(shù)據(jù)被映射到同一hash桶的概率最大,不相鄰數(shù)據(jù)被映射到同一hash桶中的概率最小。進行查詢時,只需將查詢點映射到某個hash桶中,在桶中進行查詢,這樣既節(jié)省了距離的計算,也減少了查詢時間。構(gòu)造hash函數(shù)是LSH算法的關(guān)鍵步驟,而這種能是相鄰數(shù)據(jù)經(jīng)過hash變換之后映射到同一個hash桶中的hash函數(shù)需要滿足以下兩個條件:
1) 如果d(x,y)≤d1,則PrH[h(x)=h(y)]≥p1
2) 如果d(x,y)≥d2,則PrH[h(x)=h(y)]≤p2
其中d(x,y)表示x和y之間的距離,d1
2.3.1P穩(wěn)定性質(zhì)構(gòu)建hash函數(shù)
(5)
(6)
式中:a是一個d維隨機向量,每一維都是獨立隨機從滿足P穩(wěn)定分布的變量中選擇的,b是一個[0,w]范圍內(nèi)的隨機數(shù)。
2.3.2 特征向量碰撞概率
任課教師必須在為學生布置練習題時,充分考慮到練習題的內(nèi)容是否能夠讓學生從中獲益,同時要確保所布置的習題能夠精準地覆蓋到班級之中的每一位學生身上,而不是讓習題僅僅成為部分學生的專利。為此,任課教師要采取分層習題的設計方式,以此來提升習題的有效性、針對性和覆蓋性。
(7)
由以上概率公式可知,當參數(shù)w固定時,碰撞概率隨著c的減小而增大。因此,該哈希函數(shù)是局部敏感的。由文獻[18]分析可得最優(yōu)的參數(shù)設置為:
r=4.0c=2.0p1=P(1)p2=P(c)
2.3.3 建立索引結(jié)構(gòu)
為了避免單個哈希函數(shù)帶來的隨機性誤差,故設計L個函數(shù)組gi(v),每個函數(shù)組K個隨機從哈希簇ha,b(v)中選取的哈希函數(shù)組成,其函數(shù)格式如下:
gi(v)=(ha1,b1(v),ha2,b2(v),…,hak,bk(v))
(8)
每個d維特征向量經(jīng)過gi(v)變換后變成K元組(X1,X2,…,Xk),其中Xi是一個正整數(shù)。直接將(X1,X2,…,Xk)存入哈希表中,不僅耗費內(nèi)存且不便于查找,因此設計了兩個主次哈希函數(shù)h1和h2,他們的具體形式如下:
(9)
(10)
通過以上函數(shù)構(gòu)成了整個算法的索引結(jié)構(gòu),產(chǎn)生了L個哈希表。h1(v)和h2(v)兩個函數(shù)產(chǎn)生的兩個函數(shù)值h1和h2,其中h1是哈希表的index,指向哈希表的某個索引處;h2是h1指向的索引處的桶號。每個數(shù)據(jù)點經(jīng)過以上過程后,h1和h2相同的數(shù)據(jù)點會被存入同一個桶中。每個數(shù)據(jù)會被分別存入L個哈希表中,具體的哈希的結(jié)構(gòu)如圖3所示。
圖3 索引結(jié)構(gòu)
UC Merced Land Use Dataset[19]是一個常用的遙感圖像數(shù)據(jù)集,是從美國地質(zhì)調(diào)查局國家城區(qū)地圖的圖像集合中手動提取出來的,其中包含了森林、海邊、飛機等21個類別,每個類別具有100張大小為256×256的圖像數(shù)據(jù)。為了驗證本文方法的有效性,在實驗中,本文選取譜哈希算法SH[20],主成分分析迭代量化算法PCA-ITQ[21],密度敏感哈希算法DSH[22],位移不變內(nèi)核局部敏感哈希算法SKLSH[23]以及深度學習與二進制哈希相結(jié)合的方法CNNH[24]作為對比算法。本文使用查準率(Precision)和查全率(Recall)以及P-R曲線作為評價指標。
圖4所示為本文方法與對比方法的檢索結(jié)果top10的一個對比表,由上述圖標可知,本文方法的檢索結(jié)果的前十幅全部為查詢圖像的相似圖像,而CNNH、DSH、ITQ以及SH算法top10中有9幅相似圖像,SKLSH效果最差,只有8幅相似圖像。由此可見,本文方法在檢索效果上是優(yōu)于其他算法的。
圖4 檢索結(jié)果top10圖像對比
查全率是檢索結(jié)果中的相似圖像數(shù)占數(shù)據(jù)集中相似圖像數(shù)的比例。圖5為本文方法與對比算法PCA-ITQ、DSH、SH、SKLSH以及CNNH的查全率對比圖。由圖中可以看出,隨著返回圖像數(shù)目的增加,相似圖像被檢索出來的可能在提高,故而算法的查全率隨著數(shù)目的增大也在變大,但我們可以看到在增長過程中,本文算法的查全率高于其他對比算法。
圖5 查全率對比圖
查準率是檢索結(jié)果圖像中相似圖像數(shù)占檢索結(jié)果數(shù)的比例。圖6為本文方法與對比算法PCA-ITQ、DSH、SH、SKLSH以及CNNH的查全率對比圖。圖中顯示隨著返回圖像數(shù)目的增加,公式基數(shù)不斷增加,所有算法的查準率都在下降。但本文方法經(jīng)過卷積神經(jīng)網(wǎng)絡提取特征,使得特征更具有區(qū)別,故而本文算法在下降過程也始終高于其他算法,在圖像數(shù)100到200之間,本文算法比DSH和ITQ高出了23.5%,比SH和SKLSH高出了50%。
圖6 查準率對比圖
P-R曲線是本文所有測試圖像進行距離由大到小排序后,由查準率與查全率構(gòu)成的曲線。本文算法與對比算法的P-R曲線如圖7所示,由圖可知,本文算法的P-R曲線完全將對比算法的曲線包圍住,可見本文算法的效果性能均優(yōu)于對比算法。P-R曲線所圍成的面積等于該算法的MAP,同樣可以證明本文算法的優(yōu)異性。
圖7 P-R曲線
針對當前遙感圖像檢索方法圖像特征表達能力不足、遙感圖像特征維度高以及信息損失等問題,本文提出一種將E2LSH結(jié)合卷積神經(jīng)網(wǎng)絡的遙感圖像檢索方法。本文方法利用小波變換去噪的原理對圖像進行預處理之后,充分考慮的遙感圖像的特征特點,利用卷積神經(jīng)網(wǎng)絡提發(fā)掘圖像的深層特征及特征之間的隱含關(guān)系,提高了圖像特征的區(qū)別度以及特征描述能力;利用哈希算法E2LSH對高維特征進行高效降維并建立哈希結(jié)構(gòu),加快檢索過程,減少信息損失。經(jīng)過多次實驗證實了本文方法的查準率與查全率有更好的性能表現(xiàn)。