邢若蕓,冉樹浩,高賢君,,楊元維,2,4,方 軍
(1. 長江大學地球科學學院,湖北 武漢 430100; 2. 湖南科技大學測繪遙感信息工程湖南省重點實驗室,湖南 湘潭 411201; 3. 湖南科技大學地理空間信息技術(shù)國家地方聯(lián)合工程實驗室,湖南 湘潭 411201; 4. 城市空間信息工程北京市重點實驗室,北京 100045)
城中村是指由于城市迅速擴張、耕地征用,而保留的宅基地等集體建設(shè)用地區(qū)域[1-2]。城中村區(qū)域的精確檢測識別在統(tǒng)籌城鄉(xiāng)發(fā)展和改善民生方面具有重要意義。城中村內(nèi)部建筑物混雜密集,缺乏合理規(guī)劃和有效管理,傳統(tǒng)人工走訪調(diào)查方式費時費力,難以滿足大區(qū)域監(jiān)控、周期性更新的現(xiàn)實需求,亟需一種面向場景的城中村快速識別和監(jiān)控方法。
目前基于高分辨率遙感影像的場景識別方法主要包括特征分類法、語義分類法、學習分類法[3]。特征分類法主要是提取顏色紋理等特征,對圖像進行描述,如文獻[4]利用隨機森林分類器對基于紋理、形態(tài)剖面、偏振特征的空間圖像描述符進行城中村提取。該方法對于簡單的分類任務有較好的效果,但受限于特征算子的提取能力,在復雜場景下分類精度較低。文獻[5—7]提出了基于隱狄利克雷分配(latent Dirichlet allocation,LDA)模型的無監(jiān)督語義框架,進行目標建筑物的識別,將語義分類法應用于復雜場景分類。詞袋模型(bag of word,BOW)是指將每篇文檔視為一個詞頻向量,將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息,應用于視覺處理領(lǐng)域,形成了視覺詞袋模型(bag of visual word,BOVW)[8],它包含豐富多樣的語義信息,并在圖像分類和場景識別[9]等領(lǐng)域獲得廣泛應用。文獻[10]設(shè)計了基于BOVW的高分辨率影像土地利用分類方法,并在土地利用數(shù)據(jù)集上取得了較好的分類效果。文獻[11]提出了一種針對高分影像的局部-全局特征視覺詞袋場景分類器,詞典中包含更豐富的特征。隨著計算機算力的提升,學習分類法被用于場景識別,通過自學習方式,利用聯(lián)想反饋機制學習圖像特征信息從而實現(xiàn)識別。文獻[12]采用視覺詞袋模型,將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[13-14]作為特征提取器,能夠從地理場景圖像中學習到更豐富的視覺詞。文獻[15]利用遷移學習的全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)提取城中村,取得了較高精度。識別精度與訓練樣本數(shù)據(jù)量呈正相關(guān),在訓練樣本充足的情況下可獲得較高的精度,但城中村樣本獲取難度大,難以實現(xiàn)大范圍的普及應用。BOVW不過度依賴訓練數(shù)據(jù),在小數(shù)據(jù)集分類任務中,仍然能取得較好的分類精度,且對硬件資源要求不高。但現(xiàn)有的BOVW關(guān)注全局特征,而非局部突出區(qū)域。本文提出將尺度不變特征轉(zhuǎn)換(scale invariant feature transform,SIFT)滑動格網(wǎng)密集采集(GridSIFT)與多分辨率顏色矢量角特征進行融合的方法,對細節(jié)特征與顏色特征進行提取,進而實現(xiàn)城中村的精確識別。
傳統(tǒng)詞袋模型聚焦于局部紋理與結(jié)構(gòu)特征的提取,缺乏對多分辨率特征與光譜信息的挖掘。而在城中村提取過程中,光譜特征作為區(qū)分地物類別的有效依據(jù),具有重要的提取價值。因此,本文設(shè)計顧及多分辨率特征的復合字典,包含GridSIFT特征提取、多尺度空間矢量角特征提取、字典編碼、多特征融合及分類等步驟。
如圖1所示,復合字典的實現(xiàn)過程為:通過提取圖像中的特征區(qū)域,將相似的區(qū)域聚類為一個視覺單詞,統(tǒng)計視覺單詞出現(xiàn)的頻率,以直方圖的形式表示,圖像被抽象成直方圖后進行分類,由分類器完成分類。
圖1 多分辨率特征復合字典流程
利用多分辨率特征復合字典模型表示圖像的步驟為:首先將每幅影像Ii劃分為均勻格網(wǎng),然后通過滑動窗口G(x,y)在每個窗口提取一個SIFT特征,最后將影像Ii的3層進行Haar小波分解,計算每層的小波系數(shù)。
在每個小波分解尺度上提取特征點后,將每層的特征點映射至原圖尺度上,得到特征點后計算每個點與周圍3×3窗口的顏色矢量角。顏色矢量角θ的取值范圍為[0°,90°]。以0.5°為一個區(qū)間統(tǒng)計直方圖,形成180個一維顏色特征。
假設(shè)訓練集中有N幅影像,共檢測到若干局部特征fij,i=1,2,…,N,j=1,2,…,Si,其中Si為圖像i中特征的總數(shù)。量化特征形成視覺單詞為
(1)
(2)
(3)
(4)
式中,ws為從訓練圖像集提取的SIFT特征構(gòu)建的詞匯表。計算完成圖像的直方圖后,通過直方圖融合將其連接形成聯(lián)合直方圖hIi,將式(3)、式(4)合并可得
(5)
圖像特征直方圖提取后,由分類器完成直方圖匹配,對圖像進行分類。分類完成后依據(jù)空間關(guān)系進行識別結(jié)果的后處理,對于識別為城中村的影像單元且周圍均為非城中村的影像單元,修正為非城中村單元。
SIFT常被用于提取圖像的結(jié)構(gòu)特征[16],其所提取的特征點具有良好的穩(wěn)定性,通常不受尺度、角度、光照化、噪聲等信息的干擾。傳統(tǒng)SIFT是一種基于全局的特征提取方式,能有效避免特征點冗余,但同時也易造成一些具有代表性的局部特征點被忽略。相較于隨機采樣,密集格網(wǎng)采樣更有效[17]。
1.2.1 SIFT提取原理
傳統(tǒng)SIFT特征的提取步驟主要為:①構(gòu)建尺度空間;②確定關(guān)鍵點;③構(gòu)建關(guān)鍵點描述符。構(gòu)建尺度空間時,通過高斯核函數(shù)進行構(gòu)建,完成尺度空間構(gòu)造后,確定關(guān)鍵點并構(gòu)建描述符。對比每個點及其周圍所有點的大小,即同尺度的相鄰8個點和上下尺度的9個點,共26個點,將極值點作為特征點。計算關(guān)鍵點描述符時,為了保證描述符的旋轉(zhuǎn)不變性,需要利用圖像局部特征為關(guān)鍵點分配方向,即確定主方向。以關(guān)鍵點為中心選擇16×16的區(qū)域,利用梯度和方向分布特點可以得到梯度模值和方向。
統(tǒng)計8個方向出現(xiàn)的頻率并繪制直方圖,直方圖的峰值為該點的主方向。將坐標軸旋轉(zhuǎn)至主方向,把關(guān)鍵點的周圍區(qū)域劃分為4×4個子區(qū)域,對每個子區(qū)域內(nèi)的所有像素進行梯度方向θ′和梯度模值m′的計算,方法與確定主方向類似。最終得到每個子區(qū)域8個方向上高斯加權(quán)的梯度幅值之和,即每個關(guān)鍵點得到一個16×8維的描述向量。
1.2.2 特征提取
針對局部關(guān)鍵點被忽略的問題,GridSIFT法通過滑動窗口對場景影像進行SIFT特征提取。首先將場景影像分割為多個像素,即重疊度為4像素、大小為8×8像素的子圖像塊;然后在每個子圖像塊中提取一個SIFT特征向量;最后得到225個SIFT特征向量。影像分割過程中,像素重疊值越小,則子圖像的重疊度越高,采樣率越高。通過選擇合適的圖像塊大小和重疊值,可在保證采樣量的同時避免冗余。GridSIFT特征與全局SIFT特征提取步驟基本一致,區(qū)別在于選擇最大值時,前者中一個窗口只取一個最大值計算SIFT特征向量。采用格網(wǎng)采樣而非關(guān)鍵點采樣計算SIFT描述子的原因在于,稠密采樣能夠提取到包含更多圖像細節(jié)的全局信息[18],且可為每幅圖像生成數(shù)量恒定的特征。
1.3.1 多分辨率特征點提取
在高分辨率遙感影像中,不同大小的建筑物同時存在,尺度差異明顯。為實現(xiàn)對不同大小建筑物的準確判別,同時關(guān)注城中村等小型建筑局部特征,需進行多分辨率特征點的提取。多分辨率特征點的提取過程如圖2所示,其主要原理為,通過小波分解的方法得到多分辨率特征,可以由粗到細提取代表性點作為多分辨率關(guān)鍵點。具體步驟可描述為:
圖2 多分辨率特征點提取流程
(1)將影像I轉(zhuǎn)為灰度圖像,并進行一次雙倍上采樣,得到upsampling_I。
(2)對上采樣圖像進行小波分解,分解為分辨率不同的3層。
(3)將第i層的高頻分量{CDi,CVi,CHi}標準化,若同一層像素的3個高頻分量均大于0.6,將該點作為備選點。
(4)求3個高頻分量之和形成一個分量,在該分量上以備選點為中心的5×5窗口內(nèi),若備選點最大則為特征點,反之則刪除該點。
(5)分別求3層中的特征點,將3層特征點映射在原圖上,映射坐標公式為
(6)
式中,L為小波分解的層數(shù);(x,y)為在小波分解層的坐標;(X,Y)為原圖坐標。
1.3.2 基于顏色矢量角的直方圖(CVAH)
為提取更豐富的細節(jié)與顏色特征,并增強特征字典的穩(wěn)健性,以構(gòu)建的顏色矢量角直方圖作為顏色特征,并將顏色特征與其他特征融合。在RGB顏色空間中,度量兩個像素值間的色差最簡單的方式為歐式距離法。歐式距離計算方法簡單,具有旋轉(zhuǎn)不變性。然而,RGB顏色模型不是均勻空間,歐式距離對圖像的亮度變化非常敏感,而對色調(diào)和飽和度的變化不敏感,因此歐式距離很難反映兩種顏色的視覺差異。假設(shè)在RGB顏色空間中有c1、c2、c3、c44點,兩個顏色對(c1,c2)和(c3,c4)的歐式距離相等但視覺差異很大。因此,角度衡量顏色差異優(yōu)于歐式距離法。
在RGB空間中,顏色矢量角(CVA)表示兩個相鄰像素的RGB顏色向量之間的夾角,公式為
(7)
式中,(r1,b1,g1)為RGB顏色空間某個像素的顏色向量值;(r2,b2,g2)為與(r1,b1,g1)相鄰像素的顏色向量值;θ為兩個像素之間的顏色矢量角。
以多尺度關(guān)鍵點為中心,選取周圍3×3的窗口,求關(guān)鍵點與局部區(qū)域8個像素的顏色矢量角,顏色矢量角反映了關(guān)鍵點和周圍點的視覺色差,范圍為[0°,90°]。均勻量化顏色矢量角,量化階距為0.5°,計算每個角度區(qū)間的像素數(shù),形成顏色矢量角直方圖,形成180個一維的顏色特征。
量化特征詞時,由于場景尺度、角度及光照的變化,同一特征可能對應多個視覺詞[11],不同特征的視覺詞之間指代的特征有很大差別,因此在生成視覺詞典時需要進行字典編碼和特征融合。將SIFT特征通過K-means聚類量化,具有相似特征值的影像單元被聚類為一個視覺詞。假設(shè)一個n幅影像組成的影像集A={a1,a2,…,an},一幅影像被分為P個子影像單元,提取量化特征描述符X={x1,x2,…,xp},隨機聚類得到K個聚類中心C,公式為
(8)
式中,Sj表示聚類中心Cj的特征向量集合。通過計算特征向量xi與聚類中心Cj的最小值,確定代表子影像單元的視覺詞,將圖像分別按照不同特征視覺詞編碼后,統(tǒng)計每個視覺詞出現(xiàn)的頻率,生成具有H1個視覺詞柱的特征直方圖。與SIFT特征量化相似,顏色特征量化得到具有H2視覺詞柱的顏色矢量角特征直方圖。最后將兩個特征直方圖橫向拼接,即具有N幅影像經(jīng)直方圖融合后形成(H1+H2)×N維的語義表達。
特征直方圖融合后,利用分類器將特征進行分類。常用的分類器包括支持向量機、隨機森林等,本文采用隨機森林分類器對影像進行分類。
由于城中村具有大范圍聚集出現(xiàn)的特點,因此對識別結(jié)果中明顯錯分的影像單元進行后處理,搜尋空間上無相鄰關(guān)系的城中村影像單元,改為非城中村。即檢索每一個城中村單元,以城中村單元為中心的3×3窗口內(nèi)若除了中心影像單元外無其他影像單元為城中村,則將該城中村單元修正為非城中村單元。
為了對本文方法的有效性進行評估,設(shè)計對比試驗:與經(jīng)典深度學習方法對比,將本文方法與遷移學習VGG16和ResNet50方法對比;不同特征描述符對比,將SIFT、加速穩(wěn)定特征(speeded up robust features,SURF)與本文的GridSIFT方法對比;分析多分辨率顏色特征對精度的影響,對比融合多分辨率顏色特征后識別精度。選取總體精度(OA)、回歸系數(shù)(Kappa)兩個評價指標對試驗結(jié)果進行定量評價分析。
數(shù)據(jù)源為高分二號遙感可見光影像,空間分辨率為1 m,圖像大小為15 960×7980像素。參考城中村實地大小,選取64×64像素大小的無重疊區(qū)域,共采集2780幅影像,其中城中村1333幅,非城中村1447幅,按照2∶1的比例劃分訓練集和測試集。
為與當前計算機視覺領(lǐng)域常用的深度學習圖像分類方法進行對比分析,選取在ImageNet數(shù)據(jù)上的預訓練VGG16[19]與ResNet50[20]模型進行遷移學習[21-22]。神經(jīng)網(wǎng)絡(luò)訓練次數(shù)均為100,學習率為0.001,優(yōu)化器選擇RMSProp,訓練集和測試集與本文方法保持一致,試驗結(jié)果見表1(列最佳值已用粗體突出顯示)。
表1 與經(jīng)典深度學習網(wǎng)絡(luò)精度對比 (%)
由表1可知,VGG16的分類精度為85.3%,ResNet50的精度為88.1%,ResNet網(wǎng)絡(luò)在VGG網(wǎng)絡(luò)的基礎(chǔ)上增加了長度,加入Resblock殘差模塊避免了梯度消失;本文方法的最優(yōu)精度為90.08%,明顯優(yōu)于VGG16和ResNet50分類方法。
為了評估本文方法的識別結(jié)果,與遷移學習的ResNet50識別結(jié)果進行可視化結(jié)果對比,并選擇8個典型區(qū)域的識別結(jié)果進行詳細分析。
如圖3所示,與ResNet50相比,本文方法的城中村識別結(jié)果與人工目視解譯遙感影像結(jié)果吻合度更高。在如圖4所示的局部放大圖中,區(qū)域1—4城中村附近建有大量的廉租房或廠房等易混淆建筑,由于密集采樣法提取場景全局特征,注重全圖特征的提取,因此本文方法在識別時有較高的準確度,ResNet50則易將周圍混淆區(qū)域與灌木叢錯分為城中村。區(qū)域5—8城中村邊界明顯較空曠,ResNet50在識別時將城中村識別為非城中村,存在大量的識別錯誤。由于本文方法引入了多分辨率顏色特征,對城中村這種小建筑物顏色細節(jié)更加敏感,可以將城中村正確識別。
圖3 研究區(qū)城中村識別結(jié)果
圖4 典型區(qū)域城中村識別結(jié)果對比及原始影像
試驗選擇SURF[23]、SIFT及GridSIFT提取特征作為特征描述符,分類器使用隨機森林分類器,分類器參數(shù)采用交叉驗證法確定。復合字典的規(guī)模大小取決于詞袋中的詞數(shù),本文試驗中詞數(shù)為K={90,100,110,120,150,200,300},通過調(diào)整K-means聚類數(shù)實現(xiàn)。對每個詞數(shù)大小場景生成的特征向量,重復分類5次,以分類平均值作為最終分類結(jié)果。K在90~150范圍時,詞數(shù)與分類精度無顯著關(guān)系;在150~300范圍時,詞數(shù)與分類精度成反比,詞數(shù)變大時精度降低,多次試驗分類精度的最大最小值之間的差值變大。與SIFT和SURF相比,GridSIFT方法的總體精度和Kappa系數(shù)都有明顯優(yōu)勢。由表2可知(列最佳值已用粗體突出顯示),GridSIFT方法的Kappa值均在75%以上,說明該方法預測結(jié)果和實際分類結(jié)果有較好的一致性。使用SURF描述符在K為120左右時精度最佳,達80.78%。使用SIFT描述符在K為200左右時精度最佳,達86.57%。使用GridSIFT描述符最佳精度與SIFT最佳精度相比提升2.72%,Kappa系數(shù)提升5.48%。
表2 特征描述符精度評價 (%)
為了驗證多尺度顏色特征提取(CVAH)方法的有效性,分別將SURF、SIFT、GridSIFT特征提取方法與其進行融合,并與單一特征方法作對比。由圖5中的對比結(jié)果可知,融合CVAH特征后,幾種特征提取方式的精度均有所提升,SURF特征與CVAH特征融合后顯著提高了精度,但對于CVAH特征,敏感性弱于SIFT和SURF;均勻格網(wǎng)的提取方法相較于極值特征提取方法,特征提取更加均勻豐富,對于其他特征的敏感性低于其他兩種方法。SIFT特征與CVAH特征融合后,提升精度的同時,精度與詞數(shù)之間的相關(guān)性變得更弱;在K為90~300范圍時,總體精度均大于88%。GridSIFT特征與CVAH特征融合后,也明顯提高了分類精度均值。CVAH特征與SURF、SIFT、GridSIFT特征融合后,最佳總體精度分別提升了2.28%、2.10%、0.79%,驗證了CVAH特征對提升分類精度的有效性;與SIFT特征相比,GridSIFT+CVAH特征融合后精度提升了4.51%。
圖5 融合多尺度顏色特征平均精度對比
本文提出了一種顧及多分辨率特征復合字典高分辨率遙感影像城中村提取方法,通過將GridSIFT與多尺度顏色矢量角融合,可以有效區(qū)分色彩顯著差異的錯分圖像。引入多分辨率顏色特征對建筑物細節(jié)顏色特征進行提取,精度得到提升。與經(jīng)典深度學習方法相比,總體精度較VGG16和ResNet50分別高出4.78%和2.28%。與不同特征描述符對比,本文的GridSIFT方法精度均高于SIFT、SURF特征提取方法。