王 倩 寧 芊,* 盧湖川 楊曉敏 陳炳才 雷印杰
1(四川大學電子信息學院 四川 成都 610065) 2(新疆師范大學物理與電子工程學院 新疆 烏魯木齊 830054) 3(大連理工大學信息與通信工程學院 遼寧 大連 116024)
遙感[1]是一種基于航拍技術的新型技術與科學。通過遙感技術,人們可以從遙遠的高空得到想要獲取位置的地表信息,它的快速發(fā)展為地表信息的累積、以遙感信息為基礎的研究和遙感場景數(shù)據(jù)集的創(chuàng)建等方面作出了巨大貢獻,被廣泛運用于環(huán)境保護、地質調查和測量、土地利用和土地覆蓋的確定、礦產勘探等社會規(guī)劃中[2]。在遙感場景圖像(RSI)分類研究中,特征提取與處理以及分類器的選擇都是場景正確分類的關鍵前提。
現(xiàn)階段特征表示方式及處理方式包括多種,如低層特征、中層特征、深度特征。在低層特征中,包含尺度不變特征變換特征(SIFT)[3-4]、方向梯度直方圖特征(HOG)[5]、GIST特征和Gabor特征[6]等;中層特征一般是通過對低層特征進行統(tǒng)計計算或者編碼得到的,比較熱門的方法是詞袋模型(BOW)[7]。在近期,許多以BOW為基礎的研究方式涌出,例如視覺詞袋模型(BOVW)[7-8]。徐培罡等[9]提出用多重分割關聯(lián)子特征的特征研究方法對低層特征進行特征融合,再使用BOVW對融合特征進行處理,但是低層特征的圖像描述能力弱,并且特征提取與處理的過程繁瑣,最終的分類效果也較差。中、低層特征提取及處理對研究人員的經驗要求很高,耗時更多,最終的分類效果也不會有很大的提升。
深度學習的出現(xiàn)為特征提取提供了一種新思路。例如,Liu等[2]采用兩種深度卷積神經網(wǎng)絡(DCNN)模型中提取的卷積特征經過特征融合后再形成最終的全局特征,但是通過人工處理形成的全局特征與計算機直接提取的深度全局特征在描述能力上具有一定的差距,因此最終的分類效果不是很好。Gong等[8]以卷積神經網(wǎng)絡深度特征和詞袋模型為基礎,提出卷積特征包(BoCF)的新語義描述,以提高特征描述能力,分別使用兩種DCNN的卷積層特征用于分類器訓練,但是單模型提取的特征,描述能力有限,因此最終分類效果不佳。孟慶祥等[10]提出改進DCNN模型,通過正則化、dropout等手段避免過擬合現(xiàn)象,但是由于深度網(wǎng)絡結構復雜、參數(shù)眾多、精度提高不大的情況導致訓練緩慢。此外,在分類問題中,分類器的選擇與設計也是很重要的,例如文獻[2]中采用的是線性SVM,文獻[8]中采用的是一對多SVM。但是常規(guī)SVM在多類分類問題中,效果并不是特別理想。
由此可見,雖然現(xiàn)階段基于深度特征在遙感場景分類領域都有大量的成功應用,但是也存在一些問題。一方面,深度特征的特征描述能力對比于低中層特征提高很多,但是單模型的深度卷積特征通過特征處理形成的全局特征或者直接提取的深度特征描述能力依然不是很好;另一方面,使用卷積神經網(wǎng)絡(CNN)訓練分類模型,在小樣本數(shù)據(jù)集上的訓練很容易導致過擬合,而在大數(shù)據(jù)集上的訓練時間長,對硬件設備要求也較高。此外,SVM大多是通過單核函數(shù)映射,在類別較少的數(shù)據(jù)集上分類效果好,但是隨著類別的增多,效果也會變差。因此,基于以上考慮,以提高遙感場景分類能力為最終目的,本文從特征描述能力與分類器的分類能力兩方面進行改進。先將從兩種DCNN預訓練模型VGGNet-16和ResNet-50中提取的深度全局特征進行特征融合,以擴充單模型特征描述能力;基于與SVM原理相似的相關向量機,設計并構建MMRVM分類器,并運用于遙感場景分類領域中進行訓練及分類以提高最后的分類效果。實驗證明,特征融合結合MMRVM(Fusion MMRVM,F(xiàn)-MMRVM)對UCM數(shù)據(jù)集進行遙感場景分類效果較好,構建LSV數(shù)據(jù)集,并在LSV大場景圖像上進行場景級分類中的應用表現(xiàn)良好。
隨著分類任務的加重以及數(shù)據(jù)類別的增多,主要針對二分類任務的RVM不再能滿足分類需求,所以Psorakis等[11]針對多分類任務再結合RVM提出MMRVM。與RVM相同,MMRVM是基于貝葉斯框架訓練學習,由多項后驗似然函數(shù)實現(xiàn)多類及概念輸出[12]。
(1)
加入回歸目標Y∈RN×C和權重W∈RN×C,得到最后的噪聲模型為:
(2)
式中:ync為回歸目標函數(shù);wc為權重。
為了將回歸目標轉換成存在類別,引入了多項概率連接函數(shù)tn=i,yni>ynj,j≠i,再結合文獻[11],得到最終的多項概率似然函數(shù)如下:
(3)
使用快速type-II最大似然函數(shù)進行參數(shù)的更新。根據(jù)log邊緣函數(shù)推導得到:
C=I+KA-1KT
(4)
C可分解為:
(5)
在C分解式中,C-i代表刪除了第i個樣本后的C值,表達式如下:
(6)
log邊緣函數(shù)可再次被分解為:
L(α)=L(α-i)+l(αi)
(7)
(8)
(9)
結合文獻[11-12]在訓練模型的過程中,最大后驗值被更新為:
(10)
(11)
式中:K*∈RN×M;A*∈RM×M;M< 再根據(jù)式(4)得到后驗分布為: (12) ?c≠i 先驗參數(shù)的后驗分布如下: P(A|W)∝P(W|A)P(A|v)∝ (13) Yosinski等[13]通過對CNN模型每一層特征的特征遷移性進行研究,發(fā)現(xiàn)從第一層網(wǎng)絡提取的特征就是低層特征,與最終的分類結果關聯(lián)性很小,但是最后一層的特征卻起到關鍵性作用。此外,訓練一個新的、高精度的深度卷積神經網(wǎng)絡需要依賴于一個很大的數(shù)據(jù)集且對硬件設備要求高、耗時長,而預訓練CNN模型的學習卷積核對于數(shù)據(jù)的依賴性比較低,所以在本文的研究中,將由大型數(shù)據(jù)訓練過的DCNN模型作為特征提取器,以提取圖像特征。單獨的DCNN模型中提取的深度特征雖然已經包含了大部分圖像的語義特征,但是由于dropout等算法,會造成部分特征丟失。此外,在多分類任務中,分類器的選擇錯誤會導致分類效果大打折扣,所以本文提出將兩種DCNN模型VGGNet-16和ResNet-50中提取的深度特征進行特征融合,以彌補丟失特征,進一步提高特征描述能力,結合MMRVM分類器原理,設計多核相關向量機,以提高分類器的分類能力?;谏鲜隹紤],提出如圖1所示方法,以提高圖像場景分類效果。 圖1 實驗原理 圖1中主要分為兩大部分。第一部分是特征處理,包括特征提取、特征融合和特征降維。首先使用在ImageNet數(shù)據(jù)集上訓練過的VGGNet-16和ResNet-50模型作為特征提取器,用于全局特征的提取。遙感圖像在兩種DCNN中經過卷積操作以及全連接層的映射后,分別得到最終的全局特征,1×1 000的一維特征向量,分別記為: FeatureV=[v1,v2,…,vn] FeatureR=[r1,r2,…,rm] 根據(jù)深度學習理論方式的融合原理得到最終的融合結果如式(14)所示。 FeatureVR=[FeatureV,FeatureR]= [v1,v2,…,vn,r1,r2,…,rm] (14) 由于融合后的特征維度加倍,且總是有重復冗余特征,所以經過特征降維操作以輕減特征冗余度,提升模型訓練效率。 圖1中第二部分為分類器的設計,對于支持向量機分類器,核函數(shù)的選擇是重中之重,而與支持向量機類似的MMRVM分類器,其核函數(shù)的選擇也是非常重要的。本文基于三種核函數(shù),線性核函數(shù)(式(15))、高斯核函數(shù)(式(16))和多項式核函數(shù)(式(17))進行研究,根據(jù)單核函數(shù)的結果差異,選擇效果最好的兩種核函數(shù)組合在一起,構造效果優(yōu)良的分類器,再使用訓練集進行模型訓練。 k(x,x′)=xx′ (15) (16) 式中:δ為函數(shù)的寬度參數(shù)。 k(x,x′)=(xx′+1)d (17) 基于數(shù)據(jù)源的遷移是從原有的大型數(shù)據(jù)集中,挑選出部分與目標數(shù)據(jù)分布相近的數(shù)據(jù)與目標數(shù)據(jù)集進行混合,以擴充訓練集的樣本數(shù)量。相近分布的數(shù)據(jù)混合在一起訓練,能夠促使訓練效果更加優(yōu)化,得到分類精度高的分類模型。由于本文構建的LSV數(shù)據(jù)集樣本少,直接用于模型訓練會導致過擬合現(xiàn)象發(fā)生,致使識別率低,因此引入基于數(shù)據(jù)源的遷移學習以實現(xiàn)最終的LSV遙感場景分類應用。 數(shù)據(jù)集UCM全稱為UC Merced Land Use[3],摘自美國地質調查局國家地圖城市地區(qū)圖像集中的大型圖像,囊括了全國各個城鎮(zhèn)地區(qū)的遙感場景圖像。該數(shù)據(jù)集總共有2 100幅遙感場景圖像,總共21類,每一類包含100幅圖像,每幅圖像大小為256×256像素?;谲浖﨤SV(Local Space View),通過獲取成都周邊遙感圖像,制作小樣本數(shù)據(jù)集,包含農田、密集住宅區(qū)、停車場、馬路、河流、森林、稀疏住宅區(qū)七種類別。所有圖像的像素都為256×256的RGB圖像,每一類包含30幅。在UCM數(shù)據(jù)集中,80%作為訓練集,剩余的作為測試集。在LSV數(shù)據(jù)集中,采用數(shù)據(jù)源遷移學習的方式,選取LSV數(shù)據(jù)集每類中10幅圖像與UCM中該類的90幅圖像進行混合,形成每類100幅的訓練集,LSV數(shù)據(jù)集中每類的20幅圖像作為測試集。 圖2展示的是場景圖像A,使用LSV軟件采集得到。該場景位于東經103.985°、北緯30.417°,采集高度為3 000 m,主要場景包括農田、河流、密集住宅區(qū)、稀疏住宅區(qū)和森林五類遙感場景,圖像的像素大小為1 792×1 536。采用像素滑動窗口來進行場景遍歷實現(xiàn)最終的場景級分類,其中像素窗口大小分設為五種:1 024×1 024、768×768、512×512、256×256和128×128。滑動步長設置為128像素。 圖2 場景圖像A 實驗的硬件環(huán)境為Intel i7-6700 3.4 GHz的CPU、16 GB內存和單塊NVIDIA GeForce GTX1070 Ti顯存6 GB的顯卡,操作系統(tǒng)為Ubuntu16.04-Linux操作系統(tǒng),使用PyCharm編輯器。 表1展示了UCM數(shù)據(jù)集在不同核函數(shù)RVM上的總體分類精度及時間對比。 表1 單核RVM分類器識別精度、時間對比 可以看出,針對單核RVM分類器,當核函數(shù)為線性核函數(shù)時,識別精度最高,為88.57%,多項式核函數(shù)次之,為87.62%,高斯核函數(shù)分類效果最差,為86.43%。模型訓練時間則都相差很小,大概都在1.15 s左右。由于高斯核函數(shù)的耗時更多,且由結果可知在樣本量與特征數(shù)相差較大的情況下,線性核函數(shù)和多項式核函數(shù)的效果比高斯核函數(shù)分類效果稍好,所以本文選擇線性核函數(shù)和多項式核函數(shù)進行函數(shù)組合構成多核MMRVM。 表2所示為單DCNN模型深度特征與融合特征分別結合MMRVM后,得到的最終分類精度及訓練時間對比。 表2 不同特征結合MMRVM的識別精度、時間對比 可以看出,F(xiàn)-MMRVM的分類精度達到89.52%,比兩種DCNN模型的分類精度分別高出7.6百分點和3.5百分點左右,圖3展示了F-MMRVM的分類結果的混淆矩陣?;煜仃囍懈黝悇e分別為:1.飛機;2.海灘;3.農業(yè);4.棒球場;5.建筑物;6.灌木叢;7.密集居住區(qū);8.森林;9.公路;10.高爾夫球場;11.海港;12.十字路口;13.中等密集住宅區(qū);14.拖車住房公園區(qū);15.立交橋;16.停車場;17.網(wǎng)球場;18.河流;19.飛機跑道;20.稀疏住宅區(qū);21.儲存槽區(qū)。如混淆矩陣所示,第i行第j列中的數(shù)字代表著將第i類識別為第j類的概率??梢钥闯?,該算法模型在大部分場景的識別中都能達到很好的分類效果,僅有密集住宅區(qū)(類別7)與中等密度住宅區(qū)(類別13)的分類效果較差。主要還是歸因于兩類圖像高維特征過于相似,導致最終的場景混淆。 圖3 基于F-MMRVM的數(shù)據(jù)集分類結果混淆矩陣(89.52%) 表3列出了基于UCM數(shù)據(jù)集的一些現(xiàn)有方法和本文方法的分類準確度,這些現(xiàn)有方法詳見文獻[2,3,10,14-17]。與現(xiàn)有方法的比較表明,本文方法比文獻[2,3, 10,14-17]中的最佳結果提高了2.69百分點。 表3 UCM數(shù)據(jù)集與現(xiàn)有方法結果對比(Overall Accuracy,OA) 圖4展示了F-MMRVM基于LSV與UCM混合數(shù)據(jù)集對LSV數(shù)據(jù)集進行分類后得到的分類結果混淆矩陣。標簽0-標簽6分別代表類別農田、密集住宅區(qū)、森林、馬路、停車場、河流和稀疏住宅區(qū),總分類精度為93.57%。 圖4 LSV數(shù)據(jù)集分類結果混淆矩陣(93.57%) 根據(jù)不同的像素窗口對實驗圖像A進行局部場景截取,再經過分類模型場景分類后,判別出每個單位像素(128像素)的類別,最后統(tǒng)計出最終的場景級分類結果如圖5所示??梢钥闯觯袼鼗瑒哟翱诖笮? 024×1 024時,僅能分辨出密集居住區(qū)、稀疏居住區(qū)和河流三種類別,與實際場景圖像差別巨大;像素滑動窗口大小為768×768和512×512時,也僅能分辨出密集居住區(qū)、稀疏居住區(qū)、河流和農田四種類別,雖稍微靠近原始圖像,但是依然相差較大;當像素滑動窗口大小為256×256和128×128時,五類場景均被識別出來,而像素滑動窗口大小為128×128時,由于滑動窗口過小,遍歷圖形的過程中信息被混淆,導致部分森林、稀疏住宅區(qū)區(qū)域被識別為河流,部分農田區(qū)域被識別為森林,使分類效果降低;只有像素滑動窗口大小為256×256時分類效果與實際場景符合。因此,通過此實驗可以確定最好的像素滑動窗口大小為256×256。 圖5 不同像素滑動窗口場景分類 為消除場景分類窗口效應,進行場景邊緣提取后,基于得到的最佳滑動像素窗口256×256,對邊緣內部區(qū)域再進行類別區(qū)分,可得到如圖6所示結果。通過對最終結果和實際圖像進行場景對比,基本符合原圖的場景分布。 圖6 邊界劃分分類結果 本文研究的基礎特征為從VGGNet-16和ResNet-50兩種預訓練模型中提取的遙感圖像全局特征,通過特征融合的方式對特征描述能力進行補充。提出構造MMRVM分類器并與特征融合相結合的方式,以驗證MMRVM在遙感場景分類領域的有效性;構建LSV,并采用UCM數(shù)據(jù)集中與LSV數(shù)據(jù)集類別相同的7類場景數(shù)據(jù)進行遷移學習,再對LSV數(shù)據(jù)集進行場景分類,得到最終的分類結果為93.57%;接著根據(jù)已得MMRVM訓練模型,結合像素窗口滑動的方式對場景圖像A進行遍歷識別分類,從而實現(xiàn)大場景圖像的場景級分類,并確定最優(yōu)像素滑動窗口為256×256。通過場景邊界提取再一次進行場景分類以消除窗口邊界效應,獲得較為準確的分類結果。今后應該致力于更多場景的分類應用研究。1.3 方法描述
2 遙感場景分類實驗數(shù)據(jù)集
2.1 數(shù)據(jù)源遷移學習
2.2 數(shù)據(jù)集
3 實驗分析與方法驗證
3.1 實驗環(huán)境
3.2 UCM數(shù)據(jù)集的不同核函數(shù)RVM分類對比
3.3 小樣本LSV數(shù)據(jù)集遷移學習分類實驗
4 結 語