趙 揚,楊清潔
(中國科學技術大學 信息科學技術學院,安徽 合肥 230026)
隨著成像技術的不斷發(fā)展以及軟硬件水平的日益提升,成像光譜儀得以提取越來越多的光譜波段數(shù)據(jù)[1],光譜范圍也逐步從可見光過渡到紅外光,高光譜遙感應運而生。因為高光譜遙感擁有多個光譜通道以及相鄰光譜通道間具有連續(xù)性,所以高光譜遙感影像數(shù)據(jù)包含了多樣的光譜信息和空間信息。分類技術作為高光譜遙感影像處理最重要的內(nèi)容之一[2],已經(jīng)廣泛應用于農(nóng)業(yè)、礦物學、地球觀測、物理學[3-4]等諸多領域。
目前高光譜影像分類主要存在如下問題:(1)由于高光譜成像正不斷地從寬波段成像向窄波段成像過渡,這使得高光譜影像數(shù)據(jù)包含了眾多關聯(lián)性較強的成像波段,導致大量冗余信息的產(chǎn)生;(2)當下通信設備的儲存能力難以滿足在傳輸高光譜數(shù)據(jù)的過程中保持著較高空間分辨率的需求,所以高光譜影像數(shù)據(jù)的空間分辨率往往在數(shù)十米左右;(3)高光譜影像分類過程中會出現(xiàn)Hughes現(xiàn)象[5]。Hughes現(xiàn)象指的是在高光譜影像分類過程中,分類精度并不與選取的波段數(shù)目成正比,而是在達到一個臨界值后,繼續(xù)增加波段數(shù)目反而會導致分類準確率下降。傳統(tǒng)的高光譜影像分類方法按照有無采用先驗知識分為無監(jiān)督分類方法和監(jiān)督分類方法。常用的無監(jiān)督分類方法包含K近鄰法[6]、ISDOATA[7]等,以上方法受相似度的預估值影響較大,即對噪聲等外界因素十分敏感。監(jiān)督方法有最小距離分類[8]、最大似然分類以及基于支持向量機(Support Vector Machine,SVM)[9]方法等,這些方法使用帶有標簽的訓練樣本中的先驗知識訓練分類器,取到分類器的參數(shù)后,再用它對未知類別的數(shù)據(jù)進行分類。傳統(tǒng)的監(jiān)督分類方法相較于無監(jiān)督分類方法在高光譜遙感影像的最終分類結果上取得了很大提高。
近年來對深度學習(Deep Learning,DL)方法的研究熱度持續(xù)上升[10-12],深度學習已經(jīng)發(fā)展為機器學習研究中一個全新的領域。深度學習在處理分類問題時,不是依賴于某種先前假定的準則,而是在不同的學習框架下建立不同的的學習模型。例如,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[13-15]就是在深度監(jiān)督學習下的機器學習模型。卷積神經(jīng)網(wǎng)絡的基本結構包括特征提取層和特征映射層,在特征提取層隱式地從訓練數(shù)據(jù)中進行學習,舍棄了顯式的特征提取。由于網(wǎng)絡無需繁瑣的圖像預處理過程,原始數(shù)據(jù)可以直接輸入到模型中訓練,因而得以廣泛的運用。此外,網(wǎng)絡結構對一般幾何變換(如平移和縮放等)高度不變。2016年,Zhao Wenzhi[16]等將多尺度二維CNN(2D-CNN)模型應用到高光譜遙感影像分類研究中,實現(xiàn)了在分類過程中同時利用多段光譜特征,但面臨著對于不同地物類別需要選擇不同特征提取尺度的問題。Mei Shaohui[17]等人發(fā)現(xiàn),2D-CNN網(wǎng)絡訓練過程中涌現(xiàn)的大量參數(shù)易使模型過度擬合,大大限制了模型的泛化能力。
本文提出一個改進的三維卷積神經(jīng)網(wǎng)絡,將三維核函數(shù)用于高光譜影像分類,從而充分利用了三維高光譜影像數(shù)據(jù)的結構特征。該三維卷積神經(jīng)網(wǎng)絡將學習到的高光譜影像相鄰光譜波段和領域空間的局部信號變化作為判斷其所屬類別的重點信息。本文提出的網(wǎng)絡輸入為原始的光譜數(shù)據(jù)立方體,分類器模型采用端到端的方式,無需采用任何預處理和后續(xù)優(yōu)化處理便可實現(xiàn)高光譜影像的像素級分類。因為池化操作會使得特征圖分辨率被進一步降低,即傳統(tǒng)神經(jīng)網(wǎng)絡中的池化層會減少高光譜圖像的空間分辨率,因此在該模型中并不采用池化層。相同分辨率下,本文的三維卷積神經(jīng)網(wǎng)絡包含更少的參數(shù),更適用于缺乏高質量訓練圖像的高光譜影像分類問題。完整算法的分類流程如圖1所示。
圖1 實驗方法流程圖
二維卷積神經(jīng)網(wǎng)絡(2D-CNN)已經(jīng)在諸如圖像分類[18]、目標檢測[19]和深度評估圖像[20]等計算機視覺和圖像領域取得了很好的研究成果。2D-CNN的顯著優(yōu)點之一是它提供了一種完整的從原始輸入圖像提取特征的渠道。然而,直接將2D-CNN應用于高光譜圖像,需要對網(wǎng)絡中每個二維輸入進行卷積,每一個光譜波段都有一組待學習的核。沿著高光譜影像的光譜波段(網(wǎng)絡輸入)的數(shù)百個通道需要大量的卷積核(需要學習的參數(shù)),這可能在增加計算成本的同時也容易造成過度擬合。
在三維卷積被提出前,通常采用數(shù)據(jù)降維的預處理方法減少光譜維數(shù)來解決上述問題。例如,在文獻[21]中,首先通過主成分分析(PCA)從高光譜圖像中提取出前若干個主成分(PC),然后使用窗口大小為42×42 的二維卷積網(wǎng)絡提取深度特征,從而預測每個像素的標簽。采用降維方法減少計算成本的明顯缺點是它們沒有很好地保留高光譜影像的光譜信息。
(1)
(2)
圖2 二維卷積和三維卷積
總之,對高光譜遙感影像分類來說,三維卷積操作同時在空間和光譜維上對原始數(shù)據(jù)進行卷積,與傳統(tǒng)的二維卷積相比避免了大量光譜信息的丟失。這對于包含大量波段信息的高光譜影像而言尤為重要。
1.2.1 空間-光譜數(shù)據(jù)的構建
為了減弱因高光譜遙感影像不同波段數(shù)據(jù)范圍差異性較大對最終分類結果造成的干擾,需要對原始的影像數(shù)據(jù)進行歸一化處理,隨后再將其輸入到網(wǎng)絡中。
(3)
歸一化后以所選像元為中心提取S×S×B的三維數(shù)據(jù)及其對應的類別l作為本次研究的訓練樣本。S×S為領域大小又叫做空間感受野,B為選取的波段數(shù)。樣本塊的維度與原始數(shù)據(jù)維度相同,例如在Indiana Pines數(shù)據(jù)集中可以選取尺寸為27×27×200的圖像塊。
1.2.2 三維卷積神經(jīng)網(wǎng)絡分類架構
(1)三維卷積神經(jīng)網(wǎng)絡特征提取
如圖3,整個網(wǎng)絡由兩層卷積層和兩層全連接層構成。首先,將第一步獲得的S×S×B原始數(shù)據(jù)立方體作為模型輸入。第一個3D卷積層包含2個三維卷積核函數(shù),其大小為K1×K2×K3,用來處理(M-K11+1)(M-K12+1)(B-K13+1)大小的三維數(shù)據(jù)立方體。每個三維核函數(shù)生成一個三維數(shù)據(jù)立方體,將兩個尺寸為(M-K11+1)(M-K12+1)(B-K13+1)的數(shù)據(jù)立方體作為輸入。第二個卷積層包含4個核函數(shù),處理8個(S-K11-K21+2)(S-K12-K22+2)(S-K13-K23)大小的三維數(shù)據(jù)立方體。經(jīng)過第一次卷積后得到4個三維卷積核的空間立方體數(shù)據(jù)。得到的8個三維數(shù)據(jù)塊被拉伸
圖3 3D-CNN的高光譜圖像分類架構
成一個一維的特征向量作為后面全連接層的輸入。最后通過兩個全連接層F1與F2進行特征空間變換,將三維空間特征向量轉換為1×200維向量。
(2)基于Softmax邏輯回歸分類器
使用Softmax loss來訓練深層分類器。與二維卷積模型的情況一樣,其利用反向傳播的隨機梯度下降最小化網(wǎng)絡的損失。核函數(shù)用下列公式更新:
(4)
ωi+1=ωi+εmi+1
(5)
其中,i為迭代次數(shù),m為動量,ε為學習率。分類結束后,將得到每個像元所屬的地物類別及對應概率。
Pavia數(shù)據(jù)由ROSIS傳感器獲得。該數(shù)據(jù)于2003年在意大利帕維亞地區(qū)拍攝,原始數(shù)據(jù)擁有103個光譜通道,光譜覆蓋范圍為430~860 nm,空間大小為610×340個像素點,空間分辨率達到了1.3 m。該場景中包含了樹林、草地、柏油馬路等9個地物類別,表1給出了9類地物的詳細信息。
表1 University of Pavia數(shù)據(jù)集樣本
在Pavia University數(shù)據(jù)集上,提取了5×5×103的數(shù)據(jù)立方體來計算原始空-譜信息,將它們作為3D-CNN的輸入。在這個數(shù)據(jù)集上,提出的3D-CNN模型包括兩個三維卷積層C1、C2,一個全連接層F1,一個分類層。C1包含兩個3×3×7的核,C2包含4個3×3×3的核。為了證明本文算法的有效性,將本文算法與LDM-FL、Auto-encoder-SVM、PCA-MOR-SVM、2D-CNN分類算法進行對比。圖4為分類結果,表2為每一類地物分類的精度。
圖4 University of Pavia數(shù)據(jù)集仿真結果圖
序號LDM-FLAuto-encoder-SVMPCA-MOR-SVM2D-CNN3D-CNN10.8350.8190.8930.8490.89020.8750.8280.8070.8550.89630.8480.6790.8280.8570.82140.8560.7230.8730.8800.93750.8280.7910.7930.8930.85360.8520.8150.8670.8130.89670.8250.8150.8000.8490.93180.8420.7320.7730.8730.91590.7730.7960.7900.8650.926
Indiana Pines數(shù)據(jù)集是經(jīng)AVIRIS光譜儀于6月在位于北印第安納州的Indiana Pines地區(qū)拍攝的。該場景包含了森林、草甸和若干種類的灌木,還包含了兩條柏油路和鐵軌以及些許零星分布的人工建筑群等共計16類地物。
Indiana Pines數(shù)據(jù)集的類別數(shù)量以及訓練和測試樣本數(shù)量如表3所示。為驗證本文算法的有效性,將本文算法與以下分類算法進行對比:LDM-FL、Auto-encoder-SVM、PCA-MOR-SVM、2D-CNN,圖5為分類的結果,表4為每一類地物分類的精度。
在國際公開數(shù)據(jù)集University of Pavia和Indiana Pines上進行了算法驗證,根據(jù)分類精度評價,可以看出本文算法的有效性。本文方法借助整體高光譜圖像立方體數(shù)據(jù)集,而完全不依賴任何預處理或后期優(yōu)化處理,有效地提取了光譜和空間特征。因為需要的參數(shù)比其他基于深度學習的方法更少,所以該模型更容易訓練。此外,由于池化操作會進一步減少特征映射的分辨率,因此去除池化層使得該模型可以進一步提高高光譜影像的分類精確率。
表3 Indiana Pines數(shù)據(jù)集樣本
圖5 Indiana Pines數(shù)據(jù)集仿真結果圖
序號LDM-FLAuto-encoder-SVMPCA-MOR-SVM2D-CNN3D-CNN10.7700.8230.8000.8230.76420.7900.8020.8780.8810.93530.7960.7570.8450.7850.88440.8360.6890.8970.8950.87150.7640.8330.9100.9300.97560.7800.8450.8560.9200.97670.7780.7120.6960.8510.87081.0000.9670.8781.0001.00090.9000.6450.2610.9250.940100.8760.8080.9120.9140.885110.7800.8340.9420.8280.875120.8120.7870.8250.8710.931130.7930.7760.9120.8350.896140.8190.8750.9780.9100.953150.8690.6120.7810.8840.948160.8490.8020.6230.8080.867
本文為了改進高光譜影像分類,本著最大化高光譜影像空間和譜間信息利用率的思想,提出了一種改進的三維卷積神經(jīng)網(wǎng)絡分類框架。結果表明去除池化層后的3D-CNN可以很好地適應高光譜遙感影像的三維結構?;趦煞N高光譜數(shù)據(jù)集將本文方法與多種基于深度學習的高光譜圖像分類方法進行了比較,實驗結果表明,基于改進的3D-CNN的高光譜圖像分類方法在多個數(shù)據(jù)集上達到了最佳的綜合精度。它具有捕獲局部三維模式的潛力,有助于提高分類性能。
未來將研究更有效的可以利用無標記樣本的基于3D-CNN的分類技術。在高光譜影像數(shù)據(jù)集中,未標記樣本比標記樣本獲取方式更簡單。使用3D-CNN的監(jiān)督分類方法不能完整使用大量未標注樣本。為了更好地解決這一問題,一種基于3D-CNN的整合無監(jiān)督和半監(jiān)督的分類方法可能更加合適。