張因國,陶于祥,羅小波,劉明皓
〈圖像處理與仿真〉
基于特征重要性的高光譜圖像分類
張因國1,陶于祥1,羅小波2,劉明皓1
(1. 重慶郵電大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,重慶 400065;2. 重慶市氣象科學(xué)研究所,重慶 401147)
為了減少高光譜圖像中的冗余以及進(jìn)一步挖掘潛在的分類信息,本文提出了一種基于特征重要性的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)分類模型。首先,利用貝葉斯優(yōu)化訓(xùn)練得到的隨機森林模型(random forest,RF)對高光譜遙感圖像進(jìn)行特征重要性評估;其次,依據(jù)評估結(jié)果選擇合適數(shù)目的高光譜圖像波段,以作為新的訓(xùn)練樣本;最后,利用三維卷積神經(jīng)網(wǎng)絡(luò)對所得樣本進(jìn)行特征提取并分類?;趦蓚€實測的高光譜遙感圖像數(shù)據(jù),實驗結(jié)果均表明:相比原始光譜信息直接采用支持向量機(support vector machine,SVM)和卷積神經(jīng)網(wǎng)絡(luò)的分類效果,本文所提基于特征重要性的高光譜分類模型能夠在降維的同時有效提高高光譜圖像的分類精度。
高光譜圖像;特征重要性;波段選擇;卷積神經(jīng)網(wǎng)絡(luò);支持向量機
近年來,高光譜圖像(hyperspectral images, HSIs)已經(jīng)在城市制圖、環(huán)境管理、作物分析等[1]領(lǐng)域中得到愈加廣泛的應(yīng)用,隨之而來的是對遙感數(shù)據(jù)的處理問題,在HSIs領(lǐng)域中,訓(xùn)練樣本的數(shù)量與可用的光譜波段數(shù)量相比通常是相當(dāng)有限的,這會導(dǎo)致訓(xùn)練過程不完全,容易出現(xiàn)過擬合,即休斯現(xiàn)象[2]。如何高效地處理高光譜數(shù)據(jù)成為了一個研究熱點。當(dāng)高光譜圖像的波段數(shù)目較大時,其波段組合的方式會呈現(xiàn)指數(shù)級別增長,造成波段組合數(shù)目過于龐大,從而很大程度上影響到后續(xù)算法的運行速度和復(fù)雜性。而這一問題可以通過特征選擇進(jìn)行解決,即:通過不同的方法選取包含信息量大的波段或者特征來降低數(shù)據(jù)的冗余程度。為減少高光譜遙感圖像數(shù)據(jù)的冗余信息,目前,許多研究學(xué)者針對高光譜數(shù)據(jù)的降維進(jìn)行了深入研究并取得了一定成果。降維的方法包括特征提取與特征選擇。大多數(shù)特征提取方法如:主成分分析(principal components analysis, PCA)[3]、獨立成分分析(independent component analysis, ICA)[4]、奇異譜分析(singular spectrum analysis, SSA)[5]等,都為線性處理方法。但是高光譜圖像數(shù)據(jù)本質(zhì)上是非線性分布的,而且特征提取所得的低維特征會損失原始高維特征中某些潛在的分類信息,影響最終分類結(jié)果。而特征選擇在于根據(jù)某種依據(jù),從原始波段集中選擇具有分類價值的波段子集,以作為盡可能保留分類信息的新特征。因此,在不進(jìn)行特征變換降維的前提下,通過對原始高光譜圖像的波段進(jìn)行特征選擇是很有必要的?,F(xiàn)在常見的特征選擇即波段選擇方法有最佳指數(shù)因子法(optimal index factor, OIF)[6]、協(xié)方差矩陣行列式法[7]和自適應(yīng)波段選擇法[8]等。這些方法都取得了不錯的效果,仍然存在明顯缺陷如最佳指數(shù)法選擇波段運算量大且獲得的波段相關(guān)性較高,以及自適應(yīng)波段選擇算法容易出現(xiàn)波段連續(xù)問題等。
近年來像CNN[9],生成對抗網(wǎng)絡(luò)(generative adversarial nets,GAN)[10]等深度學(xué)習(xí)模型被更多地用在高光譜圖像分類任務(wù)當(dāng)中從而進(jìn)一步挖掘高光譜遙感圖像的潛在分類信息。與傳統(tǒng)K-means[11],支持向量機[12],核方法[13],統(tǒng)計算法如邏輯回歸[14]和貝葉斯模型[15]等方法相比,深度學(xué)習(xí)在處理高維數(shù)據(jù)時具有更強的抽象能力,通過深層神經(jīng)網(wǎng)絡(luò)挖掘數(shù)據(jù)中的深層特征和隱含信息,具有更好的特征提取效果。但由于HSIs數(shù)據(jù)的特殊性,普通的深度學(xué)習(xí)模型并不能很好地直接應(yīng)用在上面。
為減少高光譜遙感圖像中的冗余信息以及進(jìn)一步挖掘潛在的分類信息,本文提出了一種結(jié)合特征重要性評估的三維卷積神經(jīng)網(wǎng)絡(luò)分類模型,基于兩個公開數(shù)據(jù)集印第安松(Indian Pines)和肯尼迪航天中心(Kennedy Space Center, KSC)數(shù)據(jù)分別進(jìn)行實驗,并與經(jīng)典的分類方法(SVM,CNN)進(jìn)行了比較分析。
卷積神經(jīng)網(wǎng)絡(luò)是一種非常流行的圖像分類方法。由于卷積層濾波器的數(shù)量與輸入通道的數(shù)量成正比,所以將卷積神經(jīng)網(wǎng)絡(luò)運用到高光譜圖像相關(guān)任務(wù)上時,一種常用方法是預(yù)先降低光譜維數(shù),以減少高光譜圖像與普通圖像之間的差異。為降低光譜維數(shù)并更好地適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)模型,本文提出了一種基于特征重要性的高光譜遙感圖像的分類方法,算法流程如圖1所示。
本文利用隨機森林進(jìn)行特征重要性評估,然后進(jìn)行特征選擇。隨機森林是一種以決策樹為基礎(chǔ)學(xué)習(xí)器的集成學(xué)習(xí)方法,最早由Breiman[16]和Cutler等人[17]提出?,F(xiàn)有研究表明,隨機森林對異常值和噪聲具有比較大的容忍度,不容易出現(xiàn)過擬合的現(xiàn)象,而且預(yù)測準(zhǔn)確度和穩(wěn)定性更高[18]。
而特征重要性評估的主要思想是依據(jù)某個特征在隨機森林中每棵樹上的貢獻(xiàn)值,具體到高光譜圖像處理的任務(wù)上可以看作某個波段的貢獻(xiàn)值是多少,然后取平均值,最后將所有波段的貢獻(xiàn)值進(jìn)行比較得出其特征重要性評估結(jié)果。貢獻(xiàn)值通常使用基尼指數(shù)或者袋外數(shù)據(jù)(out of bag, OOB)來作為評估指標(biāo)。本次研究主要使用基尼指數(shù)來進(jìn)行評估。設(shè)現(xiàn)有個特征1,2,…,Q,要計算出每個特征Q的基尼指數(shù)評分即第個特征在RF所有決策樹中節(jié)點分裂不純度的平均改變量。其中Gini index指數(shù)的計算如公式(1)所示:
式中:GI表示基尼指數(shù);表示類別數(shù);表示有個類別;表示概率;¢表示某個類別;表示節(jié)點中類別所占的比例,即從節(jié)點中隨機抽取兩個樣本,其類別標(biāo)記不一致的概率。
特征Q在節(jié)點的重要性,即節(jié)點分支前后的Gini指數(shù)變化量為:
式中:VIM為變量重要性評分(variable importance measures),GIr和GIc分別表示分裂后兩個新節(jié)點的Gini指數(shù)。如果,特征j在決策樹中出現(xiàn)的節(jié)點在集合中,那么特征j在第顆樹的重要性為:
假設(shè)RF中共有顆樹,然后把所有求得的重要性評分歸一化處理得公式(4):
式中:為樹的總數(shù)。
針對高光譜圖像的特性,本文利用隨機森林構(gòu)建了一個特征重要性評估模型即波段重要性評估模型,如圖2所示。
圖2 特征重要性評估模型
將高光譜數(shù)據(jù)輸入模型后,使用貝葉斯優(yōu)化選擇參數(shù)。然后通過訓(xùn)練完成模型中所有決策樹匯總過來的信息即可得該高光譜數(shù)據(jù)集中每個波段的特征重要性信息,根據(jù)這些可以在最大程度上保存數(shù)據(jù)集的原始信息從而選擇數(shù)量合適的波段組合成新的數(shù)據(jù)集。
隨著研究的不斷深入,為了獲取更令人滿意的高維數(shù)據(jù)處理結(jié)果,一種很有前景的方法被提出來,直接用3D-CNN[19]處理高光譜數(shù)據(jù),即用三維卷積同時處理同樣是三維的高光譜圖像。與其他CNN模型不同的是,3D-CNN是直接生成三維特征立方體,它能更好地提取空間信息。在高光譜分類任務(wù)上,其有了比1D-CNN和2D-CNN更好的表現(xiàn)[20]。
如圖3所示,本文構(gòu)建的3D-CNN模型主要由2個卷積層(1,2)、2個池化層(1,2)以及2個全連接層(1,2)組成。首先在卷積輸出中,應(yīng)用了ReLU函數(shù),以從數(shù)據(jù)中學(xué)習(xí)更復(fù)雜的特征。然后是池化層對卷積層處理過后的圖像進(jìn)行下采樣,本模型中使用最大池的主要目的是在一個鄰域中聚合多個低級特征以獲得局部不變性。此外,它還通過減小網(wǎng)絡(luò)的輸出規(guī)模,降低網(wǎng)絡(luò)在訓(xùn)練和測試階段的計算成本。再當(dāng)數(shù)據(jù)從2輸出時,通過ReLU函數(shù)在全連接層1輸出120個神經(jīng)元。2經(jīng)過相同的步驟,輸出數(shù)量與分類結(jié)果相關(guān)的神經(jīng)元,最后通過softmax得到分類結(jié)果。
為了驗證所提基于特征重要性的高光譜圖像的分類效果,本文采用兩個公開的高光譜遙感數(shù)據(jù)集進(jìn)行實驗。數(shù)據(jù)一是從AVIRIS傳感器中獲取的Indian Pines影像。拍攝地點在印第安納州西北部。該影像大小為145×145像素,波長范圍為0.4~2.5mm的220個波段,共包含農(nóng)場、森林、高速路、鐵路以及低密度的房屋等16個類別。數(shù)據(jù)二為1996年3月美國宇航局在佛羅里達(dá)州肯尼迪航天中心(KSC)所獲取數(shù)據(jù)。KSC數(shù)據(jù)從離地面大約20km的高度獲得,空間分辨率為18m。去除吸水率和低信噪比波段后,對其中的176個波段進(jìn)行研究分析。該影像共包括13個類別,代表該環(huán)境中出現(xiàn)的各種土地覆蓋類型。兩個數(shù)據(jù)集的具體地物類別如圖4所示:圖4(a)為Indian Pines假彩色合成圖像;圖4(b)為Indian Pines真實地物類別;圖4(c)為KSC假彩色合成圖像;4(d)為KSC圖像真實地物類別。
圖3 3D-CNN模型
圖4 研究所用數(shù)據(jù)集及其真實地物類別
首先,分別對兩個數(shù)據(jù)集的光譜特征進(jìn)行重要性評估。圖5為用所提評估模型得出的兩個數(shù)據(jù)集波段重要性結(jié)果,其中圖5(a)表示Indian Pines數(shù)據(jù),圖5(b)表示KSC數(shù)據(jù)。兩幅圖分別給出了兩個數(shù)據(jù)中特征重要性前20的波段。在數(shù)據(jù)輸入模型前,我們將其劃分為占數(shù)據(jù)總量70%的訓(xùn)練集以及占總量30%的測試集。通過貝葉斯優(yōu)化法,找出每個參數(shù)的最優(yōu)值,最終將幾個重要的參數(shù)確定如下所示(以Indian Pines為例):弱學(xué)習(xí)器的最大迭代次數(shù)(n_estimators),或者說最大的弱學(xué)習(xí)器個數(shù)為193;最大特征數(shù)(max_features)選擇默認(rèn)數(shù)值,即劃分時考慮所有的特征數(shù)。內(nèi)部節(jié)點再劃分所需最小樣本數(shù)(min_samples_split)設(shè)置為2,為限制子樹繼續(xù)劃分的條件。如果一個節(jié)點的樣例小于2,則不繼續(xù)嘗試選擇最優(yōu)特征來劃分。以Indian Pines數(shù)據(jù)集為例:模型第一次輸出后,剔除排名靠后的10%數(shù)量的波段,然后向模型中重新輸入剩于波段以獲得新排序結(jié)果。重復(fù)上述步驟,可以最大限度地保證評估結(jié)果的準(zhǔn)確性。根據(jù)評估結(jié)果和實驗需求,可以組合得到波段數(shù)量不同的新數(shù)據(jù)集。
圖5 兩個數(shù)據(jù)集重要性前20波段
然后,將所得數(shù)據(jù)分為占總量40%和60%的訓(xùn)練集和測試集后輸入3D-CNN分類模型。經(jīng)過貝葉斯優(yōu)化反復(fù)實驗,將模型的主要參數(shù)設(shè)置如下(以KSC為例):模型的學(xué)習(xí)率為0.01,每一批處理數(shù)據(jù)大?。╞atch_size)為100,而所有數(shù)據(jù)完成的訓(xùn)練總次數(shù)(epoch)設(shè)置為500。在選擇3D-CNN作為主要分類器的同時,采用了多種不同經(jīng)典的高光譜圖像分類方法作為實驗參考。
圖6為本文所提特征選擇與3D-CNN結(jié)合的方法以及SVM模型在Indian Pines和KSC數(shù)據(jù)上的分類精度,其中圖6(a)為Indian Pines分類精度,圖6(b)為KSC數(shù)據(jù)分類精度。圖7、圖8為在兩個數(shù)據(jù)集上的分類效果圖。選擇SVM作為主要對比方法的原因在于,作為經(jīng)典機器學(xué)習(xí)模型SVM可用于線性或非線性分類,具有良好的學(xué)習(xí)能力,可解決小樣本情況下的問題,錯誤率低。
不難看出,當(dāng)選擇高光譜數(shù)據(jù)全部波段(Indian Pines為220個,KSC為176個)進(jìn)行實驗,無論3D-CNN還是SVM作為分類器,精度都比在該方法結(jié)合特征選擇后得出的結(jié)果低,甚至只需要選擇其中的40個波段就比完整選擇的效果要好。
圖6 不同方法在兩個數(shù)據(jù)集上的分類精度
圖7 不同方法分類效果圖(Indian Pines)
另外,可以發(fā)現(xiàn)當(dāng)選擇波段較少的時候,SVM 的分類精度持續(xù)上升,但是隨著波段數(shù)的增加,在波段數(shù)分別為110和105時達(dá)到了峰值后呈下降趨勢。主要是因為SVM在小樣本訓(xùn)練集上能夠得到比其他傳統(tǒng)算法好的結(jié)果。但是SVM的空間消耗主要是存儲訓(xùn)練樣本和核矩陣,借助二次規(guī)劃來求解支持向量,而求解二次規(guī)劃將涉及階矩陣的計算(為樣本的個數(shù)),當(dāng)數(shù)目很大時該矩陣的存儲和計算將耗費大量的機器內(nèi)存和運算時間。隨著波段數(shù)的增加,SVM模型對樣本愈加難以實施,所以導(dǎo)致精度下降。而達(dá)到峰值時雖有83%和84%的精度,仍然要遠(yuǎn)低于3D CNN得出的結(jié)果。這是由于經(jīng)典支持向量機模型只給出了二分類的算法,對于高光譜數(shù)據(jù)則一般都是通過多個兩類支持向量機的組合來解決多分類的問題。
而CNN模型已經(jīng)在很多實驗中證明了其在高光譜圖像分類這一任務(wù)上的優(yōu)越性,本文中使用的3D-CNN模型更是如此。因為3D卷積核的共享,對高維數(shù)據(jù)的處理更加沒有壓力,結(jié)合特征選擇方法分別在波段數(shù)為163和144時充分地挖掘了數(shù)據(jù)信息,地物錯分和漏分也明顯減少,取得了實驗過程中最好的分類結(jié)果。
表1為本次研究中采用的主要分類方法FI-3DCNN和多個經(jīng)典模型在Indian Pines和KSC數(shù)據(jù)集上的總體分類精度(overall accuracy, OA)及其標(biāo)準(zhǔn)差(standard deviation,SD)和Kappa系數(shù)。經(jīng)定量分析容易發(fā)現(xiàn),整體而言各類模型在KSC數(shù)據(jù)集上的表現(xiàn)要好一些。而對于每一個數(shù)據(jù)集,本文所提FI-3D CNN模型都最好地完成了分類任務(wù),精度最高分別達(dá)到了98.04%、97.26%左右,Kappa系數(shù)也達(dá)到了97.84和96.98,再次證明了重要性評估特征選擇方法的有效性。將最佳指數(shù)因子法(optimum index factor, OIF)與(1D,3D)卷積神經(jīng)網(wǎng)絡(luò)分別結(jié)合,在兩個數(shù)據(jù)集中選取了不同數(shù)量的波段對原數(shù)據(jù)集進(jìn)行降維,然后利用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類。從表1中的最終實驗結(jié)果可以看出,OIF方法明顯是有效的,OIF-CNN的精度在Indian Pines和KSC數(shù)據(jù)集上分別比CNN要高1.98%和1.12%,而OIF-3D CNN相較于3D CNN則提升了大概1.8%和1.64%,Kappa系數(shù)分別提高了0.87和2.8,但卻比FI-3D CNN相較于3D CNN的精度提升(1.99%,1.77%)還是要低一些。這一結(jié)果也讓本文提出利用特征選擇波段的方法更有說服力。
另外,可以看出相較于3D CNN,特征選擇方法對1D CNN的提升要多一些,其中精度分別提升了2.72%、2.25%,而Kappa系數(shù)分別提高了2.87和3.1。這主要是因為3D CNN對于高維數(shù)據(jù)任務(wù)的適應(yīng)性很強,已經(jīng)取得了比較好的結(jié)果,所以波段選擇方 法對其提升沒有那么顯著。但就整體而言其分類精度還是遠(yuǎn)不及FI-3D CNN模型。
本文提出了一種新的基于特征重要性的高光譜分類模型(FI-3D CNN)。該模型主要分為兩個部分:基于特征重要性的波段選擇和三維卷積神經(jīng)網(wǎng)絡(luò)分類模型。利用特征重要性進(jìn)行波段選擇的優(yōu)點在于它在最大限度地保持?jǐn)?shù)據(jù)原始性的同時又降低了數(shù)據(jù)的維度,減少了數(shù)據(jù)的冗余。而作為分類器的3D卷積神經(jīng)網(wǎng)絡(luò)模型其特有的細(xì)粒度特征提取方式,使得它對圖像的處理達(dá)到了幾近人力的水平。實驗結(jié)果表明,本文提出的特征選擇方法結(jié)合3D CNN后取得了比較好的分類結(jié)果,而且該方法也能夠有效地提高經(jīng)典模型(SVM、CNN等)的分類精度。特征重要性的評估會直接影響到后面的分類結(jié)果,因此如何最大程度地確保評估方法準(zhǔn)確性將是以后工作的重點。
表1 不同方法在Indian Pines和KSC上分類精度
[1] YE M C, JI C X, CHEN H, et al. Residual deep PCA-based feature extraction for hyperspectral image[J/OL]., 2020, 32(7): doi:10.1007/s00521-019-04503-3.
[2] Donoho D L. High-dimensional data analysis: the curses and blessings of dimensionality[J]., 2000, 1: 32.
[3] Marpu G, Chanussot P R J, Benediktsson J A. Linear versus nonlinear PCA for the classification of hyperspectral data based on the extended morphological profiles[J].., 2012, 9(3): 447-451.
[4] Villa A, Benediktsson J A, Chanussot J, et al. Hyperspectral image classification with independent component discriminant analysis[J].., 2011, 49(12): 4865-4876.
[5] Zabalza J, REN J, WANG Z, et al. Singular spectrum analysis for effective feature extraction in hyperspectral imaging[J].., 2014, 11(11): 1886-1890.
[6] Chacvez P S, Berlin G L, Sowers L B. Statistical method for selecting landsat MSS retio[J]., 1982, 1(8): 23-30.
[7] Charles S. Selecting band combination from multispectral data[J]., 1985, 51(6): 681-687.
[8] 張愛武, 杜楠, 康孝巖, 等. 非線性變換和信息相鄰相關(guān)的高光譜自適應(yīng)波段選擇[J]. 紅外與激光工程, 2017, 46(5): 05308001.
ZHANG Aiwu, DU Nan, KANG Xiaoyan, et al. Adaptive band selection for nonlinear transform and information adjacent correlation[J]., 2017, 46(5): 05308001.
[9] HU W, HUANG Y, WEI L, et al. Deep convolutional neural networks for hyperspectral image classification[J]., 2015, 2015: e258619.
[10] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//27,2014, 2: 2672-2680.
[11] Haut J, Paoletti M, Plaza J, et al. Cloud implementation of the K-means algorithm for hyperspectral image analysis[J].., 2017, 73(1): 514-529.
[12] Melgani F, Lorenzo B. Classification of hyperspectral remote sensing images with support vector machines[J].., 2004, 42(8): 1778-1790.
[13] Camps-Valls G, Bruzzone L. Kernel-based methods for hyperspectral image classification[J].., 2004, 43(6): 1351-1362.
[14] Haut J, Paoletti M, Paz-Gallardo A, et al. Cloud implementation of logistic regression for hyperspectral image classification[C]//(CMMSE), 2017, 3: 1063-2321.
[15] Bazi Y, Melgani F. Gaussian process approach to remote sensing image classification[J].., 2010, 48(1): 186-197.
[16] Breiman L. Bagging predictors[J]., 1996, 24(2): 123-140.
[17] Cutler A, Cutler D R, Stevens J R.[M]//Ensemble Machine Learning, Boston: Springer, 2012: 157-175.
[18] 李貞貴. 隨機森林改進(jìn)的若干研究[D]. 廈門: 廈門大學(xué), 2013.
LI Z G. Several Research on Random Forest Improvement[D]. Xiamen: Xiamen University, 2013.
[19] LI Y, ZHANG H, SHEN Q. Spectral-spatial classification of hyper- spectral imagery with 3D convolutional neural network[J]., 2017, 9(1): 67.
[20] CHEN Y, JIANG H, LI C X, et al. Deep features extraction and classification of hyperspectral images based on convolutional neural networks[J]., 2016, 54(10): 6232-6251.
Hyperspectral Image Classification Based on Feature Importance
ZHANG Yinguo1,TAO Yuxiang1,LUO Xiaobo2,LIU Minghao1
(1.College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China;2. Chongqing Institute of Meteorological Science, Chongqing 401147, China)
To reduce the redundancy in hyperspectral images and further explore their potential classification information, a convolutional neural network(CNN) classification model based on feature importance is proposed. First, the random forest(RF) model obtained by Bayesian optimization training is used to evaluate the importance of hyperspectral images. Second, an appropriate number of hyperspectral image bands are selected as new training samples according to the evaluation results. Finally, the 3D-CNN is used to extract and classify the obtained samples. Based on two sets of measured hyperspectral remote sensing image data, the experimental results demonstrate the following: compared with the original spectral information obtained directly using a support vector machine(SVM) and the CNN classification effect, the proposed hyperspectral classification model based on feature importance can effectively improve the classification accuracy of hyperspectral images while reducing dimensionality.
hyperspectral image, feature importance, band selection, CNN, SVM
TP751
A
1001-8891(2020)12-1185-07
2020-07-21;
2020-09-15.
張因國(1996-),男,碩士研究生,主要從事遙感圖像分類研究。E-mail:S180231026@cqupt.edu.cn。
陶于祥(1966-),男,博士,教授,研究方向為資源與環(huán)境經(jīng)濟(jì)學(xué)。E-mail:taoyx@cqupt.edu.cn。
國家自然科學(xué)基金項目,“城市地表溫度降尺度模型及熱島時空演變規(guī)律研究”(41871226);重慶市應(yīng)用開發(fā)計劃重點項目(cstc2014yykfB30003)。