(山東科技大學 計算機科學工程學院,山東 青島 266590)
近幾年來,由于遙感技術(shù)的快速發(fā)展,高光譜遙感影像的采集變得更加容易。隨著高光譜圖像光譜和空間分辨率的增加,影像所包含的地物信息越來越豐富,更加有利于地物的精細分類。為了提取有效的地物特征改善分類精度,多種特征提取方法已經(jīng)被應(yīng)用到高光譜圖像分類領(lǐng)域[1-3],例如主成分分析[4](principal components nalysis,PCA)、濾波方法以及形態(tài)學特征提取方法[5]等。形態(tài)學方法選用不同的結(jié)構(gòu)元素去提取圖像中對應(yīng)的結(jié)構(gòu)形式的信息[6],通過改變結(jié)構(gòu)元素的類型和比例來生成地物的不同特征圖像,特征圖像表達地物的不同信息。但該方法的結(jié)構(gòu)元素種類眾多,從中恰當?shù)剡x擇一個或幾個符合高光譜圖像特征的結(jié)構(gòu)十分困難。
在高光譜圖像分類中,結(jié)合地物不同層次的特征可以更好地反映地物性質(zhì)、區(qū)分不同地物,改善分類精度[7-8]。對于多波段、高維度的高光譜圖像來說,每一種特征提取方法均可以提取一定的地物特征,但是單獨的一種特征圖像通常無法覆蓋地物的所有特征,集成的概念由此出現(xiàn)[9],將多種不同的特征圖像組合,取長補短,進一步提升高光譜圖像的分類精度[10]。
本研究利用幾種新的特征提取方法,包括高斯濾波[11](Gaussian filtering, GF)和滾動引導濾波[12](rolling guidance filtering, RGF)。圖像是由不同尺度的對象所構(gòu)成,不同尺度的結(jié)構(gòu)傳遞著不同信息。大尺度結(jié)構(gòu)或邊緣一般包含更多信息,而較小尺度的結(jié)構(gòu)或邊緣包含較少信息并且可能包含噪聲數(shù)據(jù)。GF方法利用高斯核函數(shù)對圖像進行卷積,對圖像進行去噪。而RGF方法可以較好地保留圖像中重要的邊緣結(jié)構(gòu),防止信息丟失。
RGF方法具體的實現(xiàn)步驟如下:
1)圖像由GF進行處理,圖像中的小尺度結(jié)構(gòu)將被完全去除,大尺度結(jié)構(gòu)被模糊。濾波器為:
(1)
2)大尺度結(jié)構(gòu)邊緣恢復。RGF方法通過迭代改變引導圖像,逐漸恢復模糊的邊緣結(jié)構(gòu)。公式為:
(2)
為了避免形態(tài)學中結(jié)構(gòu)元素種類不易選擇的問題,本研究提出一種基于多特征圖像集成的高光譜圖像分類方法。具體過程是:
1)生成多種特征圖像即構(gòu)建多個基本核。通過PCA降低原始高光譜圖像的維數(shù),然后利用GF和RGF進行特征提取,其中GF方法產(chǎn)生的特征圖像去除同一類別中的小尺度結(jié)構(gòu),RGF方法通過控制迭代次數(shù)來生成不同的特征圖像。為選擇合適的特征圖像,選擇Indian Pines、University of Pavia數(shù)據(jù)集進行實驗。圖1為Indian Pines數(shù)據(jù)集特征提取的結(jié)果,RGF方法迭代3次時,被模糊的大尺度邊緣基本恢復。圖2是Pavia大學數(shù)據(jù)集對應(yīng)的特征提取結(jié)果,同樣在迭代3次時,形成了邊緣清晰、內(nèi)部均勻的特征圖像。
圖1 Indian Pines圖像不同的特征圖像
圖2 University of Pavia圖像不同的特征圖像
2)采用支持向量機(support vector machine, SVM)[13-15]分類方法得到每種特征圖像對應(yīng)的分類結(jié)果, 選擇最優(yōu)的分類結(jié)果作為最終組合的基本核之一,然后采用自適應(yīng)增強的方式[16]進行學習,獲得多個基本核。集成學習(ensemble learning, EL)方法可以將多個分類器結(jié)合,得到更加準確、穩(wěn)定的結(jié)果。采用集成學習將多種特征圖像的分類結(jié)果結(jié)合,以進一步提高分類精度。
圖3 使用不同特征圖像對精度的影響
由圖1和圖2可看到,當?shù)?次時,特征圖像的特征邊緣已變得清晰穩(wěn)定。圖3展示了兩個數(shù)據(jù)集下的分類精度,每個類別隨機選擇50個訓練樣本,其余作為測試樣本。實驗結(jié)果用總體精度(overall accuracy,OA)進行評估。由圖3可以看出,當使用迭代3次的濾波圖像時,分類精度已達到最高值,在后續(xù)實驗中,選擇原圖、GF、迭代3次的RGF作為基本特征圖像。
基于多特征圖像的集成學習(MFI-EL)分類方法思路如下:①將構(gòu)建的特征圖像利用SVM進行分類,選擇最優(yōu)的分類結(jié)果作為最終集成的分類結(jié)果之一;然后采用自適應(yīng)增強方式不斷的訓練獲得多個最優(yōu)結(jié)果。自適應(yīng)增強的方式就是在整個實驗期間賦予每個訓練樣本權(quán)重值(在實驗開始時,所有訓練樣本的權(quán)重值相等),在第t次被錯誤分類的訓練樣本在第t+1次增加樣本的權(quán)重值,那么分類器將集中在這些訓練樣本上,這些訓練樣本將會被正確分類,最終得到較優(yōu)的分類結(jié)果。②將多個分類結(jié)果組合,根據(jù)分類結(jié)果的誤差率來確定其在最終結(jié)合核中的權(quán)重系數(shù)。
本研究得到的MFI-EL分類方法流程如圖4,具體過程為:
圖4 MFI-EL分類方法過程
氣則是構(gòu)成具體事物的材質(zhì),具體物皆氣造而成,但氣的造物必有理為其依據(jù)。理是一類事物的形式,氣是構(gòu)成事物的質(zhì)料。理氣無時間上的先后,但有邏輯上的先后,因為理是超時空的永恒存在者,氣是時空中的變化者。太極中有動靜之理,氣因此理而有實際的動靜。此氣中之理,就是此事物的性。不唯人有性,物亦有性,“天下無性外之物”(《朱子語類》卷四)。
然后,利用SVM對不同的特征圖像進行分類得到對應(yīng)的分類結(jié)果Ik(k=1,2,…C),C表示特征圖像的個數(shù),并計算每個特征圖像下的分類錯誤率errk,如式(3)。根據(jù)公式(4)挑選出錯誤率最低的結(jié)果(用errt表示)作為最終集成的基本核,ft表示第t次獲得的基本核,并計算相應(yīng)的結(jié)合權(quán)重αt如式(5)。
(3)
k*=argmmerrk,k=1,2,…,c;(ft,errt)=(Ik*,errk*)
(4)
(5)
其中Wt是第t次時樣本權(quán)重向量。通過該過程,獲得了一個基本核。
其次,如式(6)更新樣本權(quán)重,將分類器集中在被錯誤分類的樣本上,再次訓練得到新的樣本子集下對應(yīng)的基本核。
(6)
其中,Zt是規(guī)范化參數(shù)。
最后,重復以上過程,獲得滿足條件的T個基本分類器結(jié)果,并將得到的多個分類結(jié)果根據(jù)權(quán)重系數(shù)αt進行集成,如式(7)得到最終的分類結(jié)果:
(7)
首先,利用PCA對原始圖像降維,保留25個波段。其次,通過特征提取方法得到特征圖像。實驗選用原始圖像、高斯圖像、迭代三次的RGF圖像。在所有的實驗中,訓練樣本集是在標記樣本中每個類別隨機選擇50個訓練樣本,剩余的作為測試樣本集。為了消除實驗隨機性引起的偏差,進行了10次重復實驗,每次實驗的訓練樣本集和測試樣本集均是隨機產(chǎn)生的,將10次結(jié)果的均值作為最后的分類精度。實驗精度表格中“±”左側(cè)的數(shù)據(jù)代表10次重復實驗分類結(jié)果的平均值,右側(cè)表示的是10次實驗結(jié)果的標準差,且最高精度以粗體突出顯示。為了驗證提出方法的有效性,與標準的SVM、表示多核學習(representation multiple kernel learning, RMKL)、樣本篩選多核學習(sample screening multiple kernel learning, S2MKL)方法進行對比。最終的分類性能利用總體精度(OA)、平均精度(average accuracy, AA)和Kappa系數(shù)進行評估,其中OA是正確分類像素的百分比,AA是每個類的正確分類像素的百分比的平均值,Kappa系數(shù)是綜合考慮用戶精度和制圖精度的一個質(zhì)量指數(shù)。
首先,利用Indian Pines數(shù)據(jù)集驗證提出方法的分類性能。實驗中將12個類別中具有很少標記樣本的4個類別去掉,表1顯示剩下的八個類別通過不同方法獲得的分類結(jié)果及其相應(yīng)的OA、AA和kappa系數(shù)值。由表1可見,相比于標準的SVM方法,本方法的精度提升了17.63%,證明集成方法的作用。與RMKL和S2MKL方法相比,本方法的OA分別提升了約6.88%、1.6%。本方法在一些復雜類別如Grass_M,Grass_T和Wheat中表現(xiàn)突出,對應(yīng)的分類圖如圖5所示。訓練樣本數(shù)量對分類性能的影響如圖6所示,每個類別的訓練樣本數(shù)量從20到50,可見所提出方法的分類性能在不同數(shù)量訓練樣本下均優(yōu)于其他方法,特別是在小樣本的情況下,所提出的算法顯示出良好的分類性能。
表1 Indian Pines圖像下不同方法的分類精度對比
圖5 Indian Pines圖像下的不同方法的分類圖
圖6 Indian Pines圖像下的不同數(shù)量訓練樣本下的分類結(jié)果
為驗證所提方法的泛化性能,在Salinas數(shù)據(jù)集上進行實驗。分類結(jié)果如表2所示,可見本方法的分類精度高于SVM方法約8.67%,分別高于RMKL、S2MKL方法大約5.27%和2.43%。尤其在Grapes、Corn、Lettuce_4和Vinyard_U類別上分類性能提升顯著,分別高于S2MKL方法約3.32%、4.45%、4.86%和9.52%,體現(xiàn)了本特征提取方法的作用。不同方法的分類圖像如圖7所示,可以看到本方法在類別Corn 和Vinyard_U上的分類圖清晰規(guī)整。不同數(shù)量的訓練樣本下訓練得到模型的性能差異實驗結(jié)果如圖8所示,進一步表明所提方法的性能顯著優(yōu)于其他算法。
表2 Salinas圖像下不同方法分類精度對比
續(xù)表2
圖7 Salinas圖像不同方法的分類圖像
圖8 Salinas圖像下的不同數(shù)量訓練樣本下的分類結(jié)果
為進一步驗證提出方法的普適性,選擇Pavia大學數(shù)據(jù)集進行實驗。表3展示了分類精度結(jié)果,對應(yīng)的分類圖如圖9所示,可見,相比于其他幾種分類方法,本方法的分類精度有顯著提升:OA分別比RMKL和S2MKL方法高大約1.81%和0.38%。不同數(shù)量的訓練樣本下的精度結(jié)果如圖10所示,證明了本研究提出方法的優(yōu)越性。
表3 University of Pavia圖像下不同方法分類精度對比
圖9 University of Pavia圖像不同方法的分類圖像
圖10 University of Pavia圖像下的不同數(shù)量訓練樣本下的分類結(jié)果
提出一種基于多特征圖像的集成學習方法MFI-EL,使用PCA將高光譜圖像的主要信息集中在前幾個波段,然后使用GF和RGF來獲得特征圖像。為了保持原始光譜信息,將原始圖像也作為特征圖像。其次,通過自適應(yīng)增強的方法得到多個不同的基本核,并根據(jù)每個基本分類器的分類精度確定組合權(quán)重將其集成。實驗執(zhí)行在三幅真實的高光譜圖像數(shù)據(jù)上,通過與其他三種方法進行對比,驗證了所提出方法能夠提高高光譜圖像的分類精度。