魏立飛,俸秀強,李丹丹,牟紫薇
(1. 湖北大學資源環(huán)境學院,湖北 武漢 430062; 2. 區(qū)域開發(fā)與環(huán)境響應湖北省重點實驗室,湖北 武漢 430062; 3. 農業(yè)部農業(yè)信息技術重點實驗室,北京 100081)
基于S3VM模型的高光譜遙感影像分類
魏立飛1,2,俸秀強1,李丹丹3,牟紫薇1,2
(1. 湖北大學資源環(huán)境學院,湖北 武漢 430062; 2. 區(qū)域開發(fā)與環(huán)境響應湖北省重點實驗室,湖北 武漢 430062; 3. 農業(yè)部農業(yè)信息技術重點實驗室,北京 100081)
針對傳統(tǒng)的高光譜遙感影像分類受限于訓練樣本的個數,難以取得較好分類結果的不足,提出了一種基于聚類核的半監(jiān)督支持向量機(S3VM)模型的高光譜遙感影像分類方法。該算法在半監(jiān)督支持向量機的體系上加入未標記樣本來輔助構建核矩陣,從而獲得更優(yōu)異的分類器,在小樣本的基礎上提高分類精度。試驗結果表明,本文方法的分類精度好于傳統(tǒng)方法,并且穩(wěn)定性良好。
高光譜遙感影像;S3VM模型;未標記樣本,半監(jiān)督分類
高光譜遙感影像具有豐富的地物光譜信息,可以獲取地物精細的光譜曲線[1-3]。利用高光譜影像進行地物分類,是高分辨率遙感影像的一項重要應用[4],已經廣泛應用于地礦分析、環(huán)境監(jiān)測、土地利用評估、農業(yè)遙感等領域[5-7]。
目前,利用機器學習理論進行高光譜遙感影像分類是一個研究熱點,機器學習方法共同的基礎理論之一是統(tǒng)計學,傳統(tǒng)統(tǒng)計學研究的假設都是在樣本趨近于無窮時的基礎上。在實際的分類問題中,樣本的獲取并不容易,較難獲得足夠數量的樣本來滿足傳統(tǒng)統(tǒng)計理論[8]。與傳統(tǒng)統(tǒng)計學相比,統(tǒng)計學習理論是一種研究小樣本情況下機器學習規(guī)律的理論[9-10]。該理論針對小樣本統(tǒng)計問題建立了一套新的理論體系,在這種體系下的統(tǒng)計推理規(guī)則不僅考慮了對漸近性能的要求,而且追求在現(xiàn)有有限信息的條件下得到最優(yōu)結果[11-13]。
為了能在小樣本的情況下獲得更高精度的分類結果,本文基于統(tǒng)計學習理論提出了一種半監(jiān)督支持向量機模型的高光譜遙感影像分類方法。該方法基于半監(jiān)督支持向量機體系,在小樣本的前提下加入未標記樣本點,使用未標記樣本中的結構信息來輔助構建SVM,完成對影像的分類處理,增加計算效率,提高影像的分類精度[14-15]。
本文提出的S3VM模型同時兼顧標記樣本和未標記樣本,在其基礎上對高光譜影像進行分類計算,整個框架具體如下。
本文利用S3VM模型分類,使用了大量的未標記樣本,其計算花費的時間極大。為了克服這一局限,首先對所選擇的大量未標記樣本進行特征提取,然后將這一新特征融入標記樣本中。具體采用K-means算法對未標記樣本進行迭代計算,使得目標函數J達到最小值,此時獲得其最優(yōu)聚類結果,即滿足如下公式
(1)
獲得未標記樣本的聚類特征后,將其與標記樣本進行訓練分析。進行訓練前,需要計算基核矩陣。對于標記樣本而言,為了控制影像中可能存在的錯誤標記樣本,本部分利用高斯徑向核函數計算基核KSVM矩陣,具體公式如下
(2)
式中,(x,y)為訓練樣本;l為樣本個數,且0 對未標記樣本,在確定相同的類別數k的前提下,使用K-means算法對其進行t次迭代運算,每一個Xi都得到一個聚類值Cp(Xi),其中p=1,2,…,t。此時,根據Xi和Xj為同一類別的次數得到其聚類核Kbag(xi,xj) (3) 式中, (xi,xj)為樣本;p是K-means算法進行迭代計算次數。 此時,獲得未標記樣本和標記樣本的基核矩陣KSVM和Kbag。為避免預設核存在數據分布假設上的不足或錯誤等局限, 本文采用原始核函數和聚類核 函數之和來修正聚類核K(xi,xj),具體如下 K(xi,xj)=Kbag(xi,xj)+KSVM(xi,xj) (4) 將式(2)和式(3)代入式(4)可得 K(xi,xj)= (5) 將K(xi,xj)用來訓練新的SVM,將其訓練結果代入高光譜影像,進行分類計算。 本文采用聚類核的方法先將未標記樣本進行聚類,然后將聚類后的結果和標準SVM 核進行組合訓練,進行分類計算,具體如圖1所示。 圖1 本文技術流程 本文試驗數據為1992 年6 月美國印第安納州西北部印第安遙感試驗區(qū)的AVIRIS 影像,影像大小為145×145 像素。原始參考影像一共16類,除去較少的4類后剩下12個類別,待分影像、參考影像及類別顏色對應信息如圖2所示。 圖2 原始試驗影像和參考數據 圖2(b)將12種地物類別在AVIRIS影像中已經分別標注出來,對這12種地物類別信息作樣本統(tǒng)計,具體見表1。 表1 AVIRIS影像類別樣本統(tǒng)計 本文針對標準SVM算法在小樣本的情況下分類精度不足的問題,提出一種基于S3VM的高光譜影像分類方法。因此,本文首先分析標準SVM算法在不同樣本下的分類精度,具體分類結果如圖3所示。 圖3 不同樣本的SVM分類對比 從圖3可知,每類5個樣本的分類結果目視效果非常差,存在很多明顯的錯分現(xiàn)象。逐步增加每類樣本數時,分類結果的目視效果逐漸變好,錯分現(xiàn)象能夠得到一定程度的改善。通過與分類參考圖目視比較,當每類的訓練樣本小于40個時,分類結果都不太好,訓練樣本為40~100個時可以取得比較好的結果,每類樣本數達到200個時,出現(xiàn)了更好的結果。這說明,利用標準的SVM算法進行影像分類時,分類精度的高低與樣本數量的多少成正比,存在大量正確樣本的前提下才有可能獲得較高的分類精度。對其進行定量分析具體見表2。 表2 不用樣本的標準SVM分類精度比較 從表2可以看出,利用標準SVM算法進行分類時,當每類樣本數較少時,往往無法得到較高的精度,如每類樣本數為5個時,僅能得到30.58%的OA精度。當增加每類樣本個數時,分類精度逐步遞增。這說明利用標準的SVM算法進行高光譜遙感影像分類,如果要獲得較好的精度,需要大量的正確樣本,從而大大增加計算時間,降低分類效率。而且,選擇的樣本數越多,存在樣本標記錯誤的風險也越大,可能導致分類精度下降。同時,標準SVM算法進行分類時,樣本的增多對于分類精度的提升并非是無限的。當每類樣本數達到100個時,OA精度達到了70.11%,再增加50個樣本后,OA精度提高了2.75%。增加到每類200個樣本時,分類精度較每類100個樣本時提高了4.24%。綜上,隨著每類樣本的增加,精度提升得越來越慢,直至達到比較穩(wěn)定的分類精度。 S3VM算法是當樣本較少時,使用加入的未標記樣本來改善核矩陣的構建,從而在影像分類上具有更優(yōu)異的表現(xiàn)。下面來分析標準SVM算法與S3VM算法的分類精度。圖4是當設定每類訓練樣本數為5個時,兩種算法的分類效果圖。 圖4 加入不同數量未標記點的分類圖 從圖4目視可知,當每類使用5個訓練樣本而不加入任何未標記樣本時,即等同利用標準的SVM算法分類,由于此時樣本數量較小,因此其分類的結果非常差。特別是在分類效果圖的左上部分,很多類別存在明顯的錯分現(xiàn)象。但是當利用S3VM算法加入未標記樣本后,其分類結果有了明顯改善,且分類精度隨著加入的未標記點的增加而提高。對圖4結果進行定量分析,具體見表3。 表3 加入不同數量未標記點的精度比較 從表3可以看出,當每類使用5個訓練樣本而不加入任何未標記樣本時,其分類OA精度為30.58%;當加入200個未標記樣本時,OA精度為41.27%;加入600個未標記樣本時,其OA精度提升為約54.28%,提高了23.7%。結果表明,在小樣本的前提下,標準的SVM算法進行高光譜遙感影像分類,其精度無法滿足需要,利用S3VM算法加入未標記樣本后,其分類結果有了明顯改善,證明未標記樣本在影像分類中的正面作用。 為了驗證本文方法的有效性,試驗增加每類訓練樣本數,并以同樣多的未標記樣本數加入到標記樣本中。此次試驗中每類訓練樣本個數為50個,分別加入200、400、600個未標記樣本,試驗結果如圖5所示。 從圖5目視可知,當每類使用50個訓練樣本而不加入任何未標記樣本時,其分類結果優(yōu)于只使用5個訓練樣本不加入任何未標記樣本的分類結果。當增加未標記樣本后,分類結果有所改善,但不如每類5個樣本時那么明顯,目視差別不大,僅僅在一些細節(jié)上有所好轉。定量的評價見表4。 從表4可知,當每類訓練樣本數達到50個時,僅使用標準SVM的分類精度已達到63.48%,增加未標記樣本數從200到600后,分類精度提升有限,僅有約10.03%的改善,改善程度不及每類訓練樣本為5個時。這一結論表明在每類訓練樣本數非常少的情況下,加入大量的未標記樣本對于分類結果的改善是顯著的,但當訓練樣本數較多的情況下,則對于分類結果的改善將沒有那么明顯,但也能促進影像分類精度的提升。 圖5 加入不同數量未標記點的分類 表4 加入不同數量未標記點的精度比較 本文提出了一種基于S3VM模型的高光譜遙感影像分類方法,該方法在小樣本的情況下,使用未標記樣本中的結構信息來輔助構建SVM,增加計算效率,提高影像的分類精度。試驗結果表明,在小樣本的情況下,標準的SVM算法的分類精度較低,無法滿足需要,在同樣樣本數量時,加入不同的未標記樣本,可以有效提高分類精度。本文提出的算法對影像的預處理要求不高,具有較好的適應性,其結果可以為城市變化發(fā)展、環(huán)境監(jiān)測等領域提供決策支持。 [1] 張兵,高連如.高光譜圖像分類與目標探測[M].北京:科學出版社,2011. [2] 浦瑞良.高光譜遙感及其應用[M].北京:高等教育出版社,2000. [3] 雒立群,郭舟,趙文智,等.結合高光譜和高空間分辨率影像提取城市固體廢棄物堆[J].測繪通報,2016 (2):38-41. [4] ZHONG Y,ZHANG L,HUANG B,et al.An Unsupervised Artificial Immune Classifier for Multi-hyperspectral Remote Sensing Imagery[J].IEEE Transactions on Geoscience and Remote Sensing,2006,44(2):420-431. [5] 譚琨,杜培軍.基于再生核Hilbert空間小波核函數支持向量機的高光譜遙感影像分類[J].測繪學報,2011,40(2):142-147. [6] 丁勝,袁修孝,陳黎.粒子群優(yōu)化算法用于高光譜遙感影像分類的自動波段選擇[J].測繪學報,2010,39(3):257-263. [7] WAN L,TANG K,LI M,et al.Collaborative Active and Semisupervised Learning for Hyperspectral Remote Sensing Image Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(5):2384-2396. [8] 張學工.關于統(tǒng)計學習理論與支持向量機 [J].自動化學報,2000,26(1):32-42. [9] CHERKASSKY V S,MULIER F.Learning from Data:Concepts,Theory,and Methods [M].Wiley:IEEE Press,2007. [10] VAPNIK V N.An Overview of Statistical Learning Theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999. [11] MAYORAZ E,ALPAYDIN E.Support Vector Machines for Multi-class Classification[C]∥Procecdings of the International Workshop on Engineering Applications of Bio-Inspired Artificial Neural Networks.[S.l.]:IEEE,1999. [12] BREDENSTEINER E J,BENNETT K P.Multicategory Classification by Support Vector Machines [J].Computational Optimization and Applications,1999,12(1):53-79. [13] HSU C W,LIN C J.A Comparison of Methods for Multiclass Support Vector Machines [J].IEEE Transactions on Neural Networks,2002,13(2):415-425. [14] ZHANG J S,PAN Y Z,HE C Y,et al.The High Spatial Resolution Remote Sensing Image Classification Based on SVM with the Multi-source Data[J].IEEE International Geoscience & Remote Sensing Symposium,2005(6):3818-3821. [15] ZHANG J S,HE C Y,PAN Y Z,et al.The High Spatial Resolution RS Image Classification Based on SVM Method with the Multi-Source Data[J].Journal of Remote Sensing,2006,10(1):49-57. ClassificationofHyperspectralRemoteSensingImageBasedonS3VMModel WEI Lifei1,2,F(xiàn)ENG Xiuqiang1,LI Dandan3,MOU Ziwei1,2 (1. Faculty of Resources and Environmental Science,Hubei University,Wuhan 430062,China; 2. Hubei Key Laboratory of Regional Development and Environmental Response,Wuhan 430062,China; 3. Key Laboratory of Agri-informatics,Ministry of Agriculture,P.R.China,Beijing 100081,China) The traditional hyperspectral remote sensing image classification is limited by the number of training samples,so it is difficult to obtain the better classification results.This paper proposes a hyperspectral remote sensing image classification method based on semi-supervised support vector machine of clustering kernel.The method constructs a kernel matrix to obtain more excellent classifier by semi-supervised support vector machine and unlabeled sample,and improves classification accuracy based on small sample.The experimental results show that the classification accuracy of this method proposed in this paper is better than the traditional method,and has good stability. hyperspectral remote sensing image;S3VM model;unlabeled sample;semi-supervised classification 2017-03-15; 2017-05-24 國家自然科學基金(61201341;41371344);干旱氣象科學研究基金(IAM201512);數字制圖與國土信息應用工程國家測繪地理信息局重點實驗室開放研究基金(GCWD201407) 魏立飛(1979—),男,博士生,講師,主要研究方向為城市遙感及遙感影像智能化處理。E-mail:weilifeihb@163.com 魏立飛,俸秀強,李丹丹,等.基于S3VM模型的高光譜遙感影像分類[J].測繪通報,2017(12):43-47. 10.13474/j.cnki.11-2246.2017.0376. P237 A 0494-0911(2017)12-0043-052 基于S3VM模型的高光譜遙感影像分類方法
3 試驗與分析
3.1 不同樣本的SVM分類比較
3.2 SVM與S3VM分類比較
4 結 語