王正海,方 臣,何鳳萍,祖玉川,王 磊,王 娟
(1.中山大學(xué)地球科學(xué)系,廣東 廣州 510275;2.廣東省地質(zhì)過(guò)程與礦產(chǎn)資源探查重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510275;3.湖北省地質(zhì)調(diào)查院,湖北 武漢 430034)
高光譜遙感作為一種新興的遙感技術(shù)在地質(zhì)領(lǐng)域得到了廣泛的應(yīng)用,特別是高光譜數(shù)據(jù)能以足夠高的波譜分辨率、豐富的波譜信息區(qū)分各種礦物和巖石在電磁波譜上顯示的診斷波譜特性,進(jìn)而定量識(shí)別不同的礦物成份,因而在地質(zhì)礦物分類及制圖上具有良好的應(yīng)用前景[1-2]。然而,高光譜數(shù)據(jù)量大、維數(shù)高的特點(diǎn)又使其在處理上具有特殊性。目前常用的多光譜遙感圖像的一些分類方法不能對(duì)高光譜數(shù)據(jù)進(jìn)行有效處理,如人工神經(jīng)網(wǎng)絡(luò)分類、獨(dú)立成分分析等在高維問(wèn)題中無(wú)法有效解決Hughes現(xiàn)象和保證小樣本下的分類精度問(wèn)題[3-5]。
支持向量機(jī)(SVM)在1979年由Vapnik首先提出,算法的基本思想是為了尋找分離兩種類別的數(shù)據(jù)集之間的超平面,然后通過(guò)機(jī)器學(xué)習(xí),在潛在高維空間中尋找最優(yōu)分類邊界,實(shí)現(xiàn)最優(yōu)分類[5-6]。作為小樣本統(tǒng)計(jì)學(xué)習(xí)的最佳理論,支持向量機(jī)應(yīng)用于分類時(shí)具有適用于高維特征空間、小樣本統(tǒng)計(jì)學(xué)習(xí)及抗噪聲影響能力強(qiáng)等特點(diǎn),正在成為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱點(diǎn)。
由于支持向量機(jī)主要是解決兩類的分類問(wèn)題,而野外實(shí)測(cè)巖石樣品有多種類型,因此需要對(duì)支持向量機(jī)算法加以改進(jìn)來(lái)實(shí)現(xiàn)多類分類,為此,本文提出了一種基于決策樹的多分類的支持向量機(jī)算法(DT-SVMs),通過(guò)構(gòu)建多個(gè)兩類支持向量分類機(jī)來(lái)實(shí)現(xiàn)多分類,建立一種基于決策樹的多類分類支持向量機(jī)的野外實(shí)測(cè)巖性波譜分類模型。
本文首先對(duì)野外實(shí)測(cè)巖石波譜數(shù)據(jù)進(jìn)行預(yù)處理,如波譜曲線光滑、水汽影響波段去除等,然后,對(duì)預(yù)處理后實(shí)測(cè)巖石波譜數(shù)據(jù)進(jìn)行特征提取,找到巖石波譜差異信息,構(gòu)建巖性波譜特征參數(shù)空間。由于支持向量機(jī)主要是解決兩類的分類問(wèn)題,而實(shí)測(cè)巖石波譜有多種類型,因此需要對(duì)支持向量機(jī)算法加以改進(jìn)來(lái)實(shí)現(xiàn)多類分類。本文引入了一種基于決策樹的多分類的支持向量機(jī)算法,通過(guò)構(gòu)建多個(gè)兩類支持向量分類機(jī)來(lái)實(shí)現(xiàn)多分類,即巖石波譜預(yù)處理、特征提取、決策分類數(shù)構(gòu)建和支持向量機(jī)分類四個(gè)步驟來(lái)實(shí)現(xiàn)巖石樣品的分類識(shí)別。
地物波譜特征分析是高光譜遙感信息提取的基礎(chǔ)。區(qū)分和找到不同地物的波譜差異,是通過(guò)遙感技術(shù)識(shí)別地物的關(guān)鍵。本文利用野外波譜儀獲取巖石波譜信息,研究野外采集巖石波譜特征,選擇出能夠有效反映地物屬性的波段區(qū)間,從中發(fā)掘表征巖石特性的診斷波譜區(qū)間和特征參數(shù),進(jìn)而實(shí)現(xiàn)巖石波譜分類。
1.1.1 包絡(luò)線去除 原始巖石波譜的譜形特征變化不明顯(圖1),包絡(luò)線去除法可以有效地增強(qiáng)巖石波譜的譜形特征變化[7-8]。包絡(luò)線直觀來(lái)看相當(dāng)于波譜曲線的“外殼”,近似與曲線中各個(gè)波峰點(diǎn)連起來(lái)的折線,在求出包絡(luò)線后可以對(duì)波譜曲線進(jìn)行包絡(luò)線去除,包絡(luò)線去除后的波譜曲線是原始波譜曲線與包絡(luò)線的比值[9]。
圖1 包絡(luò)線去除前后的波譜曲線
1.1.2 吸收谷特征參數(shù) 為了準(zhǔn)確的表述波譜吸收波段的位置形態(tài),通過(guò)巖石波譜曲線吸收谷的特性分析,引入吸收波段波長(zhǎng)位置(P)、深度(h)、寬度(w)、對(duì)稱度、面積(A)六個(gè)波譜吸收特征參量[7-9]。吸收波段位置是吸收峰反射率最小值處的波長(zhǎng);吸收深度為吸收谷點(diǎn)M到兩個(gè)肩部端點(diǎn)Ss、Se所組成的“非吸收基線”的距離;寬度指最大吸收深度一半處的波譜帶寬;對(duì)稱度可定義為以過(guò)吸收位置的垂線為界線,右邊區(qū)域面積與左邊區(qū)域面積比值,面積為寬度和深度的綜合參數(shù)(圖2)。
圖2 波譜吸收特征參量
由于水汽吸收的干擾,巖石波譜曲線被劃分為350~1 300、1 500~1 800、2 000~2 400 nm三個(gè)波段區(qū)間。在2 000~2 400 nm可以提取波譜的吸收特征,對(duì)該區(qū)間吸收谷計(jì)算吸收深度(h)、吸收寬度(w)、吸收面積(A)、吸收對(duì)稱性、吸收指數(shù)(SAI)。在1 500~1 800 nm巖石反射率曲線變化比較平緩,無(wú)法找到不同巖石類型的波譜差異,舍棄。實(shí)測(cè)巖石波譜在750~1 000 nm有比較明顯的上升趨勢(shì),不同巖性的波譜曲線上升幅度有所差異。為此,通過(guò)多項(xiàng)式擬合的方法將該波段的曲線用多項(xiàng)式y(tǒng)=kx+b表達(dá),這樣利用參數(shù)k和b就可以表達(dá)該波段曲線的上升特征(圖3)。
圖3 不同巖性的波譜曲線
1.2.1 支持向量機(jī)基本思想 支持向量機(jī)最開始是研究?jī)深惖木€性分類問(wèn)題,核心思想就是把數(shù)據(jù)非線性映射到高維特征空間,在高維特征空間中構(gòu)造具有低 VC 維的最優(yōu)分類超平面,使分類風(fēng)險(xiǎn)上界最小。基本思想可以由圖4得出,圖4中,實(shí)心點(diǎn)和空心點(diǎn)代表兩類樣本,H為分類線。
圖4 線性可分情況下的最優(yōu)分類線
假定訓(xùn)練樣本數(shù)據(jù)(x1 ,y1),…,(xi ,yi),x∈Rn,y∈{+1,-1},可以被一個(gè)超平面分開,進(jìn)行正歸化后,此時(shí)分類間隔為2/‖w‖,為了使分類間隔最大,即‖w‖2最小。因此最優(yōu)分類問(wèn)題可以表示成一個(gè)二次規(guī)劃問(wèn)題,即求函數(shù)
s.t.yi((w·xi)+b)≥1,i=1,…,l
的最小值。我們可以通過(guò)尋求上式的對(duì)偶問(wèn)題來(lái)求解最小值,為此可以引入Lagrange函數(shù)
其中,αi>0為L(zhǎng)agrange系數(shù),然后對(duì)w和b求Lagrange函數(shù)的極小值[10-13]。
1.2.2 核函數(shù) 上述介紹的是基于線性分類的支持向量機(jī),而實(shí)際上分類問(wèn)題更多是非線性分類,因此,需要把線性支持向量機(jī)推廣到一般的非線性支持向量機(jī)。通過(guò)樣本數(shù)據(jù)變換到高維空間中實(shí)現(xiàn)非線性分劃到線性分劃的轉(zhuǎn)化。為此,需要引入核函數(shù),其定義為:如果存在Rn到Hilbert空間H的變換
使得
K(x,x′)=(Φ(x)·Φ(x)′)
定義函數(shù)K(x,x′)為核函數(shù),常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基(RBF)核函數(shù)、Sigmoid核函數(shù)等[14]。
支持向量機(jī)主要用于解決兩類的分類問(wèn)題,巖石波譜數(shù)據(jù)有多種類別,因此需要對(duì)標(biāo)準(zhǔn)的支持向量機(jī)進(jìn)行改進(jìn)。本文探索研究引入基于決策樹的多類支持向量機(jī),在訓(xùn)練層的頂層結(jié)點(diǎn)構(gòu)建一個(gè)超平面把某一類和其他所有類分離,然后在剩下的類中繼續(xù)構(gòu)建一個(gè)超平面把其中一類分離出來(lái),重復(fù)上述操作直到所有類都被一一分離出來(lái)。如何分析各個(gè)類別之間的關(guān)系是應(yīng)用此方法的關(guān)鍵。本文采用了基于歐氏距離的決策樹。
對(duì)于兩個(gè)類i和j,兩個(gè)類之間的歐氏距離,首先計(jì)算每個(gè)類的中心位置
Xi是類i的所有樣本向量,ni是類i的樣本數(shù),類i和j的歐氏距離是
dij(=dji)=‖ci-cj‖
比較各個(gè)類別之間的歐氏距離來(lái)決定決策樹的構(gòu)建順序,其具體構(gòu)建步驟為(圖5)。
1)依次計(jì)算一類樣本Xi的中心與其他所有類別Xj的中心的歐氏距離dij;
2)對(duì)于類i,定義它與其他類的歐氏距離的最小值為i的距離li
將(i=1,…,N)按從大到小的順序排列,有最大的那一類將被首先分離,以此可以構(gòu)建該類與剩下所有類的超平面;
3)如果遇到多個(gè)類的的值是相等的,可以比較這些類第二最小距離的大小,然后按照(2)中的方法處理,如果也出現(xiàn)相等的情況則按上述方法繼續(xù)比較下去,直到所有類別都能分離出來(lái);
4)最后,各類按順序依次構(gòu)建N-1個(gè)支持向量分類機(jī),將所有類別分離出來(lái)。
圖5 決策樹示意圖
FieldSpectr Fr野外波譜儀測(cè)量的數(shù)據(jù)是在350~ 2 500 nm范圍內(nèi)地物波譜的反射率。為了避免水汽吸收對(duì)波譜整體形態(tài)和數(shù)據(jù)處理的影響,通過(guò)分析具體數(shù)據(jù)和借鑒有關(guān)文獻(xiàn)的結(jié)論,剔除了3個(gè)水汽吸收峰影響嚴(yán)重的波段區(qū)域,具體的剔除范圍為1 350~1 416、1 800~1 970、2 470~2 500 nm。剔除水汽吸收波段后對(duì)剔除的部分采用插值方法處理,本文采用的是三次多項(xiàng)式擬合的插值方法。
本文使用的巖石波譜采集自云南北衙地區(qū),該地區(qū)有大型金礦床,因此主要采集與礦化有關(guān)的蝕變巖和圍巖,包括鐵化白云質(zhì)灰?guī)r、鐵化白云質(zhì)泥灰?guī)r、灰?guī)r角礫巖、斑巖和微晶灰?guī)r等。選取了6類巖石波譜數(shù)據(jù),共48個(gè)波譜數(shù)據(jù),首先對(duì)波譜中噪聲比較大的兩個(gè)波段區(qū)進(jìn)行過(guò)濾并重新插值,然后對(duì)整個(gè)波譜進(jìn)行平滑處理以消除鋸齒,再使用包絡(luò)線去除找到波譜曲線中比較明顯的波峰波谷位置的波長(zhǎng)。對(duì)350~1 000 nm波段的曲線進(jìn)行多項(xiàng)式擬合提取參數(shù)k和b;對(duì)2 000~2 400 nm波段的吸收谷計(jì)算吸收深度、吸收寬度、吸收面積、吸收對(duì)稱性、吸收指數(shù)。表1是部分巖石波譜曲線通過(guò)計(jì)算提取的11個(gè)特征參量。
對(duì)于研究的48個(gè)巖石樣品波譜數(shù)據(jù),選取32個(gè)樣品作為訓(xùn)練樣本,其余16個(gè)樣品作為測(cè)試樣本用來(lái)檢測(cè)分類機(jī)的分類精度。首先,對(duì)32個(gè)訓(xùn)練樣本的變量進(jìn)行歸一化處理,以消除各參量之間的差異,便于對(duì)比分析。通過(guò)各類中心計(jì)算各類別之間的歐氏距離(表2)。該6類巖石的分類順序依次為類2、類1、類5、類3、類6、類4。這樣就需要構(gòu)造5個(gè)支持向量分類機(jī),每個(gè)分類機(jī)的懲罰因子C通過(guò)網(wǎng)格遍歷和交叉驗(yàn)證的方法獲得最優(yōu)值,經(jīng)過(guò)測(cè)試C的最優(yōu)值分別為C1=2、C2=32、C3=2、C4=512、C5=2,最終的分類結(jié)果如表3。由表3中可以看出:16個(gè)測(cè)試樣品有1個(gè)樣品被錯(cuò)誤分類,分類精度為93.75%。有一個(gè)深灰色鐵化白云質(zhì)泥灰?guī)r錯(cuò)分成鐵化白云質(zhì)灰?guī)r。
針對(duì)地面巖石波譜的高維、多類特點(diǎn),本文首先詳細(xì)研究了巖石波譜的曲線特征,根據(jù)吸收特征提取了吸收位置、吸收深度、吸收寬度、吸收對(duì)稱性、吸收面積和吸收指數(shù)等特征參數(shù),結(jié)果表明提取的特征參數(shù)可以很好地保留巖石波譜的特征信息;其次,在分析SVM分類方法的基礎(chǔ)上,引入決策樹思想(即根據(jù)各類樣本中心的歐氏距離的大小依次分離),構(gòu)建了一種基于決策樹的多分類支持向量機(jī)的地面巖石高光譜遙感分類模型。結(jié)果表明在巖石波譜分類有很好的推廣性。
基于決策樹的多分類支持向量機(jī)的地面巖石高光譜遙感分類模型,在以下方面還有待進(jìn)一步深入研究:①巖石波譜特征并沒(méi)有出現(xiàn)與礦物波譜完全對(duì)應(yīng)特征吸收帶,原因可能是巖石混合波譜的成像機(jī)理不明或波譜預(yù)處理不當(dāng),如何有效實(shí)現(xiàn)巖石波譜分解,建立相應(yīng)的巖石波譜與礦物波譜的量化對(duì)應(yīng)模型,礦物波譜與元素含量的對(duì)應(yīng)模型是進(jìn)一步推動(dòng)遙感地質(zhì)發(fā)展的契機(jī);②決策樹判別準(zhǔn)則的選取以及SVM核函數(shù)的選擇和改進(jìn)是進(jìn)一步提高分類精度的研究方向。
表1 部分巖石波譜的特征參量1)
Table 1 Descriptive characteristic spectrum parameters from a part of rocks
類別編號(hào)K1K2K3K4K5K6K7K8K9K10K111by1 0190 3480-0 00230 4930 5770 6792 3210 08880 2380 0163-0 52581 0493by1 0210 12920 08380 4830 5890 6772 3310 07540 2380 0082-0 64301 0694wlp 0340 2902-0 01060 5360 5770 6862 3280 14500 2590 0163-0 21871 14592wds 0460 2360-0 06800 4220 9951 1302 2000 17500 1120 0114-0 22261 1865wds 0490 2527-0 05560 4120 9961 1262 2060 18070 1180 0137-0 45401 1761wds 0500 2757-0 07020 4200 9991 1282 2060 15110 1200 0093-0 47671 16683by2 0160 2421-0 04520 5030 5660 6842 3190 04380 1240 0026-0 22511 0370by3 0000 3951-0 08710 5070 5680 6862 3140 05320 1230 0034-0 14451 0523by3 0040 5789-0 10150 5100 5630 7222 3150 07260 1220 0043-0 10541 06674wds 0300 22790 10200 4950 5610 6812 3100 20890 1320 0129-0 00561 2125wds 0360 4621-0 09890 5250 5650 6922 3130 16560 1430 0107-0 11651 1741wds 0620 2853-0 08070 4890 5600 6722 3270 11360 1290 0107-0 39811 10255by1 0060 2505-0 00460 4970 5620 7432 3060 12460 1310 0134-0 06251 0509by2 0480 4214-0 09460 4970 5700 6822 3160 08410 1490 0054-0 26431 0789jgb 0060 3201-0 11410 5070 5480 6752 3190 11180 1230 0114-0 36401 06806hnp 0300 2786-0 07070 4980 5800 6772 3100 06760 1610 0058-0 09081 0725by2 0460 3821-0 12500 4920 5830 6762 3190 07680 1630 0052-0 26791 0782wds 0000 2508-0 01970 4820 5860 6922 3140 30110 1600 0513-0 09611 0693
1)1表示灰黃色蠕蟲狀泥灰?guī)r;2表示紫紅色含礫粘土砂礫巖;3表示灰色白云質(zhì)砂屑灰?guī)r;4表示灰色泥砂膠結(jié)灰?guī)r角礫巖;5表示深灰色鐵化白云質(zhì)泥灰?guī)r;6表示紅色鐵化白云質(zhì)灰?guī)r;K1:多項(xiàng)式擬合系數(shù)k;K2:多項(xiàng)式擬合系數(shù)b;K3:吸收谷位置λ1/μm;K4:吸收峰位置λ2/μm;K5:吸收谷位置λ3/μm;K6:吸收谷位置λ4/μm;K7:吸收深度H;K8:吸收寬度D/μm;K9:吸收面積S;K10:吸收對(duì)稱性K;K11:吸收指數(shù)SAI
表2 樣本間歐氏距離
表3 巖石波譜分類結(jié)果
參考文獻(xiàn):
[1]張宗貴,王潤(rùn)生,郭小方,等. 基于地物光譜特征的成像光譜遙感礦物識(shí)別方法[J]. 地學(xué)前緣, 2003,10(2):437-443.
[2]陳文霞,陳安升,蔡之華. 基于高光譜吸收特征參數(shù)的分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(28):230-232.
[3]ZHU Guobin, BLUMBERG Dan G. Classification using ASTER data and SVM algorithms: The case study of Beer Sheva, Israel[J]. Remote Sensing of Environment,2002,80(2):233-240.
[4]ANDERS Knudby, ELLSWORTH LeDrew, ALEXANDER Brenning. Predictive mapping of reef fish species richness, diversity and biomass in Zanzibar using IKONOS imagery and machine-learning techniques[J]. Remote Sensing of Environment,2010,114(6):1230-1241.
[5]BJOM Waske, JON Atli Benediktsson. Fusion of support vector machines for classification of multisensor data,Geoscience and Remote Sensing[J]. IEEE Transactions on,2007,45(12):3858-3866.
[6]MATTIA Marconcini, GUSTAVO Camps-Valls, LORENZO Bruzzone. A composite semisupervised SVM for classification of hyperspectral images[J]. Geoscience and Remote Sensing Letters, IEEE,2009,6(2):234-238.
[7]梁亮,楊敏華,李英芳. 基于ICA與SVM算法的高光譜遙感影像分類[J]. 光譜學(xué)與光譜分析,2010,30(10):2724-2728.
[8]楊佳佳,姜琦剛,趙靜,等. 基于改進(jìn)的SVM技術(shù)和高光譜遙感的標(biāo)準(zhǔn)礦物定量計(jì)算[J]. 吉林大學(xué)學(xué)報(bào):地球科學(xué)版,2012,42(3):864-871.
[9]徐元進(jìn),胡光道,張振飛. 包絡(luò)線消除法及其在野外光譜分類中的應(yīng)用[J]. 地理與地理信息科學(xué),2005,21(6):11-14.
[10]黃婷婷,韋志輝,修連存,等. 基于吸收峰加權(quán)的巖礦光譜匹配方法研究[J]. 巖礦測(cè)試,2011,30(5):584-589.
[11]Vladimir Naumovich Vapnik. The nature of statistical learning theory[M]. 北京:淸華大學(xué)出版社,2000.
[12]譚琨,杜培軍. 基于支持向量機(jī)的高光譜遙感圖像分類[J]. 紅外與毫米波學(xué)報(bào),2008,27(2): 123-128 .
[13]唐發(fā)明. 基于統(tǒng)計(jì)學(xué)習(xí)理論的支撐向量機(jī)算法 [D]. 武漢:華中科技大學(xué), 2005.
[14]張學(xué)工. 關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 自動(dòng)化學(xué)報(bào),2000,26(1):36-46.