楊遠(yuǎn)陶, 劉 瑞, 曹禮剛, 楊 梅, 陳景玨
(成都理工大學(xué) a.地球物理學(xué)院,b.地球勘探與信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,c.地球科學(xué)學(xué)院,成都 610059)
土地利用現(xiàn)狀是國家和政府制定相關(guān)土地政策、合理規(guī)劃土地配比以及布局生產(chǎn)的重要依據(jù),而了解土地利用情況最傳統(tǒng)的方法是利用大量的人力,通過實(shí)地調(diào)查和記錄,最終匯總成一張土地利用現(xiàn)狀圖,這樣的方式會耗費(fèi)大量的人力和財(cái)力,且時(shí)間周期很長。近年來,隨著遙感技術(shù)的應(yīng)用領(lǐng)域越來越廣泛,結(jié)合遙感技術(shù)的土地利用分類技術(shù)成為一種低成本,高精度的新方法。因此,基于遙感影像的土地利用信息提取成為了一個(gè)新的熱點(diǎn)。而目前的遙感數(shù)據(jù)主要分為多光譜遙感影像數(shù)據(jù)和高光譜遙感影像數(shù)據(jù)。相較于多光譜數(shù)據(jù),高光譜遙感影像數(shù)據(jù)具有更加細(xì)微的光譜特征且信息量大,解決了多光譜影像光譜信息不足的情況。
在土地利用信息提取過程中最關(guān)鍵的環(huán)節(jié)是高光譜影像分類方法,這也是目前國內(nèi)、外學(xué)者一直研究的一個(gè)熱點(diǎn)問題。選擇一個(gè)可以更加快速且精確的對影像進(jìn)行分類的算法,成為一個(gè)關(guān)鍵的問題。目前比較主流的影像分類算法包括最大似然法、決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)法等[1-5],然而,在進(jìn)行土地利用信息提取時(shí),由于土地利用信息的復(fù)雜化、格局破碎化、同物異譜和同譜異物現(xiàn)象,單分類器已經(jīng)難以滿足更高的分類精度需求[6-7]。
目前基于傳統(tǒng)的分類算法衍生了各種機(jī)器學(xué)習(xí)的算法,為影像分類算法提供了新的方向[8],在機(jī)器學(xué)習(xí)算法中,表現(xiàn)最優(yōu)的是隨機(jī)森林算法,它作為一種多分類器組合的分類算法,可以應(yīng)對單分類器在面對復(fù)雜的土地利用信息分類中效果不佳的問題。
這里所使用的高光譜數(shù)據(jù)為珠海一號高光譜衛(wèi)星數(shù)據(jù),2018年4月26日珠海一號衛(wèi)星成功發(fā)射升空,標(biāo)志著國內(nèi)首個(gè)自主運(yùn)營的高光譜星座的成功建立,也是多顆高光譜衛(wèi)星的組網(wǎng)在國內(nèi)首次實(shí)現(xiàn)。總共包含了32個(gè)波段的珠海一號衛(wèi)星涵蓋了400 nm~1 000 nm的光譜范圍,在光譜分辨率達(dá)到3 nm~8 nm的同時(shí),其空間分辨率達(dá)到10 m,且幅寬達(dá)到了150 km,每2 d就可以完成一次重訪,設(shè)計(jì)的有效工作年限為5 year。具體波段信息如表1所示,珠海一號的衛(wèi)星體積小,但它在星上的存儲容量大且衛(wèi)星的成本較低。同時(shí)珠海一號衛(wèi)星還具備幅寬大,衛(wèi)星空間分辨率高,重訪周期短等優(yōu)勢[9]。
表1 珠海一號高光譜數(shù)據(jù)中心波長
珠海一號高光譜數(shù)據(jù)是沒有經(jīng)過去除積分級數(shù)處理的數(shù)據(jù),因此需要對數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正、影像裁剪等預(yù)處理。
在珠海一號高光譜影像中,包含了32個(gè)波段,其中波段b1~b2對應(yīng)的是藍(lán)光波段;波段b3~b8對應(yīng)的是綠光波段;波段b11~b21對應(yīng)的是紅光波段;波段b22~b32對應(yīng)的是近紅外波段,為了提高運(yùn)算速率,分別計(jì)算這些波段的標(biāo)準(zhǔn)差(表2),當(dāng)影像波段的標(biāo)準(zhǔn)差越大時(shí),說明此波段所含的信息也就越豐富。結(jié)合實(shí)際情況,通過比較這些波段的標(biāo)準(zhǔn)差的大小,最終選擇了波段b2作為藍(lán)光波段、b6作為綠光波段、b15作為紅光波段和b25作為近紅外波段。
表2 各波段對應(yīng)的標(biāo)準(zhǔn)差
圖1 研究區(qū)概況Fig.1 Overview of the research area
這里獲取了2018年10月6日珠海一號的高光譜數(shù)據(jù)。此景影像主要覆蓋了江西省南昌市進(jìn)賢縣的大部分區(qū)域。進(jìn)賢縣在浙贛鐵路與316、320國道交匯處,它位于江西省的中部,主要在潘陽湖南岸,面積為1 971 km2。
最大似然法分類是目前遙感影像分類方法中最經(jīng)典的分類方法之一[10]。在遙感影像中那些具有最大似然的像元將會被劃分到相應(yīng)的類別中,根據(jù)遙感影像中的波譜信息,可以得到影像中各個(gè)類別的一個(gè)概率密度函數(shù)。式(1)表示像元x被劃分為類別的后驗(yàn)概率。
gi(x)=p(wi|x)=p(x|wi)p(wi)/p(x)
(1)
式中:p(wi)是類別的先驗(yàn)概率;wi表示從類別觀測到像素x的條件概率。通常假設(shè)每一類別的p(wi)都是相同的,根據(jù)數(shù)學(xué)原理,利用多元正態(tài)分布作為概率密度函數(shù)。在正態(tài)分布的情況下,后驗(yàn)概率gi(x)可以表示為式(2)。
(2)
式中:i是波段數(shù);x是有i個(gè)波段的影像數(shù)據(jù);gi(x)是x中屬于類別wi的可能性;ui是類別i的平均向量;∑i是類別i的方差-協(xié)方差矩陣。在方差-協(xié)方差矩陣是對稱的情況下,似然度與歐幾里德距離相同,而在決定因素彼此相等的情況下,似然度與馬氏距離相同。為了移除多余的項(xiàng),需要對式(2)進(jìn)行取對數(shù)運(yùn)算,因此可以得到的最終函數(shù)為:
(3)
由式(3)得到的判別公式就為最大似然法的判別公式。
決策樹分類算法的分類過程類似于一個(gè)倒著的樹狀結(jié)構(gòu),從第一級開始,把遙感影像數(shù)據(jù)集一級一級的往下細(xì)分。決策樹有一個(gè)根節(jié)點(diǎn)、多個(gè)中間節(jié)點(diǎn)和K個(gè)葉子節(jié)點(diǎn)組成。決策樹的分類過程分為三個(gè)步驟:
1)生成一顆倒立狀的樹狀結(jié)構(gòu)。
2)根據(jù)這棵樹的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑生成一系列的規(guī)則。
3)通過步驟2)的一系列規(guī)則加入遙感影像數(shù)據(jù),最終得到分類或者預(yù)測結(jié)果。
因此,決策樹的分類思想可以理解為構(gòu)建一顆倒立的樹狀結(jié)構(gòu),通過生成的一系列的規(guī)則,然后根據(jù)這些規(guī)則將原始數(shù)據(jù)進(jìn)行歸類的過程[11-12]。
2.3.1 算法思想
隨機(jī)森林分類算法是一種基于決策樹的機(jī)器學(xué)習(xí)算法[13]。它是Bagging算法和Random Subspace算法的組合。以決策樹{h(X,θk);k=1,2,…,n}∈{true,false}作為基本構(gòu)成單元,通過將多顆決策樹組合在一起來提高分類的準(zhǔn)確性,由此構(gòu)建了隨機(jī)森林分類器(圖2)。隨機(jī)森林算法的基本思想是:首先,從原始訓(xùn)練樣本集中利用 bootstrap 抽樣抽取K個(gè)樣本,抽取的樣本必須滿足每個(gè)樣本的樣本容量都與原始訓(xùn)練集大小一樣。其次,K個(gè)決策樹模型是由抽取的K個(gè)樣本所建立的,這K個(gè)決策樹模型就組成了隨機(jī)森林分類器。最后,用這K顆決策樹對測試樣本集進(jìn)行分類,得到K種分類結(jié)果,依據(jù)K種分類結(jié)果對每個(gè)記錄進(jìn)行投票表決,決定其最終分類。
圖2 隨機(jī)森林分類示意圖Fig.2 Schematic diagram of random forest classification
2.3.2 基本原理
在隨機(jī)森林模型構(gòu)建的過程中,最關(guān)鍵的一步就是從屬性子集K選取最佳分類節(jié)點(diǎn)方法[14]。目前流行的有三種,分別是基尼系數(shù)、信息增益和信息增益率。它們所對應(yīng)決策樹類型為CART、ID3和C4.5。最佳分裂屬性是從對應(yīng)值最佳的屬性中挑選出來的,當(dāng)屬性值為離散時(shí),即可進(jìn)行下一步分裂;若屬性值為連續(xù)變量時(shí),則需要再選取最佳分裂點(diǎn)。具體計(jì)算方法是基尼系數(shù)為一種判斷分配平等程度的指標(biāo),基尼系數(shù)越小表示分配平等程度高,因此分類效果越好,計(jì)算公式為式(4)與式(5)。
(4)
(5)
在信息論中,熵值的定義則表示信息熵。數(shù)據(jù)樣本的純度越高,信息熵的值則越大,分類的效果就越好。樣本T的信息熵可表示為:
(6)
其中:Pi表示樣本i占總樣本數(shù)量的比例。通過特征A作用,樣本T將會被劃分為k個(gè)部分。此時(shí)信息熵為式(7)。
(7)
因此信息增益率則為式(9),信息增益率與分類效果呈正相關(guān)關(guān)系,計(jì)算如下:
(8)
(9)
隨機(jī)森林模型是以CART決策樹為基本分類器的一個(gè)集成學(xué)習(xí)模型,因此筆者選擇基尼系數(shù)作為節(jié)點(diǎn)分裂方法。
隨機(jī)森林算法主要有以下幾個(gè)優(yōu)點(diǎn):①魯棒性好,無需擔(dān)心過擬合現(xiàn)象;②數(shù)據(jù)兼容性好,對離散數(shù)據(jù)和連續(xù)數(shù)據(jù)都可以進(jìn)行處理,即使數(shù)據(jù)缺失了部分特征也不影響分類結(jié)果;③抗噪聲能力強(qiáng);④算法容易實(shí)現(xiàn),效率高;⑤可以并行化處理。在實(shí)際應(yīng)用過程中,有時(shí)需要對隨機(jī)森林算法進(jìn)行評價(jià)。對于一個(gè)分類器來說,最重要的評價(jià)標(biāo)準(zhǔn)即是分類精度,隨機(jī)森林也不例外。因此,對隨機(jī)森林分類器的性能評價(jià)主要從分類精度來進(jìn)行。
筆者選取珠海一號高光譜影像作為實(shí)驗(yàn)數(shù)據(jù),以最大似然、決策樹和隨機(jī)森林三種算法作為影像的分類算法。首先對影像數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)研究區(qū)的實(shí)際情況,將研究區(qū)土地類型分為了水體、道路、耕地、草地、林地、城鄉(xiāng)建設(shè)用地和裸地七類。其次通過目視解譯的方式,選取適量的樣本,作為模型的訓(xùn)練和驗(yàn)證樣本。訓(xùn)練樣本分別加入三種模型進(jìn)行訓(xùn)練,把訓(xùn)練好的模型用于原始影像預(yù)測得到最終的分類結(jié)果(圖3)。最后將分類結(jié)果結(jié)合驗(yàn)證樣本評價(jià)其模型的分類精度。
圖3 各算法分類結(jié)果Fig.3 Classification results of each algorithm(a)最大似然;(b)決策樹;(c)隨機(jī)森林
在圖3中,通過將實(shí)驗(yàn)結(jié)果和原始影像進(jìn)行同位置比對可以看出,最大似然法(圖3(a))在分類時(shí)對道路像元較為敏感,但將很多城市像元錯(cuò)誤地劃分為道路類型,在結(jié)果圖上出現(xiàn)了許多較大的道路斑塊。決策樹算法(圖3(b))在水體和建設(shè)用地區(qū)分上表現(xiàn)出更高的精度;隨機(jī)森林模型(圖3(c))的結(jié)果顯示其在各種地物類型區(qū)分上都表現(xiàn)出較優(yōu)的性能,尤其是在道路和城市建設(shè)用地的區(qū)分上,解決了前兩種方法出現(xiàn)的道路斑塊較多的問題,并且在耕地、裸地的劃分上也表現(xiàn)出較好的結(jié)果。
分類精度是一個(gè)客觀評價(jià)分類方法優(yōu)劣的指標(biāo),在進(jìn)行分類精度評價(jià)時(shí),為了保證分類精度評價(jià)的客觀性,采用控制變量法。除了分類方法可變以外,使用同一套訓(xùn)練樣本和驗(yàn)證樣本,采用最大似然法、決策樹和隨機(jī)森林三種分類算法對研究區(qū)進(jìn)行分類。由混淆矩陣計(jì)算得出分類模型的分類精度如圖4所示。
圖4 各算法分類精度及Kappa系數(shù)Fig.4 Classification accuracy and Kappa coefficient of each algorithm
圖4表明,最大似然法的分類精度是最低的,決策樹法居中,分類精度最高的為隨機(jī)森林算法,總分類精度達(dá)到了93%。隨機(jī)森林算法相較于最大似然法提高了接近七個(gè)百分點(diǎn),顯然隨機(jī)森林分類算法優(yōu)于最大似然分類算法。
由表3可以看出,在相同的條件下,不同地表覆蓋類型的分類精度差別較大,具體來看,林地、耕地、城鄉(xiāng)建設(shè)用地和裸地的分類效果較好,精度都達(dá)到了90%以上,而草地的分類效果表現(xiàn)較差,分類精度僅70%,其余地類的分類精度都在80%~90%之間。綜上所述,在高光譜土地利用信息提取中,隨機(jī)森林算法較最大似然分類算法和決策樹分類算法更加精確,在區(qū)分復(fù)雜的地類時(shí)也體現(xiàn)出更明顯的優(yōu)勢,特別是在林地和城市建設(shè)用地的區(qū)分上,分類精度分別高達(dá)98.2%和95.26%(圖3)。
表3 不同分類方法分類精度比較
高光譜圖像分類算法研究是高光譜研究領(lǐng)域中的一個(gè)重要方向,具有重要的實(shí)際意義。本研究針對當(dāng)前高光譜圖像分類過程存在的一些難題,筆者提出了一種結(jié)合波段標(biāo)準(zhǔn)差和隨機(jī)森林算法的高光譜遙感影像分類模型,并且將該模型與傳統(tǒng)的最大似然分類算法和決策樹分類算法進(jìn)行對比。通過分類精度評價(jià)得到隨機(jī)森林算法、決策樹法和最大似然法的分類精度分別為93.14%、89.07%和86.38%。結(jié)果表明,利用隨機(jī)森林模型可以明顯地提高高光譜影像的分類精度,而且極大地減少了影像錯(cuò)分和漏分的現(xiàn)象,可為高光譜影像在土地利用信息提取中提供一種新的參考。
筆者利用影像標(biāo)準(zhǔn)差的方式,對高光譜影像進(jìn)行降維,這樣可以彌補(bǔ)多光譜影像波段的不可被替換的缺陷,在未來的土地利用信息提取上具有廣闊的應(yīng)用前景。
這里采用了基于機(jī)器學(xué)習(xí)的隨機(jī)森林算法對影像進(jìn)行分類,這種多分類器集成的分類算法,彌補(bǔ)了在單一分類器下分類精度較低且容易出現(xiàn)過擬合的缺陷,提高了分類精度,能夠快速且準(zhǔn)確地提取土地利用信息,實(shí)現(xiàn)了土地利用信息快速可視化的目的。
雖然隨機(jī)森林算法在高光譜土地利用信息提取上取得了較高的精度,但在樣本選取和數(shù)量上存在一定的主觀性因素,因此在樣本的選擇和樣本的數(shù)量將成為下一步的研究目標(biāo)。