孔令堯
(遼寧省自然資源事務(wù)服務(wù)中心,遼寧 沈陽(yáng) 110034)
遙感技術(shù)是以電磁波理論為基礎(chǔ)的探測(cè)技術(shù),從20世紀(jì)60年代發(fā)展至今,隨著技術(shù)發(fā)展以及傳感器硬件設(shè)備的快速提升,遙感影像資料越來(lái)越豐富,無(wú)論從空間分辨率、時(shí)間分辨率,還是光譜分辨率都得到了很大程度地提高,已經(jīng)成了地表覆蓋信息提取的最有效手段[1]。由于高分五號(hào)高光譜數(shù)據(jù)正式投入使用的時(shí)間較短,國(guó)內(nèi)外研究人員對(duì)該數(shù)據(jù)發(fā)表的相關(guān)研究結(jié)論較少,因此加快開展針對(duì)高分五號(hào)高光譜數(shù)據(jù)的應(yīng)用研究,對(duì)掌握國(guó)產(chǎn)高光譜數(shù)據(jù)資源的自主知識(shí)產(chǎn)權(quán)具有重要意義。
高光譜遙感影像數(shù)據(jù)具有豐富的光譜信息,使其在地表覆蓋物提取分類中相對(duì)于多光譜數(shù)據(jù)具有先天的優(yōu)勢(shì)[2]。然而,也正是因?yàn)樾畔⒇S富的優(yōu)勢(shì),同樣帶來(lái)了一些困擾,比如光譜數(shù)據(jù)量大、空間分辨率低、混合像元等,因此如何利用先進(jìn)的數(shù)據(jù)處理技術(shù)手段處理高光譜數(shù)據(jù)的提取分類成為一大挑戰(zhàn)。
自高分五號(hào)正式投入使用以來(lái),國(guó)內(nèi)外的相關(guān)研究都在積極開展,為了得到更好地提取與分類應(yīng)用效果,充分利用高分五號(hào)高光譜數(shù)據(jù)的優(yōu)勢(shì),本次研究對(duì)原始影像進(jìn)行了壞波段去除、輻射定標(biāo)、壞線修復(fù)、大氣校正和幾何校正預(yù)處理工作,將預(yù)處理后的影像分別采用光譜角匹配法、支持向量機(jī)法和ENVINet5的深度學(xué)習(xí)模塊方法進(jìn)行地表覆蓋信息提取分類,并通過(guò)相關(guān)指標(biāo)進(jìn)行評(píng)價(jià)。技術(shù)路線(如圖1所示)。本次所用的遙感專業(yè)處理軟件為ENVI5.5和ArcGIS10.2。
圖1 技術(shù)路線圖
為了使提取的地物更具有代表性,并考慮到高分五號(hào)高光譜數(shù)據(jù)30m的空間分辨率導(dǎo)致容易產(chǎn)生混合像元,本次研究選取確定了6類典型的主要地物作為標(biāo)準(zhǔn)參考樣本。使用ArcGIS手工繪制了清晰的6類地物:公路、居民地、林地、耕地、廠房、工業(yè)空地。導(dǎo)入到ENVI中作為標(biāo)準(zhǔn)參考樣本(如圖2(d)所示):
圖2 分類結(jié)果對(duì)比圖
2.2.1 算法原理
光譜角匹配法是利用地物反射的光譜曲線特征進(jìn)行提取分類的方法,其原理是將全部波段作為空間向量,根據(jù)向量運(yùn)算原理,以圖像端元中選取的端元波譜作為參考波譜,對(duì)兩者之間的向量夾角進(jìn)行計(jì)算,兩者向量夾角的大小與相似度成反比,即光譜向量間夾角越小,表示相似度越高。
2.2.2 端元波譜的選取及分類后處理
選取的端元波譜越純粹,則光譜角匹配法分類的精度越高。初步完成分類后,要對(duì)相同類型的地物反射波譜進(jìn)行合并處理,繪制平均波譜曲線。例如,三種不同顏色的工廠房頂需要進(jìn)行波譜合并處理,提高分類精度。由于受到高光譜數(shù)據(jù)中的噪聲、混合像元等因素的影響,在高光譜遙感影像的分類過(guò)程中不可避免地經(jīng)常出現(xiàn)碎斑的情況。因此,需要將突兀的碎斑進(jìn)行融合過(guò)渡處理或與周圍大面積圖斑合并,以便分類結(jié)果清晰,圖斑連續(xù),過(guò)渡自然。本次利用ENVI軟件中的Majority模塊對(duì)波段進(jìn)行合并處理。
支持向量機(jī)分類法具有完善的數(shù)學(xué)理論,是一種基于統(tǒng)計(jì)特征的地表覆蓋分類方法,在一系列改進(jìn)和擴(kuò)展算法后,在模型識(shí)別、文本分類和人像識(shí)別等方面得到了廣泛應(yīng)用。
2.3.1 算法原理
支持向量機(jī)的核心理論是結(jié)構(gòu)風(fēng)險(xiǎn)最小化為歸納原則[3],基于這個(gè)原則將數(shù)據(jù)映射到高維特征空間,在高維特征空間中構(gòu)造最優(yōu)分類超平面作為判決面,使得線性可分的兩類數(shù)據(jù)的間隔最大。
2.3.2 訓(xùn)練樣本選擇
支持向量機(jī)分裂的重點(diǎn)在于訓(xùn)練樣本的選擇和定義[4]。將預(yù)處理后的高光譜遙感影像,根據(jù)目視解譯的類別圖,均勻選擇各類型地物的訓(xùn)練樣本,并且對(duì)于同類型但不同屬性的地物需要分別選取樣本,將標(biāo)準(zhǔn)樣本作為驗(yàn)證樣本,樣本數(shù)量(如表1所示):
表1 訓(xùn)練及驗(yàn)證樣本數(shù)
2.4.1 模型簡(jiǎn)介
隨著遙感數(shù)據(jù)分類領(lǐng)域的不斷發(fā)展,智能化的基于深度學(xué)習(xí)的分類方法得到越來(lái)越廣泛地關(guān)注,成為了遙感領(lǐng)域最熱門的研究方向。相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)算法能夠通過(guò)訓(xùn)練集來(lái)自動(dòng)地挖掘數(shù)據(jù)的深度特征包括了光譜、紋理和統(tǒng)計(jì)特征,而不用通過(guò)特征工程來(lái)進(jìn)行特征選擇,使得模型獲得更高的分類精度。目前,高光譜數(shù)據(jù)越來(lái)越多地被使用在地表覆蓋地物提取分類研究中,而熱門的深度學(xué)習(xí)方法必然會(huì)在高光譜分類中得到更多應(yīng)用。
2.4.2 ENVINet5模型參數(shù)
(1)迭代與訓(xùn)練量。模型分類的精度與模型的訓(xùn)練量密不可分,迭代次數(shù)、每批訓(xùn)練使用的切片和每次迭代訓(xùn)練切片數(shù)是決定訓(xùn)練量的主要參數(shù)。將全部數(shù)據(jù)導(dǎo)入模型進(jìn)行一次訓(xùn)練的過(guò)程為迭代次數(shù),迭代次數(shù)少,模型達(dá)不到精度要求;迭代次數(shù)多,運(yùn)算時(shí)間長(zhǎng),不僅浪費(fèi)計(jì)算資源,也并不意味著就會(huì)有更高的模型精度[5]。一般會(huì)根據(jù)數(shù)據(jù)量,設(shè)置在16-32次之間。
(2)固定距離和模糊距離。固定距離的設(shè)置是用來(lái)對(duì)線狀特征或者點(diǎn)狀特征的大小進(jìn)行擴(kuò)展,從而能更加準(zhǔn)確地提取目標(biāo)的位置和數(shù)量。如果地物目標(biāo)形狀復(fù)雜,繪制樣本時(shí)無(wú)法準(zhǔn)確繪制特征邊線,可以添加固定距離,這樣可以更加完整地表達(dá)出真實(shí)對(duì)象。
模糊距離是在銳利的特征地物邊緣設(shè)置模糊距離,設(shè)置分為最大距離和最小距離,以便在模型訓(xùn)練的過(guò)程中在最大距離與最小距離間減少模糊,使模型聚焦于特征邊界上。
(3)分類權(quán)重和損失權(quán)重。設(shè)置分類權(quán)重參數(shù)是在模型自動(dòng)從圖像中生成切片時(shí),引入一種偏差。避免由于同等概率選擇切片時(shí),完全由背景像素組成的情況發(fā)生。這種偏差值的引入,使得在模型選取切片時(shí),特征像素被選取的概率增高。
損失權(quán)重可以用來(lái)判斷模型的訓(xùn)練情況。為了使模型對(duì)特征像素識(shí)別度更高,避免背景像素,可以通過(guò)設(shè)置損失權(quán)重參數(shù)來(lái)實(shí)現(xiàn)。在圖像中特征像素取樣不足時(shí),也可以通過(guò)損失權(quán)重為每個(gè)像素添加權(quán)重。
2.4.3 執(zhí)行分類
采用最優(yōu)的、訓(xùn)練后的參數(shù)模型,對(duì)研究區(qū)域進(jìn)行圖像分類。此處值得注意的是待分類圖像必須大于訓(xùn)練模型的切片大小。
通過(guò)光譜角匹配法、支持向量機(jī)法以及ENVINet5深度學(xué)習(xí)模塊對(duì)研究區(qū)域進(jìn)行了地表覆蓋信息分類,現(xiàn)將從定性、定量和效率三個(gè)方面對(duì)分類結(jié)果進(jìn)行分析評(píng)價(jià)。
精度評(píng)估是把握遙感產(chǎn)品質(zhì)量的關(guān)鍵環(huán)節(jié),是檢驗(yàn)不同分類方法生產(chǎn)效果的重要手段。一般從定性和定量?jī)蓚€(gè)方面去評(píng)估分類結(jié)果的精度。定性評(píng)價(jià)表示的是從分類結(jié)果的圖面上進(jìn)行人為的觀察,并參照參考資料進(jìn)行對(duì)比分析。定量評(píng)價(jià)表示的是通過(guò)相應(yīng)的指標(biāo)對(duì)結(jié)果精度進(jìn)行判斷,通常的評(píng)價(jià)指標(biāo)有混淆矩陣和Kappa系數(shù)。
混淆矩陣的每一列表示一種真實(shí)地物類別,這一列中的數(shù)值即地表真實(shí)像元在此類別中的數(shù)量;每一行表示一種預(yù)測(cè)所分類別,這一行中的數(shù)值即預(yù)測(cè)該類像元在此類別中的數(shù)量。
總體分類精度(Overall Accuracy)是正確分類的像元總和占總像元數(shù)的比率。制圖精度又叫生產(chǎn)者精度(Produce Accuracy)是指分類結(jié)果將整個(gè)影像的像元正確分為某一類的像元數(shù)與該類真實(shí)像元總數(shù)(混淆矩陣中該類列的總和)的比率。用戶精度(User Accuracy)是指正確分到某一類的像元總數(shù)與分類結(jié)果中被分為該類的像元總數(shù)(混淆矩陣中該類型的總和)比率。
kappa系數(shù)同樣是一種衡量分類精度的指標(biāo),在交叉分類中較常使用,其取值范圍是[-1,+1],越接近1表示相似度越高,反之相似度越低。一般來(lái)說(shuō)Kappa系數(shù)大于0.75即表示分類的一致性較好,小于0.4表示一致性較差。計(jì)算公式(1)所示:
公式(1)中,Pe是總體分類精度;假設(shè)n個(gè)類別,ai是第i類真實(shí)樣本的個(gè)數(shù);bi是第i類預(yù)測(cè)樣本的個(gè)數(shù)。
光譜角匹配法、支持向量機(jī)法和ENVINet5方法的研究區(qū)分類結(jié)果圖(如圖2所示):
通過(guò)對(duì)比觀察發(fā)現(xiàn),三種方法都能很好地對(duì)地表覆蓋物進(jìn)行分類,也客觀地證明了本次研究方法的可行性。由于高分五號(hào)高光譜影像本身30m空間分辨率的限制,導(dǎo)致各類型土地覆蓋的邊界較為模糊,并且不可避免地會(huì)產(chǎn)生圖塊中存在碎斑的現(xiàn)象,但從整體來(lái)看,通過(guò)ENVINet5分類方法得出的結(jié)果要比光譜角分類法和支持向量機(jī)分類方法的整體內(nèi)部集聚性更強(qiáng),圖中的碎斑情況更少。各個(gè)類別地物的分類也達(dá)到了很好的效果。(1)對(duì)于公路的分類結(jié)果,可以看出ENVINet5的分類結(jié)果直觀、清晰地表達(dá)出了線性的公路屬性特征。而光譜角匹配法和支持向量機(jī)法分類結(jié)果中,受到周圍像元影響較大,混合了居民地、工業(yè)空地以及部分植被等光譜特征;(2)對(duì)于工業(yè)用地和廠房的分類結(jié)果中,可以看出在邊界的判別上,光譜角匹配法要優(yōu)于支持向量機(jī)分類法和ENVINet5分類法。但在內(nèi)部集聚方面還是ENVINet5分類法效果更好;(3)對(duì)于居民地分類結(jié)果中,光譜角匹配法和支持向量機(jī)法產(chǎn)生的內(nèi)部碎斑較多,從分類樣本的參考多光譜影像中可以看出:碎斑是由多種居民房屋頂?shù)幕旌舷裨獙?dǎo)致的,影響了分類結(jié)果;(4)對(duì)于耕地和林地的分類結(jié)果中,可以看出光譜角匹配法對(duì)耕地中植被稀疏地塊存在錯(cuò)分的情況。由于光譜角匹配法對(duì)光譜曲線較為敏感,因此在不同的植被種類和不同的生長(zhǎng)期,都會(huì)產(chǎn)生影響。
本次研究分別以混淆矩陣和Kappa系數(shù)作為定量評(píng)價(jià)指標(biāo)對(duì)三種分類結(jié)果進(jìn)行評(píng)價(jià)。光譜角匹配法方法總體精度為82.14%,Kappa系數(shù)為0.768;支持向量機(jī)方法總體精度為92.4557%,Kappa系數(shù)為0.9024;ENVINet5方法的總體精度為94.6175%,Kappa系數(shù)為0.9306。從定量評(píng)價(jià)結(jié)果中可以明顯得出:ENVINet5分類效果最好,然后是支持向量機(jī)分類法,最后是光譜角分類法。
根據(jù)混淆矩陣對(duì)六種不同地類分別進(jìn)行生產(chǎn)者精度、用戶精度和平均精度的計(jì)算。結(jié)果(如表2所示):
表2 三種方法各類別精度表
從表2中可以看出:三種方法對(duì)廠房分類的平均精度都高于94%,對(duì)居民地和林地分類的平均精度都超過(guò)了86%,表明分類結(jié)果較好。光譜角匹配法對(duì)于公路分類的平均精度很低,表明分類結(jié)果不理想,存在錯(cuò)分現(xiàn)象。支持向量機(jī)法在工業(yè)空地和公路兩類地物的分類中平均精度都小于80%,表明存在分類效果不佳,存在錯(cuò)分現(xiàn)象。ENVINet5分類方法對(duì)六類地物的平均分類精度都達(dá)到了95%以上,尤其是對(duì)于工業(yè)用地和公路這兩類容易受到周邊像元影像的小面積地物的分類中,生產(chǎn)者精度和用戶精度也都達(dá)到了90%以上,表明分類效果很好。因此,在六種典型地物的分類的過(guò)程中ENVINet5方法的分類精度要高于光譜角匹配法和支持向量機(jī)法。
運(yùn)算效率的高低同樣是評(píng)價(jià)一種分類算法精度的重要指標(biāo)。在執(zhí)行分類前,訓(xùn)練樣本的選取中,光譜角匹配法只需要準(zhǔn)確選取目標(biāo)地物的端元波譜即可保證精度。支持向量機(jī)法只需要保證一定數(shù)量的訓(xùn)練樣本數(shù)即可保證精度。而ENVINet5的訓(xùn)練樣本需要通過(guò)標(biāo)簽創(chuàng)建,并且分別訓(xùn)練模型,工作量比較大,并且對(duì)計(jì)算機(jī)硬件要求也比較高。三類方法訓(xùn)練及分類所用時(shí)間對(duì)比(如表3所示):
表3 三類方法用時(shí)
本次研究利用ENVI軟件完成了高分五號(hào)高光譜影像預(yù)處理工作,并總結(jié)出了一套有效的處理方法。不僅剔除了無(wú)效波段提高了運(yùn)算效率,而且減少了噪聲,提高了圖像的質(zhì)量,最終獲得了真實(shí)的地物反射率。在此基礎(chǔ)上利用基于波譜特征的光譜角匹配法、基于波譜統(tǒng)計(jì)特征的支持向量機(jī)法和基于深度學(xué)習(xí)框架的ENVINet5分類法對(duì)公路、居民地、林地、耕地、廠房和工業(yè)空地共六類典型地物進(jìn)行了地表覆蓋地物特征提取,并進(jìn)行了結(jié)果分析。最終結(jié)果表明:高分五號(hào)高光譜遙感影像在大面地物特征提取及分類中擁有著廣泛的應(yīng)用前景,對(duì)于推動(dòng)高光譜影像在地理國(guó)情監(jiān)測(cè)項(xiàng)目中的應(yīng)用有一定的推廣作用。