周詢, 王躍賓, 劉素紅, 于佩鑫, 王西凱
(1.北京師范大學(xué)地理學(xué)院,北京 100875;2.北京師范大學(xué)地理科學(xué)學(xué)部,北京 100875;3.北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,北京 100875)
遙感技術(shù)為提取耕地類型提供了更加快速、全面、準(zhǔn)確的手段,其中基于像元和面向?qū)ο蟮谋O(jiān)督分類方法較為常用[3-4]?;谙裨姆诸惙椒ㄖ?,需要從影像中選擇特定的訓(xùn)練樣本,獲得樣本的光譜特征,建立每個(gè)類別的判定函數(shù)[5],然后利用判定函數(shù)對(duì)待分類數(shù)據(jù)進(jìn)行類別判定[6]。面向?qū)ο蟮姆诸惙椒ㄊ紫葘?duì)遙感影像進(jìn)行分割[7],將分割后的斑塊作為研究對(duì)象[8],然后選擇特定的斑塊作為訓(xùn)練樣本,獲取其光譜和幾何等特征,建立不同類別的判定函數(shù),對(duì)待分類斑塊進(jìn)行分類[9]。
由于遙感影像的光譜特征受觀測(cè)幾何條件和地表類型變化的影響比較大,所以“同物異譜”現(xiàn)象較為嚴(yán)重[10],這導(dǎo)致在利用光譜特征進(jìn)行地物類別判斷時(shí)受條件限制較強(qiáng)。此外,進(jìn)行監(jiān)督分類時(shí)選擇的訓(xùn)練樣本用于同一幅影像分類時(shí)精度較高[11],但處理其他多幅影像時(shí)精度顯著降低;而針對(duì)不同影像重新選擇訓(xùn)練樣本則效率較低[12]。在高空間分辨率遙感影像中,分類方法的精度與效率的矛盾更加突出,自動(dòng)化程度需求更強(qiáng)[13]。
為了兼顧遙感影像分類方法的精度與效率,本文提出了一種基于影像窗口子區(qū)的耕地類型自動(dòng)識(shí)別算法。該算法通過(guò)對(duì)影像的規(guī)則劃分獲取一定大小的影像窗口子區(qū),在提取多光譜和多層次特征的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)算法,自動(dòng)識(shí)別影像窗口子區(qū)耕地和非耕地類型。以東北地區(qū)的高空間分辨率遙感影像為例,建立實(shí)驗(yàn)數(shù)據(jù)集以構(gòu)建該區(qū)域特征庫(kù),實(shí)現(xiàn)耕地和非耕地類型的非監(jiān)督自動(dòng)識(shí)別,大大提高了分類算法的自動(dòng)化程度;同時(shí)也對(duì)影像窗口子區(qū)尺度和樣本容量進(jìn)行了探討。
結(jié)合高空間分辨率遙感數(shù)據(jù)特點(diǎn),本文提出的基于影像窗口子區(qū)的耕地類型自動(dòng)識(shí)別算法分為3個(gè)步驟:首先,通過(guò)獲取一定數(shù)量典型地類的純凈窗口子區(qū)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集;然后,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行多光譜、多層次特征提取,建立不同地類的特征庫(kù);最后,采用機(jī)器學(xué)習(xí)分類算法實(shí)現(xiàn)各地類的自動(dòng)識(shí)別。
高空間分辨率遙感影像數(shù)據(jù)中,典型地物類型會(huì)在一定的窗口尺度內(nèi)保持良好的均一性,這樣尺度的窗口稱為純凈窗口子區(qū),該尺度可作為該類型的空間展布尺度[14],可用一定數(shù)量影像窗口子區(qū)中純凈窗口子區(qū)所占比例表示該尺度下地物的純凈度。依照耕地類型的空間展布尺度,通過(guò)隨機(jī)對(duì)遙感影像的規(guī)則切分,獲取一定數(shù)量的影像窗口子區(qū),構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,作為樣本集。
構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)集包括3個(gè)方面的屬性:典型地物類型、樣本容量和各類型所占比例。典型地物類型由研究區(qū)典型地物構(gòu)成決定;樣本容量大小影響分類算法的效率和精度[15];各類型所占比例反映地類的結(jié)構(gòu),按照土地利用/土地覆蓋各類型面積比確定[16]。
構(gòu)建了實(shí)驗(yàn)數(shù)據(jù)集之后,將對(duì)其影像窗口子區(qū)進(jìn)行多光譜、多層次特征提取以建立特征庫(kù),作為對(duì)影像進(jìn)行識(shí)別分類的依據(jù)。
俗話說(shuō),造林成敗在于管理。隨著當(dāng)前樹(shù)種的多樣化,相應(yīng)的管理理念和方法需要逐步更新。目前,有必要對(duì)不同種類的樹(shù)木實(shí)施不同的管理方法,例如那些在林地或大型牲畜周圍有更多住所的樹(shù)木。許多職業(yè)經(jīng)理人需要被安排來(lái)照顧和維護(hù)林地。然而,對(duì)這一部分的影響較小,可以減少一些人力資源。在林地的后期管理中,應(yīng)重視病蟲(chóng)害的防治。殺蟲(chóng)劑噴灑可以用來(lái)減少害蟲(chóng)對(duì)樹(shù)木的影響。
多光譜特征是針對(duì)遙感影像多波段數(shù)據(jù)特點(diǎn),按照波段數(shù)將遙感影像拆分為多個(gè)灰度圖像,將多波段多圖像的光譜特征作為特征庫(kù)建立的基礎(chǔ)。
多層次特征是由對(duì)影像的初級(jí)特征到高級(jí)特征的抽象所得[17-18],包括尺度不變特征變換(scale-invariant feature transform,SIFT)、稀疏編碼和最大化池化。SIFT是對(duì)影像特征的初級(jí)提取,反映了影像的關(guān)鍵點(diǎn)和局部特征[19]。在其基礎(chǔ)上,進(jìn)行稀疏編碼表示,獲得更高層次的特征[20]。其求解過(guò)程包括訓(xùn)練階段和編碼階段:訓(xùn)練階段是對(duì)訓(xùn)練數(shù)據(jù)圖像的SIFT特征進(jìn)行稀疏編碼,同時(shí)求解稀疏編碼約束函數(shù)中的稀疏編碼表示和字典;編碼階段是利用學(xué)習(xí)得到的最優(yōu)字典,對(duì)測(cè)試數(shù)據(jù)圖像的SIFT特征進(jìn)行稀疏編碼,求解其稀疏編碼表示。得到稀疏編碼表示后,通常需要對(duì)其進(jìn)行最大化池化,將向量中各維相應(yīng)的最大分量組成一個(gè)特征向量來(lái)表示該影像,獲得多層次特征。
針對(duì)不同地類的特征,利用支持向量機(jī)(support vector machine, SVM)算法對(duì)不同地類進(jìn)行訓(xùn)練,構(gòu)建類別判別函數(shù)[21]。首先,對(duì)待分類影像進(jìn)行與特征庫(kù)相同的特征提取,再利用判別函數(shù)進(jìn)行地類識(shí)別;然后將影像識(shí)別結(jié)果進(jìn)行融合,統(tǒng)計(jì)同一個(gè)影像窗口子區(qū)的所有灰度圖像類別,將其眾數(shù)作為該窗口子區(qū)的地物類型,實(shí)現(xiàn)耕地類型與非耕地類型的自動(dòng)識(shí)別。基于影像窗口子區(qū)的耕地類型自動(dòng)識(shí)別算法的具體流程如圖1所示。
圖1 耕地自動(dòng)化識(shí)別流程
實(shí)驗(yàn)數(shù)據(jù)源選擇0.4 m空間分辨率的Pleiades衛(wèi)星遙感數(shù)據(jù),共4個(gè)波段,分別為藍(lán)光波段B1、綠光波段B2、紅光波段B3和近紅外波段B4。
研究區(qū)位于我國(guó)東北地區(qū)的望奎縣、大慶市、梅河口市和嫩江縣4個(gè)典型區(qū),分別位于東北地區(qū)的不同方位,典型地物類型主要包括耕地、林地、居民地和水體等,基本反映了東北地區(qū)的主要地物類型。研究區(qū)位置分布及遙感影像如圖2和圖3所示。其中嫩江縣有3個(gè)時(shí)相數(shù)據(jù)。
圖2 地物類型及研究區(qū)位置
(a) 望奎縣影像 (b) 大慶市影像 (c) 梅河口市影像
(d) 嫩江縣影像1 (e) 嫩江縣影像2 (f) 嫩江縣影像3
如圖2和圖3所示,在研究區(qū)內(nèi),包含了成片的耕地和非耕地區(qū)域,其中非耕地類型主要是林地和居民地。因此本文提出的算法主要以識(shí)別耕地、林地和居民地為主要目標(biāo)。
由土地利用/土地覆蓋數(shù)據(jù),得到研究區(qū)內(nèi)耕地、林地和居民地類型所占面積比例分別約為65%,35%和5%,以此作為樣本選取的依據(jù)。
為獲取純凈窗口子區(qū)大小,通過(guò)統(tǒng)計(jì)窗口子區(qū)尺度與純凈度的關(guān)系曲線,獲得不同尺度下地物的純凈度。本文隨機(jī)選擇256像元×256像元,384像元×384像元,512像元×512像元,640像元×640像元和768像元×768像元的影像窗口子區(qū)各150景,目視判別其是否為純凈窗口子區(qū),并分別計(jì)算純凈度,統(tǒng)計(jì)結(jié)果曲線如圖4所示,圖中紅色點(diǎn)為實(shí)驗(yàn)最終選取的純凈窗口子區(qū)尺度,藍(lán)色點(diǎn)為未選取的其他純凈窗口子區(qū)尺度。
圖4 不同尺度純凈度統(tǒng)計(jì)
從圖4可以看出,隨著影像窗口子區(qū)尺度不斷增大,地物純凈度不斷降低。在保證影像窗口子區(qū)純凈度的前提下,考慮算法模型的效率問(wèn)題,則影像窗口子區(qū)大小選取512像元×512像元,純凈度為85.3%,對(duì)應(yīng)實(shí)際地面尺寸為200 m×200 m,基本符合東北地區(qū)耕地類型的空間展布尺度。依據(jù)該影像窗口子區(qū)尺度,通過(guò)對(duì)高空間分辨率影像的隨機(jī)切分,構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,各地物類型影像窗口子區(qū)如表1所示。
表1 各地物類型影像窗口子區(qū)
為了獲取訓(xùn)練/驗(yàn)證數(shù)據(jù)集樣本容量大小,本文從實(shí)驗(yàn)數(shù)據(jù)集中選取容量大小分別為572,385,291,197,143和100的樣本,測(cè)試數(shù)據(jù)集樣本總?cè)萘勘3?83不變。各類型樣本數(shù)依據(jù)土地利用/土地覆蓋面積百分比選取,訓(xùn)練/驗(yàn)證數(shù)據(jù)集樣本容量統(tǒng)計(jì)如表2所示。以不同訓(xùn)練/驗(yàn)證數(shù)據(jù)集樣本容量,按照本文提出的自動(dòng)識(shí)別算法進(jìn)行對(duì)比實(shí)驗(yàn),獲得各方案分類精度,統(tǒng)計(jì)結(jié)果如圖5所示。
表2 各類型樣本容量
圖5 樣本容量與分類精度關(guān)系
本文主要研究對(duì)象為耕地類型,因此將林地和居民地進(jìn)行合并,作為非耕地類型。從圖5中可以看出,隨著訓(xùn)練/驗(yàn)證數(shù)據(jù)集樣本容量的增加,居民地分類精度大幅上升,林地和非耕地分類精度有一定幅度的提高,耕地分類精度也有上升趨勢(shì)。為保障各類型識(shí)別精度要求,訓(xùn)練/驗(yàn)證數(shù)據(jù)集樣本容量選擇為572,耕地分類精度為97.0%,林地分類精度為81.6%,居民地分類精度為63.6%,非耕地分類精度為79.5%,總體精度為90.8%。
在確定了影像窗口子區(qū)尺度和樣本容量后,選擇了2套不同特征庫(kù)的構(gòu)建方案進(jìn)行對(duì)比實(shí)驗(yàn),分別對(duì)多光譜數(shù)據(jù)的多波段多圖像以及合成單圖像進(jìn)行特征提取構(gòu)建特征庫(kù),并對(duì)構(gòu)建的特征庫(kù)進(jìn)行了多次精度驗(yàn)證。各方案模型在驗(yàn)證階段的分類精度均值和方差如表3所示。
表3 各方案模型分類精度均值和方差
從表3可以看出,選擇多波段多圖像的自動(dòng)識(shí)別方法精度較高,在驗(yàn)證階段達(dá)到84.0%,遠(yuǎn)高于合成單圖像的自動(dòng)識(shí)別方法。
利用訓(xùn)練所得模型,對(duì)測(cè)試數(shù)據(jù)集進(jìn)行識(shí)別分類,并將類型識(shí)別結(jié)果與已知標(biāo)簽對(duì)比獲取其分類精度。各方案模型在測(cè)試階段的不同地物類型識(shí)別精度如表4所示。
表4 各方案模型識(shí)別精度
從表3可見(jiàn),多波段多圖像的自動(dòng)識(shí)別方法總體精度較高,在測(cè)試階段達(dá)到了90.8%,具有較為理想的自動(dòng)識(shí)別效果。利用該方法,以構(gòu)建某一區(qū)域特征庫(kù)為基礎(chǔ),實(shí)現(xiàn)對(duì)耕地類型的非監(jiān)督分類,大大增強(qiáng)了分類方法的自動(dòng)化程度。
本文提出了一種遙感影像自動(dòng)識(shí)別耕地類型的機(jī)器學(xué)習(xí)算法,基于對(duì)影像的規(guī)則切分獲取一定大小的影像窗口子區(qū),通過(guò)提取其多光譜和多層次特征,利用機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)耕地和非耕地類型的自動(dòng)判別。通過(guò)研究,得到了以下結(jié)論:
1)與傳統(tǒng)基于像元和面向?qū)ο蠓治龇椒ㄏ啾?,本文算法僅以規(guī)則切分后的影像純凈窗口子區(qū)作為研究對(duì)象進(jìn)行識(shí)別,無(wú)需對(duì)單一像元進(jìn)行分析處理,也避免了對(duì)高空間分辨率影像進(jìn)行復(fù)雜的分割操作。研究表明,窗口子區(qū)尺度和樣本容量的選擇是決定分類精度與效率的主要參量,即窗口子區(qū)尺度選擇的純凈度和樣本容量選擇的代表性是分類精度的關(guān)鍵,為了兼顧工作效率,應(yīng)選擇滿足純凈度要求的最大窗口子區(qū)尺度和滿足分類精度要求的最小樣本容量。本文中研究區(qū)典型地物純凈窗口子區(qū)的尺度選擇為200 m×200 m,純凈度可達(dá)85.3%,是較為合理的影像窗口子區(qū)可識(shí)別尺度;隨機(jī)獲取該尺度下的影像窗口子區(qū),訓(xùn)練/驗(yàn)證數(shù)據(jù)集樣本容量選擇572,測(cè)試數(shù)據(jù)集樣本容量為883,是兼顧精度與效率的較好選擇。
2)通過(guò)對(duì)圖像提取多光譜和多層次特征信息,構(gòu)建特征庫(kù),利用機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)了對(duì)高空間分辨率遙感影像任意窗口子區(qū)耕地類型的自動(dòng)識(shí)別,精度達(dá)到了90.8%。通過(guò)不同特征庫(kù)條件下的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),訓(xùn)練過(guò)程中所采用的策略會(huì)對(duì)分類精度產(chǎn)生影響,在只利用合成單圖像進(jìn)行多層次特征提取與識(shí)別分類時(shí),精度下降到了87.1%??梢?jiàn)基于多光譜和多層次特征的地類識(shí)別機(jī)器學(xué)習(xí)算法可充分利用多光譜數(shù)據(jù)特征,提高分類模型的性能。
3)通過(guò)特征庫(kù)的構(gòu)建,使遙感影像分類過(guò)程中主要關(guān)注純凈窗口子區(qū)的規(guī)則切分以獲取樣本對(duì)象,同時(shí)本文算法所選取的訓(xùn)練樣本并不局限于同一景影像中,因此適用于某一區(qū)域內(nèi)大量遙感數(shù)據(jù)的自動(dòng)化分類處理。在得到影像塊數(shù)據(jù)集后進(jìn)行特征提取,即可利用特征庫(kù)進(jìn)行地物類別自動(dòng)識(shí)別,簡(jiǎn)化了分類階段的訓(xùn)練過(guò)程,實(shí)現(xiàn)非監(jiān)督的耕地識(shí)別,提高了分類算法的自動(dòng)化程度,同時(shí)也可以用于從遙感影像中某一種純凈地物類型的快速提取。
本文研究也發(fā)現(xiàn)了一些不足之處,如識(shí)別的精度受到訓(xùn)練樣本代表性及純凈度的限制。若訓(xùn)練樣本中耕地和非耕地的混合樣本數(shù)超過(guò)15%,不滿足窗口子區(qū)純凈度要求時(shí),會(huì)導(dǎo)致獲取特征的不穩(wěn)定,從而對(duì)分類精度有一定影響。因此,在訓(xùn)練階段需要采用一定訓(xùn)練樣本的選取策略才能保證分類結(jié)果的精度。今后的研究工作將著重探討純凈窗口子區(qū)的自動(dòng)獲取與快速高效的自動(dòng)分類研究。