文金花 李靖霞
摘 要 隨著遙感影像數(shù)據(jù)的廣泛應用,遙感影像數(shù)據(jù)更新頻率越來越快,如何快速發(fā)現(xiàn)影像中地物變化成為一項重要的工作。由于數(shù)據(jù)量大,人工判讀方法不能滿足工作需要。文章陳述了變化檢測的總體流程、SLIC超像素分割算法和隨機森林分類方法,通過遙感影像變化動態(tài)檢測工具開發(fā),輸入兩期遙感影像可自動識別并標注變化區(qū)域,同時輸出變化區(qū)域地類的變化過程,實現(xiàn)重點區(qū)域的重點監(jiān)控,準確快速發(fā)現(xiàn)地類的變化,從而全面了解地表自然地物的變化過程。遙感影像分割尺度和質量及選擇的分類算法,對地類識別起決定性作用。
關鍵詞 遙感影像;超像素分割;隨機;森林分類;動態(tài)檢測
中圖分類號:S771.8 ? ? ? 文獻標識碼:A ? doi:10.13601/j.issn.1005-5215.2021.02.026
遙感動態(tài)監(jiān)測是從同一地區(qū)在不同時間或不同條件的遙感圖像中,識別和量化地表變化的類型、空間分布情況和變化量[1]。地表變化分為2種:轉化是土地從一種土地覆蓋類型向另一種類型轉化,也稱為“絕對變化”;改變是土地覆蓋類型的內(nèi)部條件(結構和功能)發(fā)生變化,也稱“相對變化”。
本文通過遙感影像變化動態(tài)檢測工具開發(fā),實現(xiàn)了重點區(qū)域的重點監(jiān)控,準確快速發(fā)現(xiàn)地類的變化,從而全面了解地表自然地物的變化過程。
1 遙感動態(tài)監(jiān)測過程
遙感動態(tài)監(jiān)測過程分為數(shù)據(jù)預處理、變化信息檢測和變化信息提取三步。數(shù)據(jù)預處理就是排除圖像因以下因素產(chǎn)生的差異信息:傳感器類型的差異、采集日期和時間的差異、圖像像元單位的差異、像素分辨率的差異、大氣條件的差異和圖像配準的精度。變化信息檢測首先使用基于超像素分割的隨機森林分類法來對兩期影像進行分類,再對分類結果進行比較[2]。變化信息提取通過比較結果進行統(tǒng)計分析。
為了獲取多時相遙感影像的變化分布和變化過程,采取基于超像素的分類方法,主要步驟如下:
(1)對2個不同時相的衛(wèi)星數(shù)據(jù)做SLIC超像素分割,獲得超像素分割結果;
(2)對生成的超像素提取特征,提取的特征分為兩大類,分別為光譜特征和紋理特征;
(3)根據(jù)歷史標記數(shù)據(jù)訓練得到隨機森林分類模型;
(4)根據(jù)超像素的特征對超像素進行隨機森林分類,分別獲得2個時相的分類結果;
(5)將2個時相的分類結果進行疊加,獲得最終的變化檢測結果。
本方案的優(yōu)點在于:(1)使用的SLIC超像素分割算法效率高;(2)與基于像素的分類方法相比,基于超像素的分類可以大大減少分類時間;(3)與基于對象的分類方法相比,不需要大量的試驗分割參數(shù),基本沒有欠分割現(xiàn)象,減少了因為欠分割導致的誤分類;(4)基于分類的變化檢測可以準確地檢測出不同時相地類的變化過程,有利于后續(xù)的利用。技術路線如圖1所示。
2 SLIC超像素分割
SLIC算法實質上是根據(jù)相似度將像素聚合為一個個超像素,這是一個聚類的過程,也正是SLIC算法的核心。SLIC算法對像素的聚類過程和K-Means算法很相像。K-Means是一種常用的聚類算法,算法以樣本到聚類中心的距離來判定對象間的相似性[3]。K-Means算法的主要流程有:
(1)初始化K個聚類中心;
(2)計算樣本到每個聚類中心的距離,并根據(jù)距離的大小將樣本歸類到最近的聚類之中;
(3)通過重新計算特征值更新聚類中心;
(4)迭代(2)(3),當滿足給定條件時算法結束。
SLIC算法的聚類過程與K-Means算法的不同點在于,SLIC算法采用的是局部性的K-Means算法,在有限的區(qū)域內(nèi)進行對象搜索和聚類。
如圖2所示,標準的K-Means算法會搜索圖像中的所有像素,并計算每個像素到每個聚類中心的距離,這大大增加了算法的計算量。由于像素灰度具有局部相似性,在一個限定范圍內(nèi)的像素更可能屬于同一個超像素集群;而空間距離很遠的像素屬于同一個集群的可能性很低?;谶@一點,SLIC修改了聚類的搜索范圍,如圖3所示,搜索范圍從整幅圖像限定到了超像素本身大小S的2倍區(qū)域 (2S) 內(nèi),這一改變在不降低分割準確性的基礎上大大提高了算法的運行速度和效率。
SLIC算法的運算流程主要分為以下8個步驟:
(1)初始化超像素個數(shù)k和緊致度m,這兩個參數(shù)由人為手動輸入。m的大小將影響顏色差異和空間差異在像素相似性計算上的權重,算法作者指出m取10時可以取得不錯的分割效果,在實驗時一般都默認設定為10。
(2)獲取圖像和像素信息。
(3)將圖像轉換到Lab顏色空間,保存每個像素的空間信息和顏色信息。
(4)根據(jù)輸入的超像素個數(shù)計算超像素大小和種子點的間距,并初始化種子點,初始時種子點為均勻分布。此時有些種子點可能會處于圖像的邊緣,為了避免其對后續(xù)處理的干擾需要將種子點向以它為中心的3×3范圍內(nèi)梯度最小的位置移動。將移動后的種子點作為聚類的中心。
(5)使用局部K均值算法進行聚類,以生成超像素。在進行局部K均值聚類時需要計算局部區(qū)域像素到聚類中心的距離。
(6)對聚類中像素的每一維特征的計算均值,將其作為該聚類中心點的特征值,并更新聚類的中心點。
(7)迭代上述(5)(6)的過程。算法作者指出迭代 10次可以得到比較好的效果,因此迭代次數(shù)默認設為10。
(8)對圖像進行后續(xù)處理,包括將獨立像素點劃分到最鄰近的超像素等。
3 隨機森林分類
隨機森林算法是一種基于集成學習思想的機器學習算法,傳統(tǒng)的機器學習分類算法大多是單分類器模型,如支持向量機算法,隨著數(shù)據(jù)量的急速增長和多樣化,這種傳統(tǒng)的單分類器算法就面臨著性能瓶頸的問題[4]。因此通過組合或者聚集多個分類器來提高分類的準確率,這種方法即為機器學習中的集成學習方法。
決策樹是一種業(yè)界和學界廣泛使用的機器學習算法。決策樹比較適合對離散型的數(shù)據(jù)進行分類,算法思想簡單、方便使用并且運行高效,但是決策樹在處理不完整數(shù)據(jù)時容易出現(xiàn)過度分割或者過度擬合的問題,導致最終的分類結果不佳[5]。因此,單單使用決策樹算法來解決分類問題具有很大的局限性。
對決策樹進行組合需要使用集成學習的方法。最初集成學習的提出就是為了解決決策系統(tǒng)準確率低下的問題,如今集成學習已經(jīng)能夠解決機器學習的大多數(shù)問題[6]。圖4展示了集成學習的基本模型,首先是從樣本集中選取采樣集提供給多個弱個體學習器進行訓練;每個弱個體學習器產(chǎn)生不同的學習結果;最后對多個學習結果進行組合,從而構成一個強學習器。
隨機森林選用決策樹作為基礎的個體學習器,通過集成方式來構建強學習器。圖5展示了隨機森林算法的分類模型。
D是樣本集,經(jīng)過隨機化選擇生成n個訓練樣本集D1-Dn,每個訓練樣本集經(jīng)過一棵決策樹的學習和訓練分別得到一個分類器;進行分類時,每棵決策樹將得到一個分類結果;經(jīng)過投票得到最優(yōu)的分類結果。
在進行隨機化選擇時,隨機森林采取有放回的方式來選取樣本。令原始樣本集D中樣本的個數(shù)為N,那么在構造每個訓練集(子樹)時,隨機森林將對原始樣本集進行N次有放回的隨機選取,最終每個訓練集中樣本的個數(shù)也為N,這種隨機采樣的方式也叫作bootstrap sample。因為是有放回的隨機選取,所以必然存在有的訓練集不包含所有樣本,有的訓練集包含多個同一樣本的情況。之所以這樣做是因為隨機森林算法希望每個子樹都與其他子樹存在差別,那么各個子樹將產(chǎn)生不同的分類結果,綜合這些分類結果得到的最終結果也就更加具有可靠性,使得算法具有更強的預測能力。
每個決策樹都會產(chǎn)生一個分類結果,對分類結果的綜合處理直接關系到最終結果的準確性。隨機森林采用了“投票”的方式,以簡單的多數(shù)投票法決定最終的結果。即每個決策樹對最終結果都具有一票的投票權,如果某一個分類結果的得票數(shù)最多,那么這一結果即成為算法的最終分類結果,
用于訓練和分類的特征是多維的,包含多個分量,隨機森林算法在進行訓練的過程中可以對特征分量的重要性進行計算和評價,由此可以判斷出哪一個特征分量對分類更加重要以及分類結果對哪一個特征分量更敏感。特征的計算一般來說是一個非常費時的過程,去掉重要性低的特征分量對提高算法的效率非常重要,因此隨機森林算法的這一特性對于特征的選擇也提供了很大的幫助[7]。
隨機森林算法可概括為劃分訓練樣本、訓練決策樹和分類3個過程,具體流程如下:
(1)對于每棵決策樹,使用bootstrap方法從原始樣本集中進行N次有放回的采樣,選取N個樣本作為訓練集,其中N為原始樣本集的大?。颖镜膫€數(shù));
(2)重復步驟(1),構建出m個訓練集,m由人為指定,每一個訓練集用于生成一棵決策樹;
(3)對于每一個訓練集,從全部n個特征分量中隨機選取一部分(一般為log2n)作為一個特征子集,再從這個特征子集中選擇一個最優(yōu)的特征分量作為決策樹節(jié)點分裂的依據(jù);
(4)判斷是否達到構建決策樹的終止條件,否則
重復步驟(3),則可完成一棵決策樹的生成;
(5)重復步驟(3)(4),生成m棵決策樹;
(6)每棵決策樹對待分類樣本進行分類,得到分類結果集合;
(7)統(tǒng)計所有的分類結果,采用多數(shù)投票的方法得到一個票數(shù)最多的分類結果,作為最終的分類結果。
從上述流程可以看出,每棵決策樹的構建是可以并行進行的,對原始樣本集的隨機選取以及每棵決策樹的分類決策也是可以并行進行的,因此可以使用并行處理的方式和技術(如CPU多線程和GPU并行計算)來對隨機森林算法的大部分流程進行加速,使得算法的效率和可擴展性都得到極大的提高。目前已有部分學者對這一方向進行研究,如使用GPU并行技術——CUDA 對隨機森林算法的訓練和分類進行加速。由于隨機森林算法在分類上的優(yōu)異表現(xiàn),其已應用于多個領域,在遙感影像的分類上也取得了很好的成果。
4 小結
遙感影像變化動態(tài)檢測是一項計算量比較大的工作,對采用的技術路線要求較高。本文在研究黃河流域地表覆蓋變化研究過程中,利用SLI超像素分割和隨機森林分類的方法建立了動態(tài)檢測系統(tǒng),能夠很好地檢測出地表變化,達到了預期目的。
參考文獻:
[1] 凌成星, 張懷清, 鞠洪波. 濕地資源遙感動態(tài)監(jiān)測和管理應用綜述 [J].安徽農(nóng)業(yè)科學, 2012, 40(28): 14111-14115
[2] 周維才, 陳永富. 濕地資源遙感變化監(jiān)測方法[J]. 世界林業(yè)研究, 2007, 20(2): 45-49
[3] 栗小東, 過仲陽, 朱燕玲, 等. 結合GIS數(shù)據(jù)的神經(jīng)網(wǎng)絡濕地遙感分類方法:以上海崇明島東灘濕地為例[J]. 華東師范大學學報:自然科學版, 2010(4): 26-34
[4] 于新洋, 趙庚星, 常春艷, 等. 隨機森林遙感信息提取研究進展及應用展望[J].遙感信息, 2019, 34(2): 8-14
[5] 巴桑, 劉志紅, 張正健, 等. 決策樹在遙感影像分類中的應用[J]. 高原山地氣象研究, 2011, 31(2): 31- 34
[6] 鄒文濤, 張懷清, 鞠洪波, 等. 基于決策樹的高寒濕地類型遙感分類方法研究[J]. 林業(yè)科學研究, 2011 (4): 464-469
[7] 穆亞南, 丁麗霞, 李楠, 等. 基于面向對象和隨機森林模型的杭州灣濱海濕地植被信息提取[J]. 浙江農(nóng)林大學學報, 2018, 35(6): 1088-1097