徐春,劉迪,沈琪
(中國能源建設(shè)集團(tuán)云南省電力設(shè)計(jì)院勘測工程公司,云南 昆明 650051)
云南是典型的山地環(huán)境,全省斜坡高陡、河谷深切、地形起伏、高差懸殊,特殊的地理環(huán)境使得滑坡等地質(zhì)災(zāi)害頻發(fā)。電力工程的穩(wěn)定發(fā)展有利于國家和社會(huì)的穩(wěn)定運(yùn)行,但電力工程大多暴露在自然條件下,受環(huán)境因素影響較大,面臨越來越多的內(nèi)外部高危或突發(fā)事件,直接影響著電力工程的安全運(yùn)行。因此,加強(qiáng)滑坡監(jiān)測預(yù)警和防控體系的研究,對于降低和防止滑坡對電力工程的災(zāi)變影響,保證其安全、穩(wěn)定運(yùn)行具有重要的意義。
目前,利用遙感影像對滑坡的活動(dòng)性、發(fā)生發(fā)展過程監(jiān)測是減輕其災(zāi)害的重要手段之一。由于無人機(jī)遙感技術(shù)在獲取滑坡災(zāi)害遙感數(shù)據(jù)過程中快速、靈活、成本低及獲取的遙感影像時(shí)空分辨率高于衛(wèi)星遙感數(shù)據(jù)等優(yōu)勢,無人機(jī)遙感技術(shù)在滑坡監(jiān)測、災(zāi)害損失評估等研究中已廣泛使用[1]。近些年來,基于無人機(jī)航測生產(chǎn)的高精度無人機(jī)影像成果主要用于項(xiàng)目勘察設(shè)計(jì),未開發(fā)其他應(yīng)用方式,造成了一定程度上的數(shù)據(jù)浪費(fèi)。因此,在項(xiàng)目前期或項(xiàng)目投入運(yùn)行后利用無人機(jī)影像對滑坡災(zāi)害隱患點(diǎn)進(jìn)行調(diào)查,可有效降低滑坡災(zāi)害對項(xiàng)目工程的不利影響和提高治理效率。同時(shí),利用無人機(jī)影像成果進(jìn)行滑坡識(shí)別研究,有利于豐富無人機(jī)數(shù)據(jù)的成果應(yīng)用方式和提升數(shù)據(jù)價(jià)值。
目前,滑坡識(shí)別的主要途徑主要有兩種:遙感影像的目視解譯和自動(dòng)識(shí)別。目視解譯的優(yōu)點(diǎn)是利用遙感影像紋理特征,結(jié)合滑坡發(fā)育特征,通過分析得到精度較高的滑坡解譯結(jié)果,其缺點(diǎn)是主觀性大、效率低、易造成遺漏[2]。自動(dòng)識(shí)別的主要思想是采用面向?qū)ο蟮淖R(shí)別方法,首先對滑坡影像進(jìn)行分割,然后利用滑坡影像特征,采用相關(guān)算法對滑坡進(jìn)行自動(dòng)識(shí)別,其中,影像分割結(jié)果對識(shí)別結(jié)果影像極大,需要人為干預(yù)[3]。目前,機(jī)器學(xué)習(xí)方法已被廣泛用于滑坡自動(dòng)識(shí)別,相關(guān)機(jī)器學(xué)習(xí)模型將訓(xùn)練樣本分為發(fā)生和未發(fā)生滑坡兩類,將樣本滑坡發(fā)育相關(guān)因素作為評價(jià)因子輸入相關(guān)機(jī)器學(xué)習(xí)模型中,通過機(jī)器學(xué)習(xí)模型訓(xùn)練得到滑坡預(yù)測模型用于滑坡自動(dòng)識(shí)別[4]。
本文采用云南省內(nèi)近期14 景滑坡隱患調(diào)查無人機(jī)影像成圖結(jié)果(如圖1)作為影像數(shù)據(jù)源,成圖分辨率均為0.05 m,影像經(jīng)相關(guān)預(yù)處理,成圖質(zhì)量均較好。在模型訓(xùn)練前,先分別基于14 景無人機(jī)影像進(jìn)行滑坡目視解譯,提取滑坡像元和約為滑坡像元4~5 倍的其他地物像元作為訓(xùn)練樣本。其次,結(jié)合樣本分類結(jié)果,制作機(jī)器學(xué)習(xí)樣本訓(xùn)練集,方便其他軟件對訓(xùn)練樣本進(jìn)行讀取和處理。以上步驟可利用ArcGIS Pro 的影像分割與分類工具,快速進(jìn)行滑坡與非滑坡樣本提取,并完成樣本訓(xùn)練集的切片制作與導(dǎo)出。
圖1 無人機(jī)影像圖
對于無人機(jī)影像,本文提取RGB 三色均值濾波值和灰度均值作為影像特征評價(jià)因子。經(jīng)統(tǒng)計(jì),14 景影像像元數(shù)目共計(jì)超150 億個(gè),經(jīng)目視解譯確定的滑坡與非滑坡樣本的像元數(shù)目共計(jì)56360749 個(gè),其中滑坡像元數(shù)目為16514217 個(gè)。進(jìn)一步分析滑坡像元的RGB 三原色和灰度值的分布情況,如圖2 所示,滑坡發(fā)生處的影像特征均有一定分布規(guī)律。
圖2 滑坡影像RGB與灰度值分布情況(1)R (2)G (3)B (4)灰度值
基于機(jī)器學(xué)習(xí)的無人機(jī)影像滑坡識(shí)別方法,除相關(guān)無人機(jī)影像特征值外,還需其他與滑坡發(fā)育相關(guān)的地理數(shù)據(jù)作為評價(jià)因子用于輔助識(shí)別,一般選用DEM、坡度、坡向、距道路距離和距河流距離等與滑坡發(fā)生有關(guān)的要素作為評價(jià)因子。本文選用12.5 m 的DEM 數(shù)據(jù),將DEM 數(shù)據(jù)以100 m 為間隔劃分為多個(gè)層級;基于12.5 m 的DEM 數(shù)據(jù)進(jìn)行坡度和坡向分析,將坡度分為<5°、5~10°、10~15°、15~20°、20~25°、25~30°、30~35°、>35°等8 個(gè)層級,將坡向分為平面和北、東北、東、東南、南、西南、西、西北等8 個(gè)方位;基于OpenStreet 公開的2022 年云南省道路、鐵路、河流和湖泊數(shù)據(jù),首先對道路和鐵路分別進(jìn)行100 m、200 m、300 m、400 m、500 m 的緩沖區(qū),合并道路和鐵路圖層得到云南省道路緩沖區(qū)距離圖,再對河流和湖泊分別進(jìn)行200 m、400 m、600 m、800 m 和1000 m 的緩沖區(qū),合并河流和湖泊圖層得到云南省河流緩沖區(qū)距離圖[5]。相關(guān)評價(jià)因子分布情況如圖3 所示。
圖3 評價(jià)因子 (1)DEM (2)坡度 (3)坡向 (4)距道路距離 (5)距河流距離
本研究學(xué)習(xí)樣本分辨率為0.05 m,樣本數(shù)量較多,為保證無人機(jī)影像滑坡自動(dòng)識(shí)別的效率,模型訓(xùn)練時(shí)間不宜過長,故選用機(jī)器學(xué)習(xí)中訓(xùn)練時(shí)間較短的以下幾種基礎(chǔ)機(jī)器學(xué)習(xí)模型,用于模型訓(xùn)練。
2.1.1 KNN
K 近鄰(K-Nearest Neighbor,簡稱KNN)學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法,其工作機(jī)制非常簡單:給定測試樣本,基于某種距離量度找出訓(xùn)練集中與其最靠近的K 個(gè)訓(xùn)練樣本,然后基于這K 個(gè)“鄰居”的信息進(jìn)行預(yù)測[6]。KNN 是“懶惰學(xué)習(xí)”的著名代表,此類學(xué)習(xí)技術(shù)在訓(xùn)練階段僅僅把樣本保存起來,訓(xùn)練時(shí)間開銷為零,待收到測試樣本后再進(jìn)行處理。K是KNN 學(xué)習(xí)的重要參數(shù),當(dāng)K 取不同值時(shí),分類結(jié)果會(huì)有顯著不同。同時(shí),若采用不同的距離計(jì)算方式,則找出的“近鄰”可能有顯著差別,從而也會(huì)導(dǎo)致分類結(jié)果有顯著不同[7]。本文采用Matlab 分類學(xué)習(xí)器工具箱中精細(xì)KNN和中等KNN 兩種模型,兩種方法分別有1 個(gè)和10 個(gè)鄰點(diǎn),均采用等距離權(quán)重。
2.1.2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對真實(shí)世界物體所作出的交互反應(yīng)。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)是機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)這兩個(gè)學(xué)科的交叉部分。神經(jīng)網(wǎng)絡(luò)中最基本的成分是神經(jīng)元模型,以M-P 神經(jīng)元模型為例,神經(jīng)元接收來自n 個(gè)其他神經(jīng)元傳遞過來的信息,將神經(jīng)元接收的總輸入值與閾值進(jìn)行比較,并通過“激活函數(shù)”處理并產(chǎn)生神經(jīng)元的輸出[8],其中,最常見的激活函數(shù)是線性整流函數(shù)(Rectified Linear Unit,簡稱ReLU)[9]。將多個(gè)這樣的神經(jīng)元按一定的層次結(jié)果連接起來,就得到了神經(jīng)網(wǎng)絡(luò)。感知機(jī)有兩層神經(jīng)元組成,只有輸出層神經(jīng)元進(jìn)行激活函數(shù)處理,即只擁有一層功能神經(jīng)元,其學(xué)習(xí)能力十分有限,不能解決簡單的非線性可分問題。要解決非線性可分問題,需考慮使用多層功能神經(jīng)元。最常見的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被稱為“多層前饋神經(jīng)網(wǎng)絡(luò)”,該種層級結(jié)構(gòu)每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層鏈接,也不存在跨層連接。最常見的神經(jīng)網(wǎng)絡(luò)算法是誤差逆?zhèn)鞑ィ╡rrorBackPropagation,簡稱BP)算法,“BP網(wǎng)絡(luò)”一般是指用BP 算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)[10]。本文采用Matlab 分類學(xué)習(xí)器工具箱中窄神經(jīng)網(wǎng)絡(luò)和中型神經(jīng)網(wǎng)絡(luò)兩種模型,兩種方法均為一層功能神經(jīng)元,激活函數(shù)采用ReLU,分別有10 個(gè)和20 個(gè)鄰點(diǎn)。
2.1.3 決策樹
決策樹(decision Tree)是一類常見的機(jī)器學(xué)習(xí)方法。一般來說,一棵決策樹包含一個(gè)根結(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn)[11]。決策樹學(xué)習(xí)的關(guān)鍵是如何選擇最優(yōu)劃分屬性,一般可采用“基尼指數(shù)”來選擇劃分屬性,選擇那個(gè)使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性。本文采用Matlab 分類學(xué)習(xí)器工具箱中的精細(xì)樹和中等樹兩種模型,其最大分裂數(shù)分別為100 和20,分裂準(zhǔn)則均選擇基尼指數(shù)。
2.1.4 邏輯回歸
邏輯回歸(Logistic Regression,簡稱LR)模型是最早的離散選擇模型,該模型在線性回歸的基礎(chǔ)上,結(jié)合邏輯函數(shù)形成的一種多元統(tǒng)計(jì)方法,適用于研究二分類結(jié)果與其影響因子之間的關(guān)系,即因變量結(jié)果只有“是”或“否”兩種情況,分別用“1”和“0”表示,自變量可以包括很多個(gè),其值可以是分類的也可以是連續(xù)數(shù)值,不需要滿足正態(tài)的頻率分布[12]。本文采用Matlab 分類學(xué)習(xí)器工具箱中邏輯回歸模型進(jìn)行相關(guān)模型訓(xùn)練。
2.1.5 線性判別
線 性 判 別 分 析(Linear Discriminant Analysis,簡稱LDA)是一種經(jīng)典的線性學(xué)習(xí)方法[13]。線性判別的思想非常樸素:給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點(diǎn)盡可能接近,異類樣例的投影點(diǎn)盡可能遠(yuǎn)離;在對新樣本進(jìn)行分類時(shí),將其投影到同樣的直線上,再根據(jù)投影點(diǎn)的位置來確定新樣本的類別。這種方法試圖找到兩類物體或事件的特征的一個(gè)線性組合,以能夠特征化或區(qū)分它們。本文采用Matlab 分類學(xué)習(xí)器工具箱中線性判別模型進(jìn)行相關(guān)模型訓(xùn)練。
2.1.6 主成分分析
主成分分析(Principal Component Analysis,簡稱PCA),又稱主分量分析,旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)[14]。在統(tǒng)計(jì)學(xué)中,主成分分析PCA 是一種簡化數(shù)據(jù)集的技術(shù)。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。其往往能夠保留住數(shù)據(jù)的最重要方面,但這也不是一定的,要視具體應(yīng)用而定。本文在使用Matlab 分類學(xué)習(xí)器工具箱中各模型進(jìn)行訓(xùn)練時(shí),選擇是否勾選PCA 分析按鈕,對各模型分別進(jìn)行PCA 分析或不進(jìn)行PCA 分析,得到不同的模型訓(xùn)練結(jié)果,用于后續(xù)對比。
不同滑坡自動(dòng)提取方法都會(huì)對滑坡識(shí)別結(jié)果產(chǎn)生很大的影響,結(jié)合滑坡目視解譯結(jié)果,對機(jī)器學(xué)習(xí)方法的滑坡識(shí)別結(jié)果進(jìn)行精度評價(jià)。所采用的精度評價(jià)方法,將滑坡檢測結(jié)果分為三類:真正類(True Positive,TP)、假負(fù)類(False Negative,F(xiàn)N) 和假正類(False Positive,F(xiàn)P),其中,真正類表示被正確檢測到的滑坡(或滑坡像元)數(shù)量,假負(fù)類表示已知滑坡未被檢測的錯(cuò)漏滑坡(或滑坡像元)數(shù)量,假正類表示被檢測到的未知滑坡(或滑坡像元)的數(shù)量?;谶@三類滑坡檢測結(jié)果,計(jì)算命中率(TPR)、質(zhì)量分?jǐn)?shù)(TS)和檢測誤差(Commission Error,CE)用于不同模型滑坡識(shí)別結(jié)果的精度評價(jià)[15-16]。
其中,質(zhì)量分?jǐn)?shù)代表正確識(shí)別的滑坡數(shù)量在滑坡識(shí)別結(jié)果和歷史滑坡記錄的并集中的比例,代表滑坡識(shí)別的總體精度,只有正確識(shí)別的滑坡數(shù)量越多和檢測結(jié)果數(shù)量越接近歷史滑坡數(shù)據(jù)時(shí),質(zhì)量分?jǐn)?shù)越大。命中率代表歷史滑坡數(shù)據(jù)中被正確檢測到的滑坡數(shù)量,最優(yōu)值為1;而檢測誤差不同于混淆矩陣的誤報(bào)率,代表的是滑坡檢測結(jié)果中不包含于歷史滑坡數(shù)據(jù)記錄中的那一部分滑坡檢測結(jié)果,檢測誤差數(shù)據(jù)越小代表滑坡檢測結(jié)果與歷史滑坡數(shù)據(jù)越接近。另外,在面積精度評價(jià)中,最重要的是保證大部分滑坡像元被檢測到,因此我們重點(diǎn)關(guān)注滑坡的命中率。三個(gè)評價(jià)指標(biāo)計(jì)算方式如下:
本文首先利用ArcGIS pro 軟件分別對14 景無人機(jī)影像進(jìn)行滑坡目視解譯和非滑坡樣本采集,非滑坡像元采集類型涉及樹木、道路、房屋、水體、田地、裸地等地類,滑坡與非滑坡像元共同組成訓(xùn)練樣本集。其次,將前12 景無人機(jī)影像的樣本數(shù)據(jù)作為訓(xùn)練樣本,分別基于Matlab 分類訓(xùn)練器選擇是否進(jìn)行PCA 分析后,依次進(jìn)行精細(xì)KNN、中等KNN、窄神經(jīng)網(wǎng)絡(luò)、中型神經(jīng)網(wǎng)絡(luò)、精細(xì)樹、中等樹、邏輯回歸和線性判別等共計(jì)8 種機(jī)器學(xué)習(xí)模型訓(xùn)練。待8種模型訓(xùn)練完成后,分依次將14 景無人機(jī)影像的整景影像樣本作為模型輸入數(shù)據(jù),快速輸出對應(yīng)整景無人機(jī)影像的滑坡識(shí)別結(jié)果。最后基于滑坡識(shí)別結(jié)果和目視解譯結(jié)果進(jìn)行精度評價(jià),對比分析各模型的優(yōu)缺點(diǎn)。相關(guān)技術(shù)路線如圖4所示。
圖4 技術(shù)路線圖
根據(jù)各模型訓(xùn)練結(jié)果,對14 景無人機(jī)影像的整景滑坡識(shí)別結(jié)果進(jìn)行精度評價(jià),分別得到命中率、質(zhì)量分?jǐn)?shù)和檢測誤差結(jié)果圖,分別如圖5、圖6 和圖7。其中,模型1 至8 分別代表精細(xì)KNN、中等KNN、窄神經(jīng)網(wǎng)絡(luò)、中型神經(jīng)網(wǎng)絡(luò)、精細(xì)樹、中等樹、邏輯回歸和線性判別等8 種機(jī)器學(xué)習(xí)模型,藍(lán)色線代表對應(yīng)模型訓(xùn)練時(shí)進(jìn)行PCA 分析,紅色線代表對應(yīng)模型訓(xùn)練時(shí)未進(jìn)行PCA 分析。
圖5 命中率評價(jià)圖(TPR)
圖6 質(zhì)量分?jǐn)?shù)評價(jià)圖(TS)
圖7 檢測誤差評價(jià)圖(CE)
首先,綜合分析命中率、質(zhì)量分?jǐn)?shù)和檢測誤差評價(jià)圖,多景無人機(jī)影像在經(jīng)進(jìn)行PCA 分析的模型預(yù)測后,未識(shí)別到滑坡或識(shí)別到的滑坡像元數(shù)目極少,與事實(shí)差距極大。可知,未進(jìn)行PCA 分析的模型訓(xùn)練結(jié)果對于滑坡自動(dòng)識(shí)別有更好的檢測性能,其精度大大高于進(jìn)行PCA 分析的模型識(shí)別結(jié)果。
其次,基于未進(jìn)行PCA 分析的精度評價(jià)結(jié)果分析各模型的滑坡識(shí)別性能。根據(jù)各影像命中率評價(jià)結(jié)果可知,窄神經(jīng)網(wǎng)絡(luò)(模型3)和精細(xì)樹(模型5)的命中率明顯低于其他模型,中型神經(jīng)網(wǎng)絡(luò)(模型4)、邏輯回歸模型(模型7)和線性判別模型(模型8)命中率分布趨勢較不一致,在部份影像有較好的命中率,而部分影像有極差的命中率,滑坡檢測性能較不穩(wěn)定。精細(xì)KNN(模型1)、中等KNN(模型2)和中等樹(模型6)有較高的識(shí)別率,且預(yù)測性能較為穩(wěn)定,其中兩種KNN 模型的命中率明顯高于中等樹模型。根據(jù)質(zhì)量分?jǐn)?shù)和檢測誤差評價(jià)結(jié)果分布對精細(xì)KNN、中等KNN 和中等樹三種模型進(jìn)行進(jìn)一步分析,根據(jù)結(jié)果可知,兩種KNN 模型質(zhì)量分?jǐn)?shù)普遍低于其他模型,檢測誤差普遍高于其他模型,其主要原因是KNN 方法能在最大程度對滑坡目視解譯結(jié)果進(jìn)行正確識(shí)別的同時(shí),盡可能對其他潛在滑坡位置進(jìn)行識(shí)別。而中等樹命中率和質(zhì)量分?jǐn)?shù)均普遍低于KNN 方法,檢測誤差普遍高于KNN模型,其滑坡識(shí)別性能均低于KNN 方法。對于兩種KNN 方法,滑坡識(shí)別性能差別不大,但精細(xì)KNN 的質(zhì)量分?jǐn)?shù)普遍略高于中等KNN 的質(zhì)量分?jǐn)?shù),同時(shí)精細(xì)KNN 的檢測誤差普遍略低于中等KNN 的檢測誤差。
值得注意的是,對于未參與模型訓(xùn)練的后兩景無人機(jī)影像滑坡識(shí)別結(jié)果,不同模型的滑坡識(shí)別性能與以上結(jié)果分布一致,代表相關(guān)機(jī)器學(xué)習(xí)模型對于無人機(jī)影像滑坡自動(dòng)識(shí)別具有普適性。綜上所述,在本文涉及的8 種機(jī)器學(xué)習(xí)模型中,精細(xì)KNN 有較好的滑坡識(shí)別性能,能最大程度對無人機(jī)影像中可能發(fā)生滑坡的區(qū)域進(jìn)行自動(dòng)識(shí)別。
本文基于多景分辨率為0.05 m 的無人機(jī)遙感影像,結(jié)合12.5 mDEM 數(shù)據(jù)、坡度和坡向數(shù)據(jù),以及道路數(shù)據(jù)和河流數(shù)據(jù),通過目視解譯進(jìn)行樣本采集和制作,同時(shí)利用多種機(jī)器學(xué)習(xí)模型進(jìn)行滑坡自動(dòng)識(shí)別。通過對不同模型進(jìn)行精度評價(jià)可知,精細(xì)KNN 模型在滑坡自動(dòng)識(shí)別中有較好的性能,其能在最大程度上正確檢測已知滑坡和未知滑坡,減少滑坡識(shí)別的漏報(bào)率。結(jié)合電力工程需要,在對工程區(qū)域進(jìn)行航飛成圖后,可直接基于無人機(jī)影像成果,利用本文訓(xùn)練出來的精細(xì)KNN 模型進(jìn)行滑坡自動(dòng)識(shí)別,獲取工程區(qū)域滑坡隱患點(diǎn)分布范圍。在電力工程前期,該研究可幫助設(shè)計(jì)人員在設(shè)計(jì)時(shí)予以避讓或采取工程措施,而在工程運(yùn)維階段,可幫助相關(guān)部門快速定位滑坡隱患點(diǎn)發(fā)生處,提高災(zāi)害治理效率。