趙鵬輝,李俊杰, 2,康 飛
(1. 大連理工大學 建設工程學部 水利工程學院,遼寧大連 116024; 2. 西藏大學工學院,西藏拉薩 850000)
我國是一個多山國家,山地、丘陵和高原的面積約占國土總面積的69%。山地特有的能量梯度使泥石流、滑坡、山洪、水土流失等典型山地災害嚴重危害著河道周邊公路、鐵路、橋梁、大型水利工程等重要基礎(chǔ)設施的安全[1]。山區(qū)公路、鐵路、大型水利工程等重要基礎(chǔ)設施多處于江河深切割河谷地帶,山坡陡峻、地質(zhì)構(gòu)造復雜、地層分布特殊,較差的地質(zhì)條件為河道山地災害活動,尤其是滑坡、泥石流的發(fā)生和發(fā)展提供了特定的環(huán)境和豐富的固體物質(zhì)[2-3]。河道周邊發(fā)生滑坡、泥石流等山地災害往往具有體量大、破壞力強等特點,常會毀壞公路鐵路等交通設施甚至村鎮(zhèn)。大型(滑坡體體積為100~1 000萬m3)和特大型(滑坡體體積大于1 000萬m3)滑坡、冰湖潰決型泥石流會堵塞河道形成堰塞湖,造成湖水上漲,一旦潰決將對下游人民生命財產(chǎn)及重要基礎(chǔ)設施造成巨大損失,其危害往往比滑坡、泥石流本身更嚴重[4]。及時發(fā)現(xiàn)、識別已發(fā)生的山地災害對采取合適的應急救災預案、及時發(fā)布疏散信息意義重大。但山區(qū)河道往往地廣人稀,傳統(tǒng)方式巡檢觀測河道內(nèi)山地災害具有極高的危險性和明顯的時間滯后性,因此研究河道山地災害快速識別方法成為目前迫切需求。
隨著大數(shù)據(jù)時代的到來,以卷積神經(jīng)網(wǎng)絡為代表的深度學習技術(shù)相比傳統(tǒng)機器學習技術(shù)在圖像識別領(lǐng)域具有更強大的特征學習和特征表達能力。2012年,卷積神經(jīng)網(wǎng)絡(CNN)技術(shù)首次應用在ImageNet大規(guī)模視覺識別競賽 (ILSVRC)中便將top-5錯誤率由傳統(tǒng)機器學習技術(shù)的26%降至15%,2015年微軟利用CNN技術(shù)又將ILSVRC評測的錯誤率降低至3.57%[5],首次超越人眼判別錯誤率(約5.1%)。卷積神經(jīng)網(wǎng)絡具有參數(shù)共享的網(wǎng)絡結(jié)構(gòu),大大降低了模型的復雜度與參數(shù)數(shù)量,避免了傳統(tǒng)機器學習技術(shù)嚴重依賴于經(jīng)驗的特征提取與特征選擇過程。在卷積神經(jīng)網(wǎng)絡中,圖像像素作為網(wǎng)絡的最底層輸入,信息依次傳輸?shù)讲煌膶?,每層通過卷積核取得圖像特征,這種網(wǎng)絡結(jié)構(gòu)提取到的特征對于平移、旋轉(zhuǎn)、位姿變化、比例縮放具有高度不變性。受此啟發(fā),在深度學習開源框架下,利用大量現(xiàn)有的河道山地災害圖片數(shù)據(jù)完成了多種深度模型的訓練、遷移,實現(xiàn)了泥石流、滑坡兩種河道山地災害的高準確率識別。
傳統(tǒng)的機器學習技術(shù)在處理圖像數(shù)據(jù)完成圖像分類任務時,一般按照圖像采集-預處理-特征檢測-特征選擇-圖像分類的流程進行。圖像特征檢測、選擇是成功解決問題的關(guān)鍵[6],目前一般采用方向梯度直方圖、尺度不變特征變換、局部二值模式等特征檢測方法。這些特征檢測方法往往需要經(jīng)驗豐富的專家來設計,無法真正提取共性的全局特征,僅適用于固定場景圖像的理解。河道山地災害往往圖像背景復雜,拍攝視角難以固定。采用傳統(tǒng)機器學習技術(shù)進行分類時,圖像特征檢測方法仍需重新設計,無法實現(xiàn)快速識別。
在處理場景變化的復雜圖像分類問題時,以卷積神經(jīng)網(wǎng)絡為代表的深度學習方法不需要人工設計特征檢測方法,而是由機器自動學習獲得,適用于復雜的圖像場景,且具有良好的魯棒性與泛化能力。
卷積神經(jīng)網(wǎng)絡是一種特殊的深度前饋網(wǎng)絡,每層由多個特征提取平面組成,一個典型的卷積神經(jīng)網(wǎng)絡架構(gòu)如圖1所示。
圖1 典型卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)[7]
輸入的圖像通過多個可訓練的卷積核進行卷積,得到C1層與卷積核數(shù)量相同的特征圖,然后通過池化操作將特征圖降采樣得到S2層特征映射圖,這些特征映射圖再通過卷積得到C3層,之后又通過與S2相同的方式得到S4層,最終這些采集到的高維度特征被光柵化,在全連接層中被分類處理,得到輸出。由于卷積過程中一個映射面上的神經(jīng)元權(quán)值共享,在卷積核所在的區(qū)域,所有像素和卷積核對應位置相乘求和的過程中,均與同一組權(quán)重相乘,因此大大減少了參數(shù)的個數(shù)與參數(shù)初始化的難度。池化是一種統(tǒng)計信息提取的方式,為求出特征圖上一個給定區(qū)域中能代表該區(qū)域特點的值,在深度學習中一般采用平均值池化(average-pooling)或最大值池化(max-pooling)。池化層最直接的作用是引入了不變性,在池化區(qū)域內(nèi)部任何的位移都不會對結(jié)果產(chǎn)生影響[8]。卷積神經(jīng)網(wǎng)絡這種卷積層與池化層結(jié)合的二次特征提取結(jié)構(gòu)使網(wǎng)絡在識別時對圖像樣本有很高的畸變?nèi)萑棠芰?,魯棒性較強。
卷積神經(jīng)網(wǎng)絡將數(shù)據(jù)集中大量有標簽的圖像數(shù)據(jù)從原始高維特征空間映射到低維特征空間,訓練分類器,具有良好的泛化能力[9- 10]。因此對于圖像背景、拍攝視角無專業(yè)背景知識的需求。
本文的網(wǎng)絡模型是在由伯克利視覺和學習中心(Berkeley Vision and Learning Center,BVLC)開發(fā)的高效深度學習開源框架Caffe上運行訓練的。Caffe是基于C++/CUDA實現(xiàn)的卷積神經(jīng)網(wǎng)絡框架,提供Python和Matlab接口,是目前實現(xiàn)前饋卷積神經(jīng)網(wǎng)絡架構(gòu)的主流深度學習框架。本文GPU使用了NVIDIA公司GeForce GTX745,主要對比了ImageNet大型視覺識別挑戰(zhàn)賽(ILSVRC)2012年冠軍AlexNet及其改進版本CaffeNet與ILSVRC2014年冠軍GoogLeNet,之后又在其訓練結(jié)果之上結(jié)合遷移技術(shù)進行微調(diào)測試模型識別準確率。CaffeNt與AlexNet相似,均由5個卷積層、3個全連接層組成,不同之處在于二者局部響應歸一化層(Local Response Normalization,LRN)與池化層(Pooling)互換了位置。GoogLeNet是2014年Christian Szegedy提出的一種全新的22層深度學習結(jié)構(gòu),為了避免增大網(wǎng)絡深度(層數(shù))帶來的負作用如過擬合、梯度消失、梯度爆炸等[5, 11],提出了inception結(jié)構(gòu),在相同尺寸感受野中疊加1×1卷積核、3×3卷積核、5×5卷積核,更高效地利用計算資源,在相同計算量下能提取到更多的特征,從而提升訓練效果。采用收斂速度最快的AdaDelta作為優(yōu)化器,模型最終準確率也最高。
川藏公路南線是我國318國道的組成部分,由四川成都至拉薩,全長2 146 km。該線路是西藏聯(lián)絡內(nèi)地的交通命脈之一,對于發(fā)展西藏經(jīng)濟、加強民族團結(jié)和保障國家安全等方面均有重要的戰(zhàn)略意義。頻發(fā)的多種河道山地災害導致該線路經(jīng)常斷道,嚴重影響了西藏經(jīng)濟發(fā)展。
帕隆藏布流域?qū)倌钋嗵乒爬较?,位于N29°07′~N31°03′,E92°53′~E97°07′,山嶺海拔一般在5 500~6 000 m,全流域面積28 630.9 km2,其中干流所在的波都藏布及其以上流域面積11 551.5 km2,易貢藏布13 533.4 km2,拉月曲3 141.5 km2,分別占全流域面積的40.3%,47.3%和11.0%。帕隆藏布全長266 km,落差3 360 m, 平均比降12.6‰,流域內(nèi)有森林3 500 km2, 現(xiàn)代冰川4 638.42 km2,高山灌叢草甸及草原20 385.2 km2,分別占全流域面積的12.2%,16.2%和71.2%[12]。川藏公路從流域東南角的安久拉埡口(海拔4 468 m)進入,沿帕隆藏布干流從東南向西北,在通麥折向西南,沿拉月曲上行,經(jīng)色季拉埡口(海拔4 556 m)離開該流域,全長296 km[13]。由于該流域受印度洋暖濕氣流影響,降水豐富,河道侵蝕發(fā)育,河流深切,相對高差一般在2 000~4 000 m,谷坡陡峻,谷坡表面物質(zhì)移動強烈,使得川藏公路在該流域沿途遭遇各種山地災害的干擾和破壞,其中以滑坡、泥石流最為嚴重,從山地災害的角度來看,該流域河道堪稱山地災害的“博物館”。
圖2 數(shù)據(jù)集中典型滑坡、泥石流災害圖像Fig.2Typical images of landslides and debris flows in data set
本文采用的圖像數(shù)據(jù)多數(shù)為項目組人員在川藏公路帕隆藏布流域河道附近多次野外考察所得,基本涵蓋土質(zhì)滑坡中堆積體滑坡、殘坡積層滑坡、人工填土滑坡,巖質(zhì)滑坡中近水平層狀滑坡、順層滑坡、切層滑坡、逆層滑坡、楔形體滑坡,以及暴雨型泥石流、冰川型泥石流、冰磧型泥石流等滑坡、泥石流主要形式(圖2)。部分來源于互聯(lián)網(wǎng)相似圖片。帕隆藏布流域河谷氣候獨特,是西南季風和印度洋暖流進入青藏高原的交匯處,具有充沛的降水[14]。對于滑坡、泥石流等河道山地災害而言降水是最主要因素,因此帕隆藏布流域河道內(nèi)山地災害頻發(fā)。由于水熱條件優(yōu)越,流域內(nèi)發(fā)育了豐富的河谷亞熱帶北緣的常綠闊葉林、高山灌叢草甸和草原稀疏植被。森林和高山灌木叢等植被對抑制小型泥石流有很大作用,對中等規(guī)模以上的泥石流等災害作用卻不大[3]。因此該流域泥石流、滑坡發(fā)生后往往與周邊植被具有明顯界限,如圖2所示。
圖像采集設備主要采用無人機、數(shù)碼相機,同時輔助使用手機、數(shù)碼攝像機等。由于圖像采集設備的分辨率不同,為了滿足卷積神經(jīng)網(wǎng)絡對輸入數(shù)據(jù)的要求,在數(shù)據(jù)采集準備階段將圖片統(tǒng)一歸一化為256×256。本文將已采集的原始圖片數(shù)據(jù)分為滑坡、泥石流、正常情景共3類各2 000張圖像,受限于實地災害圖像難以取得、數(shù)量較少,難以滿足卷積神經(jīng)網(wǎng)絡對數(shù)據(jù)量的要求,本文使用旋轉(zhuǎn)、調(diào)整圖像對比度兩種方法將各類數(shù)據(jù)圖像均擴充至6 000張,其中滑坡圖像標簽統(tǒng)一設置為0,泥石流圖像標簽設置為1,正常情景圖像標簽設置為2,各類圖像隨機選取4 800張作為訓練集,1 200張為測試集。
相同數(shù)據(jù)集下對AlexNet,CaffeNet,GoogLeNet直接訓練計算結(jié)果如圖3所示。
圖3 3種網(wǎng)絡訓練結(jié)果對比
從圖3可以看出,3種網(wǎng)絡在約第1 200次迭代完成后均達到收斂,從測試準確率來看AlexNet網(wǎng)絡模型的測試準確率最高達到85.2%,CaffeNet與GoogLeNet網(wǎng)絡模型測試準確率為77.5%。從損失函數(shù)值來看,AlexNet的損失函數(shù)值下降最快,在迭代完成后達到0.38,CaffeNet與GoogLeNet完成迭代后損失函數(shù)值穩(wěn)定在0.45。
圖4 3種網(wǎng)絡遷移學習效果對比Fig.4 Comparison of training effects of three networks by transfer learning
為了克服數(shù)據(jù)集偏小的缺點,本文嘗試使用伯克利視覺和學習中心利用目前世界上圖像識別最大的數(shù)據(jù)庫ImageNet訓練出的相應模型遷移學習技術(shù)對現(xiàn)有網(wǎng)絡進行微調(diào),同一網(wǎng)絡使用遷移學習技術(shù)前后計算結(jié)果對比如圖4所示。
從圖4可以看出,3種網(wǎng)絡使用遷移學習技術(shù)進行微調(diào)后均能較之前更快達到收斂,測試準確率也有大幅提高。AlexNet網(wǎng)絡模型的測試準確率達到90.5%,CaffeNet網(wǎng)絡模型的測試準確率達到89.6%,GoogLeNet模型為80.2%。
從以上結(jié)果可以看出,對于此類圖像,AlexNet和CaffeNet網(wǎng)絡模型的性能表現(xiàn)優(yōu)于GoogLeNet。由于相應網(wǎng)絡模型經(jīng)過ImageNet數(shù)據(jù)庫訓練后含有較多低級特征參數(shù)信息,使用遷移技術(shù)對其進行網(wǎng)絡模型參數(shù)微調(diào)能大幅提高網(wǎng)絡模型的測試準確率。
整理了藏東南地區(qū)帕隆藏布流域河道山地災害圖片數(shù)據(jù)集,提出一種基于卷積神經(jīng)網(wǎng)絡的河道山地災害快速識別方法,結(jié)果表明卷積神經(jīng)網(wǎng)絡可以用來對河道山地災害圖片進行快速、準確識別。但是在目前網(wǎng)絡模型訓練過程中,優(yōu)化器參數(shù)的調(diào)整方式還需改進,結(jié)合地質(zhì)學知識將災害圖像進一步分類細化是下一步研究的重點。