李文逵
摘要:河流遙感影像地理背景復雜多變、水體識別對象區(qū)分度小、陸地河網(wǎng)形狀不規(guī)則等導致河流區(qū)域識別率較低。為了獲取高精度的河流區(qū)域信息,提出在原有LinkNet模型網(wǎng)絡結(jié)構的基礎上進行優(yōu)化設計。首先把卷積塊中的激活函數(shù)ReLU改成PReLU,然后將始端模塊中最大池化替換成平均池化,最后在第一個卷積層前和第四個卷積層后新增一道跨越連接。預測效果表明:LinkNet模型的準確率、精確率、召回率、F1-Score以及mIoU依次為97.62%,80.95%,89.39%,84.96%,76.50%,兩改進LinkNet模型的依次為98.21%,85.95%,91.11%,88.45%,81.71%,各項指標值都得到一定程度的提升,表明該改進方法能更加有效地提取自然情景下河流區(qū)域。
關 鍵 詞:
LinkNet模型; 河流圖像; 語義分割; 深度學習
中圖法分類號: TV11
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2023.S2.056
0 引 言
地表河流屬于珍貴的水資源,如今隨著生態(tài)環(huán)境的惡化,中國部分地區(qū)生態(tài)流量減少,水容量降低,導致水資源相對短缺,時空分布不均勻,這已嚴重阻礙地區(qū)的生產(chǎn)和發(fā)展。因此準確獲取河流的具體地表分布區(qū)域?qū)τ诹饔蚍乐?、河道?guī)劃、洪災監(jiān)測、水資源保護等具有極其重要的作用。
遙感影像能直觀清晰地呈現(xiàn)地表徑流的地理位置和區(qū)域范圍,可以映射出整個流域的水體空間宏觀分布,受益于衛(wèi)星硬件的不斷完善,使得遙感影像數(shù)據(jù)成像分辨率更高、更新時間更短以及拍攝成本更低,結(jié)合遙感成像來提取水體信息的技術已成為必然趨勢。例如,王博等[1]利用簡化脈沖耦合神經(jīng)網(wǎng)絡和數(shù)學形態(tài)學對其進行邊緣提取,在抗噪性方面有明顯優(yōu)勢。方海泉等[2]使用卷積神經(jīng)網(wǎng)絡對山區(qū)、平原和城市的高分二號衛(wèi)星遙感影像進行河流識別,準確率為 0.928 3。沈瑜等[3]使用FCN _8s、ResNet50、DeeplabV3、Unet、LinkNet、R-LinkNet 6種神經(jīng)網(wǎng)絡模型來提取河流遙感影像,得到像素準確率分別是0.631,0.748,0.816,0.791,0.824,0.847。付寶晶等[4]提出一種融合特征的河流區(qū)域提取方法,林地、城市、山地、耕地流域圖的準確率分別為0.992 3,0.994 1,1.00,1.00,完整度分別為0.983 7,0.986 3,0.996 8,0.998 5。薛源等[5]建立了結(jié)合隨機森林和神經(jīng)網(wǎng)絡地河流表面信息提取算法,提取精度達到94.7%。孫玉梅等[6]提出一種基于結(jié)構相似區(qū)域搜索的細小河流提取方法,實現(xiàn)不連續(xù)細小河流的啟發(fā)式搜索連接,準確地實現(xiàn)細小河流的完整水體信息提取。盛君等[7]量化融合不同分割對象的多種特征信息,使用極限學習機識別,最后通過軟投票法獲取檢測結(jié)果,提取的影像數(shù)據(jù)水體檢測結(jié)果在準確率、精確率及召回率方面都達到了90%以上。
為了更精確地識別出高分辨率遙感影像河流區(qū)域,充分挖掘河流區(qū)域特征信息,本次研究利用LinkNet模型提取河流水體,同時對原有LinkNet模型網(wǎng)絡結(jié)構進行優(yōu)化,以期實現(xiàn)不同場景下河流區(qū)域的連續(xù)性完整分割。
1 數(shù)據(jù)集制作
1.1 數(shù)據(jù)來源及預處理
使用奧維互動地圖瀏覽器,地圖源來自谷歌地圖,在圖級14、圖級15、圖級16(比例尺分別為 1∶50 000、1∶100 000、1∶200 000)3個層次下,框選河流區(qū)域并導出采樣圖,利用Photoshop繪圖軟件的魔棒工具快速選中河流區(qū)域,再用油漆桶工具賦色,實現(xiàn)原始圖整體標注。標注圖中像素點分為兩類,白色表示河流,黑色表示背景,采樣圖和標注圖見圖1,然后同時將采樣圖和標注圖按512×512分辨率大小對應分割切片,留下河流區(qū)域占比大于0.03的切片,獲得132張原始圖片,切片樣本如圖2所示。
1.2 數(shù)據(jù)集擴增
對圖像切片進行上下翻轉(zhuǎn)、左右翻轉(zhuǎn)、順時針旋轉(zhuǎn)90°、順時針旋轉(zhuǎn)180°、順時針旋轉(zhuǎn)270°、隨機調(diào)整明度、高斯模糊共7種變換方式,數(shù)據(jù)量擴增為原本的8倍,共計1 056張圖片,按4∶1比例隨機劃分訓練集和測試集,其中訓練集占844張,測試集占212張。
2 實驗環(huán)境搭建
安裝Anaconda作為開發(fā)工具集成管理器,從中創(chuàng)建虛擬環(huán)境,添加第三方包鏡像源通道,再在Anaconda的基礎上依次安裝Python、PyTorch、Spyder等第三方工具包,具體版本參數(shù)如下[8-9]:
工具包管理器??? Anaconda 4.10.3
腳本語言Python 3.6
編輯器Spyder 4.0
框架PyTorch 1.11.0
驅(qū)動CUDA9.0
顯卡GTX 1050
通過Spyder編寫Python程序運行,導入深度學習框架PyTorch提供的開發(fā)函數(shù),編寫有訓練、測試、預測、數(shù)據(jù)輸入5個腳本文件。
3 模型構造及訓練
3.1 LinkNet模型網(wǎng)絡結(jié)構
LinkNet模型是由始端模塊、終端模塊、編碼器模塊和解碼器模塊4個部分組成的卷積神經(jīng)網(wǎng)絡[10],與現(xiàn)有神經(jīng)網(wǎng)絡不同之處是采用編碼器-解碼器對稱結(jié)構,其框架如圖3所示。左邊是編碼器模塊,右邊是解碼器模塊,兩者之間存在跨躍連接,皆采用自編碼模式,特征信息從編碼器輸入到低維空間,再將編碼器輸出信息,通過跨躍連接添加到對應解碼器輸入中。編碼器執(zhí)行多次下采樣操作后,會導致部分空間信息損失,假若僅使用編碼器的下采樣輸出作為解碼器輸入,則無法恢復丟失的信息。編碼器和解碼器間建立跨越連接的操作方式,目的是恢復編碼器下采樣操作丟失的空間信息,供解碼器上采樣操作使用。因此解碼器在每一層共享編碼器學習的知識,從而降低解碼和生成圖像所需的信息量,可極大減少網(wǎng)絡所需的參數(shù)量,有助于實現(xiàn)反向梯度流動,提高速度的同時又保證精度,與現(xiàn)有VGG等直通式的分段網(wǎng)絡模型相比,整體效率更高。
卷積神經(jīng)網(wǎng)絡模型LinkNet的基本構造單元主要有卷積塊和反卷積塊,卷積塊包含卷積層、批次歸一化層、激活函數(shù)層,編碼器模塊的每個編碼器塊均由4個卷積塊組成,前端的兩個卷積塊組成前置模塊,并與殘差輸出相加合并,將結(jié)果傳遞給末端兩個卷積塊組成的后置模塊(見圖4)。圖中展示的編碼器中采用的詳細殘差結(jié)構,卷積層參數(shù)從左至右依次是卷積核大小,特征圖輸入輸出通道數(shù),上采樣因子。反卷積(Transposed Convolution)塊是解碼器的構建單位,采用轉(zhuǎn)置卷積進行反卷積運算,先按照一定比例,通過自動填充來擴大輸入圖像尺寸,從而輸出指定行列數(shù)矩陣,接著旋轉(zhuǎn)卷積核,然后進行正向卷積。由于卷積神經(jīng)網(wǎng)絡提取特征后,輸入圖像的輸出尺寸一般會縮小,為了便于下一步計算,需要恢復到原先的尺寸,采用反卷積映射來擴大圖像分辨率,是實現(xiàn)上采樣操作的一種方式。
3.2 改進LinkNet模型
LinkNet模型采用函數(shù)ReLU(x)=x,x≥00,x=0作為激活函數(shù)。不足之處是若某個神經(jīng)元的輸入自變量x=
0,則以后自身參數(shù)的梯度一直為0,訓練過程中永遠
不再被激活,導致神經(jīng)元死亡問題。為了避免這種現(xiàn)象,將函數(shù)ReLU改為其優(yōu)化版本PReLU(x)k=x,x>0λk,x≤0,不同通道k使用不一樣的激活函數(shù),線性單元參數(shù)λ能在訓練過程中自適應矯正,且x≤0時參數(shù)
λk值不會為0,并且在額外增加很少計算成本條件下提高準確率。模型始端模塊中最大池化替換成平均池化,最大池化操作只選擇卷積核區(qū)域的最大值進入下一層,而拋棄其他元素。這種操作方式同時會丟失一
些特征圖中的細節(jié)信息,而對于平均池化則是提取卷積核區(qū)域中所有像素點的平均值,可以保留更多的圖像背景信息。對編碼器模塊的第1個卷積層前和第4個卷積層后添加一條跨越連接,把第1個卷積層和第3個卷積層輸出合并,再輸入第4個卷積層,形成更密集的連接,使得特征信息利用更充分,如圖4所示,左邊是原始模塊,右邊是改進后模塊。
3.3 模型訓練過程
訓練開始時需要設置超參數(shù),初始學習率(learn-ing rate)為0.001,迭代(epoch)輪次為30,由于顯存大小的限制,批次規(guī)格(batch size)設置的較小值為8,運用Adam作為優(yōu)化器(optimizer),使得訓練過程中學習率能動態(tài)適應,損失函數(shù)評價標準為交叉熵(Cross Entropy Loss),準確度評價標準采用平均交并比:
mIoU=∑nk=0IoUkn
式中:IoU=L∩SL∪S,表示標注區(qū)域L和預測區(qū)域S兩者交集與并集的比值,n是測試集樣本總數(shù)[11-14]。
由圖5可見,各個評價指標最終趨于收斂,表明模型訓練成功。
4 實驗結(jié)果
4.1 模型預測結(jié)果
將訓練完畢后的LinkNet模型和改進LinkNet模型用于識別測試集中單張河流圖像,
輸出語義分割預測結(jié)果,由圖6所示的二值語義分割圖像,可見LinkNet 模型分割區(qū)域邊緣凹凸不平呈現(xiàn)鋸齒狀,而改進LinkNet模型的識別區(qū)域則較為平滑,更加接近于標注圖。
4.2 預測效果綜合評價
采用表1中的5種標準評價模型對測試集的預測效果[15-18],設標注圖中白色定為正,黑色定為負,則每個像素有4種可能的預測值,分別是真正TP、假正FP、真負TN、假負FN,則準確率A=TP+TNTP+TN+FP+FN、精確率P=TPTP+FP、召回率R=TPTP+FN、F1=2TP2TP+FP+FN。由表2可見,相比較于原有LinkNet模型,改進LinkNet模型的準確率、精確率、召回率、F1值、mIoU依次提高0.005 9,0.050 1,0.017 2,0.034 9,0.052 1。
5 結(jié) 語
本文針對河道遙感圖像實現(xiàn)語義分割,在原本LinkNet模型網(wǎng)絡結(jié)構基礎上進行改進,實驗檢測的結(jié)果表明,提出的改進型模型經(jīng)過訓練學習后,在河流語義分割任務中取得了更佳的分割性能,為高分辨率遙感圖像中河流區(qū)域的精準識別提供良好的技術支撐。
研究對象所用數(shù)據(jù)集包含城市、山地、農(nóng)田等多種地形地貌,具備一定的泛化能力,但是樣本數(shù)量過少,面對其他不同的復雜場景仍能有較高識別精度,所以模型還需修改,接下來可以就其他方面優(yōu)化,比如運用大規(guī)模數(shù)據(jù)集時,可能需要加深網(wǎng)絡層次,增大網(wǎng)絡的參數(shù)量。
參考文獻:
[1] 王博,石陳妮子.基于簡化PCNN的遙感影像河流信息提取[J].人民黃河,2019,41(1):61-64.
[2] 方海泉,蔣云鐘,冶運濤,等.基于深度學習和多次棋盤分割法的高分辨率影像河流提取[J].北京大學學報,2019,55(4):692-698.
[3] 沈瑜,苑玉彬,彭靜,等.基于深度學習的寒旱區(qū)遙感影像河流提?。跩].農(nóng)業(yè)機械學報,2020,51(7):192-201.
[4] 付寶晶,李自立.基于多特征融合的遙感圖像河流提取[J].中國農(nóng)村水利水電,2022,482(12):53-58.
[5] 薛源,覃超,吳保生,等.基于多源國產(chǎn)高分辨率遙感影像的山區(qū)河流信息自動提?。跩].清華大學學報(自然科學版),2023,63(1):134-145.
[6] 孫玉梅,王保云,張祝鴻,等.基于結(jié)構相似區(qū)域搜索的TM影像細小河流提取方法[J].國土資源遙感,2020,32(2):63-72.
[7] 盛君,王杰,孫策,等.基于高分辨率遙感影像的河流信息提取方法[J].測繪標準化,2022,38(2):52-56.
[8] 沈吉寶.多特征融合的遙感影像河流提取方法[J].礦山測量,2021,49(2):107-111.
[9] 李鑫偉,李彥勝,張永軍.弱監(jiān)督深度語義分割網(wǎng)絡的多源遙感影像水體檢測[J].中國圖象圖形學報,2021,26(12):3015-3026.
[10] 楊知,歐文浩,劉曉燕,等.基于LinkNet卷積神經(jīng)網(wǎng)絡的高分辨率遙感影像水體信息提取[J].云南大學學報,2019,41(5):932-938.
[11] MIAO Z,F(xiàn)U K,SUN H,et al.Automatic water-body segmentation from high-resolution satellite images via deep networks[J].IEEE Geoscience and Remote Sensing Letters,2018,15(4):602-606.
[12] ECKHORN R,REITBOECK H,ARNDT M,et al.Feature linking via synchronization among distributed assemblies:simulations of results from cat visual cortex[J].Neural Computation,2014,2(3):293-307.
[13] 李鑫偉,李彥勝,張永軍.弱監(jiān)督深度語義分割網(wǎng)絡的多源遙感影像水體檢測[J].中國圖象圖形學報,2021,26(12):3015-3026.
[14] 李宇,肖春姣,張洪群,等.深度卷積融合條件隨機場的遙感圖像語義分割[J].國土資源遙感,2020,32(3):15-22.
[15] JOSE D,KARTHIK G,YUAN J,et al.Hyper Dense-Net:a hyper-densely connected CNN for multi-modal imagesegmentation[J].IEEE Transactions on Medical Imaging,2019,38(5):1116-1126.
[16] 沈駿翱,馬夢婷,宋致遠,等.基于深度學習語義分割模型的高分辨率遙感圖像水體提?。跩].自然資源遙感,2022,34(4):129-135.
[17] 何紅術,黃曉霞,李紅旮,等.基于改進U-Net網(wǎng)絡的高分遙感影像水體提取[J].地球信息科學學報,2020,22(10):2010-2022.
[18] 陳前,鄭利娟,李小娟,等.基于深度學習的高分遙感影像水體提取模型研究[J].地理與地理信息科學,2019,35(4):43-49.
(編輯:黃文晉)