王 蕊, 丁 咚, , 李廣雪, , 任 昕, 韓慧慧
(1. 中國海洋大學(xué) 海洋地球科學(xué)學(xué)院, 山東 青島 266100; 2. 中國海洋大學(xué) 海底科學(xué)與探測技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 山東 青島 266100; 3. 青島海洋科學(xué)與技術(shù)國家實(shí)驗(yàn)室 海洋礦產(chǎn)資源評價(jià)與探測技術(shù)功能實(shí)驗(yàn)室, 山東 青島 266580)
基于遙感影像數(shù)據(jù)中水陸邊界特性, 將海岸帶區(qū)域圖像精確分割為海洋區(qū)域和陸地區(qū)域[1-2], 并精細(xì)提取海岸線是遙感領(lǐng)域的研究熱點(diǎn)之一。其分割結(jié)果對海岸線變化分析[3]、船舶目標(biāo)快速檢測[4]、海洋環(huán)境監(jiān)測[5]和海洋資源開發(fā)等具有重要意義。
實(shí)地測量法和攝影測量法是主要的傳統(tǒng)岸線提取方法[6], 但其野外踏勘工作量大且耗時(shí)長, 在海岸線監(jiān)測的時(shí)效性、動(dòng)態(tài)性及便利性上不具備優(yōu)勢。隨著遙感技術(shù)的快速發(fā)展, 前人積極研究和探索了多種基于遙感影像提取海岸線的方法, 這些方法可以大體分為3類: (1) 基于閾值的方法, 如OSTU[7]、NDWI[8]、MNDWI[9]、SMNDWI[10], 通過對遙感影像的不同波段歸一化來提取水體。但最優(yōu)閾值的確定存在一定的難度, 此外海岸線環(huán)境復(fù)雜,僅考慮光譜信息提取岸線準(zhǔn)確率較低; (2) 基于圖像中地物邊緣對應(yīng)的圖像灰度與其周圍像元灰度的不連續(xù)特征, 通過邊緣算子對海陸區(qū)域的邊緣進(jìn)行提取, 常用的方法有Sobel[11]、Roberts[12]等一階微分算子及Laplacian[13]二階微分算子和非微分邊緣檢測算子Canny[14]。但基于邊緣檢測算子提取的海岸線會(huì)因環(huán)境噪聲破壞其連續(xù)性, 需要數(shù)學(xué)形態(tài)學(xué)進(jìn)行處理與后期優(yōu)化; (3) 面向?qū)ο蟮姆指罘椒? 將遙感影像劃分出由同質(zhì)像元組成的不同大小的對象[15-17],根據(jù)的光譜、空間集紋理特征對數(shù)據(jù)進(jìn)行處理[18]。面向?qū)ο蠓椒梢詼p少像素內(nèi)部信息的干擾, 但步驟復(fù)雜, 不能充分利用圖像的隱含信息。
隨著高分辨率遙感數(shù)據(jù)源的不斷增加, 以及遙感圖像空間分辨率的不斷提高, 傳統(tǒng)的基于遙感影像獲取海陸邊界的方法在面對更清晰的紋理和更復(fù)雜的海岸帶背景信息時(shí), 很難獲得較好的提取結(jié)果。近年來, 卷積神經(jīng)網(wǎng)絡(luò)[19](convolutional neural networks, CNN)在計(jì)算機(jī)視覺識別領(lǐng)域取得了巨大進(jìn)步,例如目標(biāo)檢測[20-21]、圖像分類[22-23]和語義分割[24-25]等?,F(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型, 一般面向城市場景圖像[26-28], 較少應(yīng)用于空間異質(zhì)性較強(qiáng)的岸線提取,在對空間信息豐富的高分辨率遙感影像進(jìn)行海陸分割時(shí), 存在將沿海水體及懸浮泥沙濃度高的海水誤分類現(xiàn)象, 不利于后期海岸線信息提取等工作的開展。
針對上述問題, 作者在經(jīng)典U-Net模型的基礎(chǔ)上,提出一種新的用于像素級海陸分割的網(wǎng)絡(luò)結(jié)構(gòu), 旨在提高海岸線提取精度。將BN算法和轉(zhuǎn)置卷積加入到網(wǎng)絡(luò)中, 不僅可以獲得準(zhǔn)確的海陸分割邊緣, 還可以進(jìn)一步提高分割效率。為了評估改進(jìn)U-Net在海陸分割方面的性能, 本研究基于高分一號遙感影像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 與其他網(wǎng)絡(luò)模型進(jìn)行相比分析。研究結(jié)果顯示改進(jìn)的U-Net在海陸區(qū)域獲得了更高的總體精度(overall accuracy, OA)、均交互比(mean intersection over union, MIoU)和F1分?jǐn)?shù)(F1-measure)。
CNN通過卷積和池化操作提取影像的局部特征,CNN中的全連接層將局部特征整合為抽象特征[29],隨后映射到樣本標(biāo)記空間。在下采樣(subsampling)過程中, 特征圖尺寸不斷變小, 丟失細(xì)節(jié)信息, 無法做到精確的基于像素級的圖像分類。全連接層中的神經(jīng)元的感受野覆蓋了前一層的全部輸入, 導(dǎo)致模型運(yùn)算時(shí)間過長、計(jì)算率低并限制感受野的大小。全卷積神經(jīng)網(wǎng)絡(luò)[30](fully convolutional networks,FCN)用卷積層代替CNN中的全連接層, 在像素級對圖像進(jìn)行分類, 執(zhí)行端到端圖像分割任務(wù), 網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 CNN與FCN對比圖Fig. 1 CNN vs. FCN
FCN的上采樣(upsampling)操作能夠?qū)⑻卣鲌D恢復(fù)至輸入尺寸, 但會(huì)丟失特征信息, 降低邊界分割精度。因此, 很多研究都集中在如何提高像素級高分辨率的分割結(jié)果上。
經(jīng)典U-Net[31]是一個(gè)端到端全卷積網(wǎng)絡(luò), 其網(wǎng)絡(luò)編碼-解碼結(jié)構(gòu)如圖2所示。編碼器由卷積層和最大池化層組成。解碼器通過上采樣, 恢復(fù)特征圖至輸入大小的尺寸。編碼器和解碼器之間通過跳躍連接(skip connection)將下采樣部分得到的高維空間信息和對應(yīng)上采樣部分得到的高層語義特征相結(jié)合, 構(gòu)建高層次的復(fù)雜特征, 使得分割結(jié)果可以得到精確的定位與精細(xì)的邊界。當(dāng)前一些深度學(xué)習(xí)軟件平臺選擇其作為語義分割的網(wǎng)絡(luò), 如ArcGIS Pro軟件中的語義分割模塊、ENVI軟件中的深度學(xué)習(xí)模塊等。
圖2 U-Net模型結(jié)構(gòu)圖[31]Fig. 2 Model structure diagram of U-Net
批歸一化(batch normalization, BN)是一種數(shù)據(jù)正則化方法[32], 通過解決深度神經(jīng)網(wǎng)絡(luò)內(nèi)部協(xié)變量偏移(internal covariate shift)來加速網(wǎng)絡(luò)訓(xùn)練。神經(jīng)網(wǎng)絡(luò)迭代過程中, 隨著模型參數(shù)的不斷更新以及模型層數(shù)的不斷增加, 網(wǎng)絡(luò)輸出層輸出數(shù)據(jù)的分布會(huì)發(fā)生偏移并被累積放大。網(wǎng)絡(luò)就需要在訓(xùn)練的過程中不斷地去適應(yīng)不同的數(shù)據(jù)分布, 降低了模型的學(xué)習(xí)速度。BN算法可以解決上述問題, 通過對輸入層進(jìn)行歸一化使得訓(xùn)練梯度變化趨于平緩, 加速收斂[33],并且減少梯度對參數(shù)大小或初始值的依賴, 解決了梯度彌散問題, 有效防止模型過擬合。BN算法原理如下:
通過歸一化操作將數(shù)據(jù)約束為正態(tài)分布, 再使用縮放參數(shù)γ以及偏移參數(shù)β對歸一化后的數(shù)據(jù)進(jìn)行反變換, 來還原最佳的數(shù)據(jù)分布, 提高網(wǎng)絡(luò)的泛化能力。
語義分割中需要運(yùn)用上采樣將提取的特征還原到原圖像大小, 以實(shí)現(xiàn)像素級別的分割預(yù)測。上采樣的方法主要有插值法[34](interpolation)、轉(zhuǎn)置卷積[35](transposed convolution)和反池化[36](unpooling)。
轉(zhuǎn)置卷積是一對多的映射關(guān)系, 可以實(shí)現(xiàn)低維特征到高維特征的轉(zhuǎn)換。如圖3所示, 相比于卷積操作的多對一的映射關(guān)系, 轉(zhuǎn)置卷積只是形式上的轉(zhuǎn)置。相比于插值法和反池化, 轉(zhuǎn)置卷積矩陣的參數(shù)在訓(xùn)練過程中可進(jìn)行更新。
圖3 步長為1, 填充為0的卷積(a)與轉(zhuǎn)置卷積(b)Fig. 3 Convolution with Stride = 1 as well as padding = 0 (a) and transposed convolution (b)
海岸帶區(qū)域地物多樣, 地理?xiàng)l件復(fù)雜, 數(shù)據(jù)細(xì)節(jié)特征豐富, 增加了基于高分辨率遙感影像數(shù)據(jù)的海岸線提取的復(fù)雜度?;谝陨锨闆r, 本文在經(jīng)典U-Net的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行改進(jìn)處理, 構(gòu)建了改進(jìn)的U-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 改進(jìn)U-Net模型結(jié)構(gòu)圖Fig. 4 Model structure diagram of improved U-Net
輸入層由原來的單通道改為了多通道, 可以學(xué)習(xí)遙感影像數(shù)據(jù)的多通道信息特征。編碼器由5個(gè)重復(fù)的處理塊組成, 每個(gè)塊中包括兩次連續(xù)的卷積核大小為3×3, 步長為1的卷積。塊與塊之間通過一個(gè)核為2×2步長為2的最大池化操作進(jìn)行連接。解碼器與編碼器結(jié)構(gòu)上對稱, 也由5個(gè)重復(fù)的處理塊組成。解碼器的卷積操作與編碼器的卷積操作一致, 塊與塊之間通過核為步長為4×4, 2的轉(zhuǎn)置卷積。相比與傳統(tǒng)U-Net網(wǎng)絡(luò)使用的雙線性內(nèi)插法, 轉(zhuǎn)置卷積可以使網(wǎng)絡(luò)能夠?qū)W習(xí)到更多特征。每層卷積采用的是“same”模式, 得到的圖像大小與卷積操作前的圖像相同, 保留了更多邊界信息。每次卷積操作后加入批歸一化層,從而能夠?qū)⒕矸e層輸出的特征歸一化為正態(tài)分布, 將得到的結(jié)果輸入到線性整流函數(shù)(rectified linear unit,ReLU)中, 提高模型的非線性表達(dá)能力。這種網(wǎng)絡(luò)結(jié)構(gòu)能夠在一定程度上提升網(wǎng)絡(luò)的最大可訓(xùn)練深度, 強(qiáng)化模型學(xué)習(xí)目標(biāo)物邊緣信息, 提高目標(biāo)分割邊緣精度。
本文研究區(qū)域?yàn)樯綎|省青島市市區(qū)沿海及膠州灣區(qū)域(圖5), 結(jié)合前人研究成果及研究區(qū)海岸底質(zhì)特征與空間形態(tài)可知, 該區(qū)域岸線類型豐富且形態(tài)呈現(xiàn)多樣化的特點(diǎn)。
圖5 研究區(qū)地理位置Fig. 5 Location of the research area
研究區(qū)自然岸線類型有基巖岸線、砂質(zhì)岸線、粉砂淤泥質(zhì)岸線和河口岸線等, 基巖岸線潮間帶底質(zhì)以基巖為主, 主要分布于嶗山風(fēng)景區(qū)沿海一線;砂質(zhì)岸線在研究區(qū)內(nèi)分布較多, 其空間平面形態(tài)相對平直, 如青島市沿海的多個(gè)海水浴場; 粉砂淤泥質(zhì)岸線的潮間帶底質(zhì)基本為粉砂淤泥, 其灘涂寬闊,在膠州灣北部有大量分布; 河口岸線為河流入???是河流與海洋的分界線, 如大沽河入??诘?。
研究區(qū)人工岸線在膠州灣東西兩側(cè)及青島市市區(qū)沿海一線分布較多, 且其空間形態(tài)呈現(xiàn)出多樣化的特點(diǎn), 為了更為準(zhǔn)確地評估本方法對于岸線的提取精度, 作者將人工岸線在形態(tài)學(xué)上進(jìn)一步細(xì)分,依據(jù)人工岸線形狀特征, 劃分為平整型(岸線連續(xù)且平直分布)、島嶼型(周邊為海域包圍的離岸型人工岸線)和復(fù)合型海岸線(形態(tài)上不規(guī)則, 存在大量的凸出或凹進(jìn)型岸線形態(tài))。
實(shí)驗(yàn)數(shù)據(jù)來源于中國海洋衛(wèi)星數(shù)據(jù)服務(wù)系統(tǒng)(https://osdds.nsoas.org.cn/)。本文采用了5景高分一號PMS1多光譜遙感影像, 其空分辨率為8 m, 詳細(xì)信息如表1所示。
表1 研究區(qū)遙感影像信息Tab.1 Remote sensing image information in the research area
數(shù)據(jù)預(yù)處理流程如圖6所示。首先, 對獲取的原始影像進(jìn)行校正, 消除因大氣、地形、傳感器姿態(tài)等因素產(chǎn)生的畸變, 提高遙感數(shù)據(jù)的質(zhì)量。將獲取的遙感影像在ENVI軟件中進(jìn)行輻射定標(biāo)、大氣校正和正射校正。本研究采用Flaash大氣校正去除輻射亮度數(shù)據(jù)中的大氣和太陽的影響。對校正后的遙感影像在ArcGIS軟件中解譯為二值分割圖,其中黃色像素代表陸地、藍(lán)色像素代表海洋。將遙感影像與二值圖的尺寸分別裁剪為256像素×256像素, 圖像裁切時(shí)每個(gè)實(shí)驗(yàn)數(shù)據(jù)集之間彼此不相重合。裁切后的數(shù)據(jù)按 8︰1︰1隨機(jī)劃分。通過以上操作, 得到訓(xùn)練集包含984個(gè)樣本, 驗(yàn)證集包含123個(gè)樣本, 測試集包含123個(gè)樣本和每個(gè)樣本所對應(yīng)的二值圖標(biāo)簽。訓(xùn)練樣本及其二值圖示例如圖7所示。
圖6 GF-1 PMS影像處理流程Fig. 6 GF-1 PMS processing flowchart
圖7 數(shù)據(jù)集實(shí)例Fig. 7 Instances of the dataset
適應(yīng)矩估計(jì)(adaptive moment estimation, Adam)作為優(yōu)化器最小化損失, 每次迭代前隨機(jī)打亂(shuffle)訓(xùn)練集。
將改進(jìn)U-Net模型在高分遙感數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)驗(yàn)環(huán)境如表2所示, 訓(xùn)練參數(shù)如表3所示。使用自
表2 實(shí)驗(yàn)環(huán)境Tab. 2 Experimental environments
表3 訓(xùn)練參數(shù)Tab. 3 Training parameters
選用總體精度、均交互比和F1分?jǐn)?shù)3個(gè)指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行定量評價(jià)。
總體精度是正確分類的像素(不考慮類別)與像素總數(shù)之比, 計(jì)算公式為:
交并比(intersection over union, IoU)表示預(yù)測值與真實(shí)值之間的交集與預(yù)測值與真實(shí)值之間的并集的比值, 均交互比表示所有類的平均交互, 是語義分割的標(biāo)準(zhǔn)度量。
公式(5)和公式(6)中:TP(True Positives)、TN(True Negatives)、FP(True Negatives)、FN(True Negatives)代表意義如表4所示, 其中TP代表預(yù)測為正樣本,并且預(yù)測正確;TN代表預(yù)測為負(fù)樣本, 而且預(yù)測正確;FP代表預(yù)測為正樣本, 但是預(yù)測錯(cuò)誤;FN代表預(yù)測為負(fù)樣本, 但是預(yù)測錯(cuò)誤。k表示樣本類別數(shù)量,本研究中為2。
表4 精度評價(jià)混淆矩陣Tab. 4 Confusion matrix for accuracy evaluation
F1分?jǐn)?shù)是精確度(presicion)與召回率(recall)的調(diào)和平均數(shù), 能夠綜合反映算法對正負(fù)樣本的識別與區(qū)分能力。F1分?jǐn)?shù)的公式如下
在相同的實(shí)驗(yàn)環(huán)境下, 對SegNet、經(jīng)典U-Net網(wǎng)絡(luò)與本文提出的改進(jìn)U-Net網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn)。為了直觀地展示對比結(jié)果, 本研究分別選取了人工岸線與自然岸線的幾個(gè)典型區(qū)域進(jìn)行分析比較。海陸分割結(jié)果如圖8和圖9所示。
圖8 3個(gè)典型人工岸線區(qū)域分割結(jié)果的視覺對比Fig. 8 Visual comparison of segmentation results in three typical artificial shoreline areas
圖9 4個(gè)典型自然岸線區(qū)域分割結(jié)果的視覺對比Fig. 9 Visual comparison of segmentation results in four typical natural shoreline areas
由圖8c可知, 本文所采用的改進(jìn)U-Net對人工岸線分割結(jié)果的整體視覺感知最優(yōu)。與經(jīng)典U-Net和SegNet相比, 改進(jìn)U-Net可以獲得更多的空間一致性結(jié)果。在圖8d中, 經(jīng)典U-Net在早期的低級信息提取過程中, 由于感受野小, 無法識別跨海大橋的細(xì)長結(jié)構(gòu)和復(fù)合型岸線的細(xì)節(jié)特征。在圖8e中, SegNet丟失了岸線的邊界信息, 因此識別結(jié)果中出現(xiàn)了破裂和模糊現(xiàn)象, 識別效果最差。平整型岸線是一個(gè)包含水產(chǎn)養(yǎng)殖池塘和裸地的海岸帶, 由于水產(chǎn)養(yǎng)殖池塘和海水具有相似的光譜特征, SegNet將水產(chǎn)養(yǎng)殖池塘分類為海水。與其他方法相比, 改進(jìn)U-Net具有更大的感受野, 能夠提取岸線的空間結(jié)構(gòu)信息, 避免誤分類。
由圖9d可知, 經(jīng)典U-Net對自然岸線的提取結(jié)果較差, 存在漏檢誤檢現(xiàn)象。在圖9e中, SegNet網(wǎng)絡(luò)對自然岸線的提取結(jié)果也存在與經(jīng)典U-Net網(wǎng)絡(luò)相同的問題, 且其網(wǎng)絡(luò)語義分割的效果更差, 存在更多誤檢、錯(cuò)檢和漏檢現(xiàn)象。對于基巖型自然岸線,SegNet在識別過程中將大型山體形成的陰影錯(cuò)誤地識別為水體信息。經(jīng)典U-Net網(wǎng)絡(luò)在分割完整度上總體要優(yōu)于SegNet網(wǎng)絡(luò), 但在內(nèi)部區(qū)域會(huì)出現(xiàn)空洞現(xiàn)象, 對于曲折的自然岸線不能完整識別, 存在漏檢現(xiàn)象, 邊界分割不精細(xì), 同樣會(huì)將高山陰影錯(cuò)誤識別為水體。對于砂質(zhì)岸線, 在訓(xùn)練集中將砂質(zhì)灘涂標(biāo)記為陸地, 經(jīng)典U-Net和SegNet丟失了灘涂的結(jié)構(gòu)信息, 導(dǎo)致灘涂區(qū)域被識別為海域, 且SegNet的識別結(jié)果噪音較多。粉砂淤泥質(zhì)岸線和河口型岸線都是包含大量養(yǎng)殖池的沿海地區(qū)。水產(chǎn)養(yǎng)殖池塘和海水具有相似的光譜特征, 而由淤泥構(gòu)成的淺灘在光譜特征上與陸地相似, 因此經(jīng)典U-Net和SegNet方法會(huì)將水產(chǎn)養(yǎng)殖池塘和一些淺灘誤分為海水。在圖9d和圖9e中, 模型提取的陸地邊界與水產(chǎn)養(yǎng)殖池塘的邊界沒有很好地對齊, 這可能是因?yàn)樵敿?xì)信息沒有直接傳播到SegNet和經(jīng)典U-Net中的解碼器。由圖9c可知, 改進(jìn)U-Net網(wǎng)絡(luò)能很好地保留邊界信息, 其語義分割效果最好, 自然岸線之間不存在黏連, 漏檢、錯(cuò)檢現(xiàn)象較少。
表5顯示了上述方法在測試集上的定量結(jié)果。從實(shí)驗(yàn)結(jié)果數(shù)據(jù)來看, 本文提出的改進(jìn)U-Net網(wǎng)絡(luò)在3個(gè)指標(biāo)上都有最好的結(jié)果。與SegNet相比, 改進(jìn)的U-Net在總體精度、均交互比和F1分?jǐn)?shù)分別提升了4.25%、6.62%和11.28%; 與經(jīng)典U-Net網(wǎng)絡(luò)分割結(jié)果相比, 3項(xiàng)指標(biāo)分別提升了2.31%、2.17%和2.93%。綜上所述, 改進(jìn)的U-Net網(wǎng)絡(luò)可以較好地對海陸進(jìn)行語義分割。
表5 網(wǎng)絡(luò)模型的精度對比Tab. 5 Comparison of the network model accuracy
本文在經(jīng)典U-Net網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上, 通過引入BN算法和轉(zhuǎn)置卷積, 提出一種改進(jìn)的海陸分割模型,可以實(shí)現(xiàn)基于遙感影像的像素級的分割預(yù)測。將改進(jìn)的U-Net與經(jīng)典 U-Net和SegNet模型進(jìn)行了比較比較。實(shí)驗(yàn)結(jié)果顯示, 將BN算法和轉(zhuǎn)置卷積加入到網(wǎng)絡(luò)中, 可以有效降低調(diào)參難度并顯著提高邊緣分割精度。結(jié)果表明:
本研究提出的改進(jìn)U-Net網(wǎng)絡(luò)模型具有優(yōu)異的海陸分割性能, 在精度評價(jià)指標(biāo)總體精度、均交互比和F1分?jǐn)?shù)分別達(dá)到了98.81%、96.17%和91.94%, 在海陸分割及岸線提取上體現(xiàn)出優(yōu)越的特性。
相對于經(jīng)典 U-Net、SegNet模型, 本研究提出的改進(jìn)U-Net網(wǎng)絡(luò)模型方法有效提高了研究區(qū)弱邊界(自然海岸線)和強(qiáng)邊界(人工海岸線)的提取精度以及邊界分割完整度, 能夠更好地區(qū)分陰影與水體,漏檢、錯(cuò)檢現(xiàn)象較少, 可以更有效避免誤分類。
由于高分辨率遙感圖像復(fù)雜的紋理和密集分布,傳統(tǒng)的基于人工特征提取和圖像處理的方法難以得到較好的提取精度。改進(jìn)的U-Net神經(jīng)網(wǎng)絡(luò)可以更好提取地物本質(zhì)特征, 更準(zhǔn)確挖掘高分遙感影像的空間分布特征、紋理特征以及光譜特征, 從而提升分類的準(zhǔn)確性。