陳宇楊,張 麗,陳博偉,邱玉寶
(1.桂林電子科技大學(xué)信息與通信學(xué)院,桂林 541004;2.中國科學(xué)院空天信息創(chuàng)新研究院,中國科學(xué)院數(shù)字地球重點(diǎn)實(shí)驗(yàn)室,北京 100094;3.中國-東盟地球大數(shù)據(jù)區(qū)域創(chuàng)新中心,南寧 530022;4.可持續(xù)發(fā)展大數(shù)據(jù)國際研究中心,北京 100094)
據(jù)聯(lián)合國糧食及農(nóng)業(yè)組織(FAO)統(tǒng)計(jì)數(shù)據(jù)顯示,全球水產(chǎn)養(yǎng)殖業(yè)為超過33 億人提供了人均動(dòng)物蛋白攝入量的20%。2018 年,全球捕撈漁業(yè)產(chǎn)量達(dá)到創(chuàng)記錄的9640 萬噸,比前三年的平均值增加5.4%[1]。因此,水產(chǎn)養(yǎng)殖作為人類所需蛋白質(zhì)的重要來源之一,在世界糧食安全中發(fā)揮著關(guān)鍵作用。從20 世紀(jì)中葉開始,中國沿海水產(chǎn)養(yǎng)殖區(qū)迅速擴(kuò)張,導(dǎo)致周圍土地利用競爭激烈,在產(chǎn)生巨大經(jīng)濟(jì)效益的同時(shí)也對(duì)沿岸生態(tài)環(huán)境造成了一定的破壞,如近岸濕地的萎縮或消失、自然棲息地的破壞、生物多樣性的喪失以及海岸帶地區(qū)生態(tài)修復(fù)能力衰退[2-4]。因此,準(zhǔn)確、快速地了解近岸地區(qū)養(yǎng)殖池塘的空間分布,對(duì)水產(chǎn)養(yǎng)殖的空間布局優(yōu)化、自然資源的科學(xué)管理以及生態(tài)環(huán)境的保護(hù)至關(guān)重要。
衛(wèi)星遙感技術(shù)的快速發(fā)展,為實(shí)現(xiàn)近岸養(yǎng)殖池塘準(zhǔn)確、高效的提取提供了可靠的數(shù)據(jù)支持。它能夠克服傳統(tǒng)野外調(diào)查的不足,是監(jiān)測(cè)和研究海岸帶生態(tài)環(huán)境的重要手段[5-6]。目前,基于遙感影像提取水產(chǎn)養(yǎng)殖區(qū)的方法主要有基于像素、面向?qū)ο蟮膱D像分析、機(jī)器學(xué)習(xí)算法以及深度學(xué)習(xí)算法。其中,基于傳統(tǒng)的基于像素、面向?qū)ο蟮膱D像分析,在某一特定區(qū)域中表現(xiàn)出了良好的識(shí)別能力,如馬艷娟等[7]構(gòu)建水體指數(shù)和波段運(yùn)算函數(shù)用于近海水產(chǎn)養(yǎng)殖區(qū)的提取;呂巷艷等[8]采用歸一化差異水體指數(shù)結(jié)合閾值的方法提取金沙縣養(yǎng)殖水體信息;裴亮等[9]將歸一化差異池塘指數(shù)與面向?qū)ο蠓椒ㄏ嘟Y(jié)合,對(duì)天津海岸養(yǎng)殖區(qū)進(jìn)行提取。但在面對(duì)復(fù)雜水域,出現(xiàn)“同譜異物”現(xiàn)象時(shí),僅依靠光譜特征差異性容易導(dǎo)致錯(cuò)分,且其存在無法克服的“椒鹽”噪聲[10]。而面向?qū)ο蟮姆诸惙椒?,雖然可以有效抑制“椒鹽”噪聲,但它的分割參數(shù)選取往往取決于研究人員的經(jīng)驗(yàn)知識(shí)且需要反復(fù)實(shí)驗(yàn)[11]。
機(jī)器學(xué)習(xí)算法雖然已被研究人員廣泛應(yīng)用于遙感圖像識(shí)別與分類領(lǐng)域并取得不錯(cuò)的成效,但其存在特征選擇上需要研究人員具備專業(yè)知識(shí)、算法結(jié)構(gòu)較淺難以提高分類精度、自動(dòng)化程度難以滿足需求等問題[12]。近年來,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域取得了巨大成功,相關(guān)遙感學(xué)者也開始將其應(yīng)用于遙感圖像語義分割領(lǐng)域,為實(shí)現(xiàn)近海水產(chǎn)養(yǎng)殖區(qū)識(shí)別開辟了另一條途徑。如Cheng 等[13]通過擴(kuò)大感受野來增強(qiáng)網(wǎng)絡(luò)模型學(xué)習(xí)高層特征的能力,提高了籠式養(yǎng)殖區(qū)和筏式養(yǎng)殖區(qū)的提取精度;Fu 等[14]采用層次級(jí)聯(lián)結(jié)構(gòu)并引入注意力機(jī)制來優(yōu)化特征空間,對(duì)不同種類的海水養(yǎng)殖區(qū)進(jìn)行區(qū)分;茍杰松等[15]基于Deeplabv3+構(gòu)建水產(chǎn)養(yǎng)殖水體語義分割模型;Sui 等[16]采用 ASPP 結(jié)構(gòu),能夠有效捕捉到海上筏式養(yǎng)殖區(qū)的多尺度信息,提高浮筏養(yǎng)殖區(qū)的提取精度。此類方法能夠克服傳統(tǒng)方法出現(xiàn)的“同譜異物”現(xiàn)象,改善了水產(chǎn)養(yǎng)殖區(qū)提取的邊緣模糊問題。
基于深度學(xué)習(xí)方法提取水產(chǎn)養(yǎng)殖區(qū)具有準(zhǔn)確、高效等特點(diǎn)。然而,上述的研究中大多是對(duì)海上的浮筏養(yǎng)殖區(qū)進(jìn)行提取,相對(duì)于養(yǎng)殖池塘的自然地理環(huán)境背景更為單一,淺層的卷積神經(jīng)網(wǎng)絡(luò)模型在復(fù)雜背景情況下提取養(yǎng)殖池塘容易產(chǎn)生冗余信息,網(wǎng)絡(luò)模型的泛化能力和魯棒性表現(xiàn)不足。為提升遙感語義分割模型對(duì)養(yǎng)殖池塘的識(shí)別率,本文提出了一種基于U-Net改進(jìn)的近岸養(yǎng)殖池塘自動(dòng)提取模型,并與FCN[17]、E-Net[18]和 U-Net[19]等經(jīng)典語義分割模型進(jìn)行比較,驗(yàn)證改進(jìn)U-Net模型的有效性,以期為該領(lǐng)域相關(guān)研究的進(jìn)一步發(fā)展提供參考價(jià)值。
本文的研究區(qū)為廣西北部灣的官寨海和安鋪港兩個(gè)典型的規(guī)模化集聚型養(yǎng)殖區(qū)。如圖1所示,地理坐標(biāo)范圍為 109°49'~109°56'E,21°25'~21°30'N。研究區(qū)內(nèi)養(yǎng)殖池塘主要位于海涂等低洼地區(qū),一般是封閉的水體,形狀近似矩形。研究區(qū)域內(nèi)河流、水田、建設(shè)用地等多種不同的地物類型廣泛分布,對(duì)養(yǎng)殖池塘提取任務(wù)造成一定挑戰(zhàn)。
圖1 研究區(qū)
數(shù)據(jù)源采用歐空局提供的Sentinel-2 多光譜掃描成像(multispectral scan imaging)遙感數(shù)據(jù)。Sentinel-2任務(wù)包含了2A、2B兩顆同時(shí)運(yùn)作的相同衛(wèi)星,重訪周期為5 天,掃描幅寬為290 km,空間分辨率為10 m。首先在Google Earth Engine平臺(tái)上完成影像的數(shù)據(jù)預(yù)處理工作,得到覆蓋研究區(qū)域2020年6月的Sentinel-2 MSI(Level-2A)影像數(shù)據(jù),包含紅、綠、藍(lán)、近紅外4 個(gè)波段,像素大小為7696×7059。然后利用ArcGIS 軟件對(duì)經(jīng)過預(yù)處理的影像進(jìn)行養(yǎng)殖池塘的標(biāo)注,將其Id字段值設(shè)置為255。為防止計(jì)算機(jī)內(nèi)存溢出,采用隨機(jī)裁剪方法對(duì)影像進(jìn)行裁剪,最終得到2100張像素大小為256×256的圖像,按照8∶2比例制作為訓(xùn)練集和驗(yàn)證集。
由于遙感圖像的復(fù)雜環(huán)境背景干擾,目前的一些算法難以對(duì)養(yǎng)殖池塘進(jìn)行準(zhǔn)確的分割,因此本文對(duì)U-Net模型進(jìn)行改進(jìn),得到更加適用于養(yǎng)殖塘分割的新算法。
U-Net 是一種基于FCN 的改進(jìn)型模型。如圖2 所示,它是一個(gè)對(duì)稱的網(wǎng)絡(luò)結(jié)構(gòu),包含了左側(cè)編碼器、右側(cè)解碼器以及中間的跳躍連接。其中,編碼部分用于圖像的特征提取,解碼部分則逐步將編碼得到的特征圖恢復(fù)到原始圖像大小。因此,整個(gè)網(wǎng)絡(luò)的性能直接受編碼端的特征提取能力和解碼端的圖像恢復(fù)能力的影響。在本研究中,U-Net 模型是一個(gè)重要的結(jié)構(gòu)和關(guān)鍵技術(shù),它能夠有效地進(jìn)行圖像語義分割任務(wù),提高圖像處理的準(zhǔn)確性和效率。
圖2 U-Net模型
本文提出的改進(jìn)U-Net 模型主要是在U-Net模型基礎(chǔ)上進(jìn)行改進(jìn),將提出的DC 結(jié)構(gòu)代替U-Net 的傳統(tǒng)卷積層,使模型具有更強(qiáng)的特征提取能力。改進(jìn)U-Net 模型包括編碼部分、解碼部分以及跳躍連接,采用的操作包括卷積操作(DC 結(jié)構(gòu))、上采樣(Up-Sampling)、最大池化(Max-Pooling)、跳躍連接(skip connection),其結(jié)構(gòu)如圖3所示。
圖3 改進(jìn)U-Net模型
原始U-Net 網(wǎng)絡(luò)的編碼部分:編碼部分可劃分為5級(jí),每級(jí)都是由2個(gè)3×3卷積、1 個(gè)ReLU 激活函數(shù)、1 個(gè)最大池化層組成。而改進(jìn)U-Net 模型中,編碼部分也分為5 級(jí),每級(jí)均由DC 結(jié)構(gòu)組成。DC 結(jié)構(gòu)主要是由Inception 模塊、空洞殘差結(jié)構(gòu)以及跳躍連接構(gòu)成,它使得模型能夠更好地對(duì)圖像特征進(jìn)行多尺度提取,保證網(wǎng)絡(luò)模型對(duì)特征的穩(wěn)定表達(dá)。并且,在每一個(gè)卷積層后面用ReLU 層加快模型的收斂速度以及使用BN 層緩解網(wǎng)絡(luò)的梯度消失問題。最后,在DC結(jié)構(gòu)的后面通過最大池化操作進(jìn)行降采樣。
原始U-Net網(wǎng)絡(luò)的解碼部分:解碼部分也可劃分為5級(jí),前4級(jí)都是由上采樣、3×3卷積組成,第5級(jí)為輸出層。在改進(jìn)U-Net模型中,解碼部分全部使用DC結(jié)構(gòu)代替原來的卷積層,同時(shí),與原來的U-Net網(wǎng)絡(luò)一樣,仍然使用1×1卷積將最后一層的輸出特征向量映射為一個(gè)類標(biāo)簽。
為了更準(zhǔn)確地識(shí)別遙感影像中大小不同的養(yǎng)殖池塘,本文提出了一種多尺度特征提取結(jié)構(gòu)(DC 結(jié)構(gòu))。該結(jié)構(gòu)由Inception[20]模塊、空洞殘差模塊和跳躍連接組成,其結(jié)構(gòu)如圖4 所示。DC 結(jié)構(gòu)能夠有效提取養(yǎng)殖池塘的特征信息,加強(qiáng)特征表達(dá)能力,提升遙感影像中養(yǎng)殖池塘部分的識(shí)別精度和效率。
圖4 DC結(jié)構(gòu)
如圖4 所示,首先,輸入特征經(jīng)過Inception模塊的四個(gè)分支,每個(gè)分支分別進(jìn)行1×1 卷積、3×3 卷積、5×5 卷積、7×7 卷積,捕捉到不同尺度的圖像特征,然后通過Concatenate 拼接操作進(jìn)行特征融合并輸入到空洞率為3的空洞殘差模塊中,進(jìn)一步對(duì)融合后的信息進(jìn)行提取,最后通過一個(gè)長跳躍連接將輸入和輸出進(jìn)行融合。DC 結(jié)構(gòu)能夠提取不同尺度的特征信息,增強(qiáng)了模型對(duì)特征的復(fù)用和表達(dá)的準(zhǔn)確性,降低模型訓(xùn)練過擬合風(fēng)險(xiǎn),有效地提升了識(shí)別精度。
該實(shí)驗(yàn)使用的仿真平臺(tái)為PyCharm,使用keras 及其 TensorFlow 端口,運(yùn)用 Python 語言編程。計(jì)算機(jī)配置為Intel(R)CoreTM i7-10700F CPU@2.90 GHz,64.0 GB 內(nèi)存,NVIDIA GeForce GTX 3060,采用 64 位操作系統(tǒng)Windows10,Python3.6。為了客觀地分析本文中養(yǎng)殖池塘提取模型的性能,實(shí)驗(yàn)中模型統(tǒng)一使用了Adam 優(yōu)化器、初始學(xué)習(xí)率為0.0001、批量大小設(shè)置為8、迭代周期為80次。
為綜合評(píng)估改進(jìn)U-Net 模型的有效性,實(shí)驗(yàn)使用了四種精度評(píng)估指標(biāo),包括精確率(Precision)、召回率(Recall)、交并比(Intersectionover-Union,IoU)和 F1 分?jǐn)?shù)(F1-Score)。其中,精確率表示模型預(yù)測(cè)為正例的樣本中,實(shí)際為正例的樣本所占的比例;Recall表示實(shí)際為正例的樣本中,模型正確預(yù)測(cè)為正例的樣本所占的比例;IoU 表示模型預(yù)測(cè)的邊界框與真實(shí)邊界框的重疊程度;F1-score 是精確率和召回率的調(diào)和平均數(shù),用于綜合評(píng)估模型的性能。以上評(píng)價(jià)指標(biāo)的計(jì)算公式如式(1)~(4)所示。
其中,真正例(TP)表示模型預(yù)測(cè)結(jié)果和實(shí)際情況都為正例;假正例(FP)表示實(shí)際情況為反例,但是預(yù)測(cè)結(jié)果為正例;假反例(FN)表示實(shí)際情況為正例,但是預(yù)測(cè)結(jié)果為反例;真反例(TN)表示實(shí)際情況和預(yù)測(cè)結(jié)果都為反例。
為了評(píng)估本文提出的改進(jìn)后的U-Net模型的優(yōu)越性,并驗(yàn)證該模型中每個(gè)模塊的有效性,本文進(jìn)行了消融實(shí)驗(yàn)。該實(shí)驗(yàn)都在同一臺(tái)機(jī)器上進(jìn)行,使用相同的數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證,并采用相同的參數(shù)設(shè)置,以確保消融實(shí)驗(yàn)的結(jié)果可靠。其中,①U-Net:是沒有任何改進(jìn)的原始U-Net模型;②U-Net_1:在U-Net基礎(chǔ)上加入空洞殘差模塊;③U-Net_2:在U-Net 基礎(chǔ)上加入Inception 模塊;④U-Net_3:本文所提出的改進(jìn)U-Net模型,它加入了本文所提出的DC結(jié)構(gòu)。消融實(shí)驗(yàn)結(jié)果和精度對(duì)比如圖5和表1所示。
表1 消融實(shí)驗(yàn)精度對(duì)比
圖5 消融實(shí)驗(yàn)結(jié)果
在消融實(shí)驗(yàn)中,U-Net_1 模型采用了空洞殘差模塊,相比原始的U-Net 模型,它在精確率、召回率、交并比以及F1 分?jǐn)?shù)上分別提高了3.4、3.43、3.78和2.31個(gè)百分點(diǎn)。這是因?yàn)榭斩礆埐钅K可以增加模型的感受野,從而捕捉更大范圍內(nèi)的特征信息。U-Net_2 模型采用了Inception模塊,它比U-Net模型的精確率、召回率和交并比以及F1 分?jǐn)?shù)上分別提高了3.06、3.38、5.69和3.65 個(gè)百分點(diǎn),這是因?yàn)镮nception 模塊能夠增加模型的寬度,有效提取到養(yǎng)殖池塘的多尺度特征信息。因此,采用空洞殘差模塊的U-Net_1 模型和采用 Inception 模塊的 U-Net_2 模型獲得更高的精度。
與U-Net_1 模型和U-Net_2 模型相比,具有DC 結(jié)構(gòu)的U-Net_3 模型在精確率、召回率以及交并比上得到了進(jìn)一步的提升,說明了DC 結(jié)構(gòu)結(jié)合Inception 模塊的多分支結(jié)構(gòu)以及空洞殘差模塊,既能增加網(wǎng)絡(luò)模型的寬度,又能增大卷積提取的感受野,同時(shí)兩者的結(jié)合減少了空洞卷積在卷積過程中帶來的稀疏性。所以,DC 結(jié)構(gòu)能夠提取到更多有效的不同尺度的特征信息,從而更好地辨別養(yǎng)殖池塘的輪廓。
上述的消融實(shí)驗(yàn)結(jié)果表明,改進(jìn)U-Net模型在養(yǎng)殖池塘信息的提取上優(yōu)于原始U-Net 模型。為了進(jìn)一步驗(yàn)證改進(jìn)U-Net模型的分割性能,將改進(jìn)U-Net 模型與 FCN、E-Net、U-Net 模型進(jìn)行實(shí)驗(yàn)對(duì)比。其不同模型的分割結(jié)果和精度對(duì)比分別如圖6和表2所示。
表2 不同模型的提取結(jié)果精度對(duì)比
圖6 不同模型的養(yǎng)殖池塘提取結(jié)果
從圖6 的分割結(jié)果中可以看出,采用FCN模型的分割結(jié)果明顯差于其他幾種模型,分割結(jié)果噪聲較多,并不能清晰地識(shí)別出養(yǎng)殖池塘,這是因?yàn)镕CN 模型在特征提取過程中采用了連續(xù)下采樣操作,通過不斷降低特征圖的分辨率來擴(kuò)大感受野。然而,這種下采樣操作會(huì)導(dǎo)致分辨率的下降,從而造成一定的信息損失。同時(shí)FCN 模型在上采樣造成的鋸齒狀邊緣也會(huì)影響分割結(jié)果的質(zhì)量。因此,在分割結(jié)果中可能會(huì)出現(xiàn)一些細(xì)節(jié)缺失。E-Net 模型在大型堤防上的分割性能有所提升,是因?yàn)槠洳捎昧硕喑叨忍卣魈崛〉姆椒?,通過引入不同大小的卷積核和不同步長的卷積操作,對(duì)輸入圖像進(jìn)行多尺度的特征提取,從而提高了模型對(duì)圖像的感知能力和分割效果,但是仍然存在部分細(xì)小堤防與養(yǎng)殖池塘直接相連的問題。相比之下,U-Net模型能夠有效消除堤防的影響,提取的養(yǎng)殖池塘邊緣更加清晰,這得益于U-Net模型在上采樣部分與跳躍連接相結(jié)合,逐層融合高層特征和低層特征,填充了一些局部細(xì)節(jié),但在復(fù)雜場(chǎng)景下,與養(yǎng)殖池塘光譜特征相似的海水、湖泊、水庫、河流等仍被錯(cuò)誤歸類,這是因?yàn)轲B(yǎng)殖池塘的形狀和大小不一,而且存在大量的細(xì)節(jié)信息。U-Net 模型在處理這些復(fù)雜目標(biāo)時(shí)會(huì)出現(xiàn)過度擬合或欠擬合的問題,導(dǎo)致分割精度下降。而本文所提出的改進(jìn)U-Net模型結(jié)合了DC結(jié)構(gòu),降低模型訓(xùn)練中的過擬合風(fēng)險(xiǎn),充分考慮了養(yǎng)殖池塘的多尺度信息,能夠更好地捕捉圖像中的細(xì)節(jié)特征,增強(qiáng)了圖像有用信息的表達(dá)。從表2 也能明顯地看到,改進(jìn)U-Net 模型的精確率、召回率、交并比和F1 分?jǐn)?shù)分別為91.73%、90.47%、91.12%和89.91%,要明顯優(yōu)于FCN、E-Net、U-Net 三種模型。綜上,本文的方法能夠解決其他三種模型在提取養(yǎng)殖池塘過程中存在的問題,實(shí)現(xiàn)養(yǎng)殖池塘快速、準(zhǔn)確的提取。
本文基于U-Net模型改進(jìn)提出了一個(gè)近海水產(chǎn)養(yǎng)殖池塘自動(dòng)提取模型,并用本文提出的新DC 結(jié)構(gòu)替代了U-Net 模型的卷積層,它能夠增強(qiáng)模型對(duì)圖像特征的表達(dá)能力,降低冗余信息的干擾。實(shí)驗(yàn)結(jié)果表明,改進(jìn)U-Net模型在精確率、召回率、交并比和F1 分?jǐn)?shù)上都優(yōu)于FCN、E-Net、U-Net 這三個(gè)模型,其中,精確率、召回率、交并比都達(dá)到90%以上,并且改進(jìn)U-Net模型提取的養(yǎng)殖池塘邊緣更為清晰。因此,本文的方法能夠有效提高養(yǎng)殖池塘提取精度,為遙感圖像自動(dòng)分割提供了參考意義。
今后,我們將在以下兩個(gè)重要方向繼續(xù)開展研究:①將探索該模型在光譜信息極弱的遙感圖像上對(duì)養(yǎng)殖池塘的提取效果;②利用不同來源、不同分辨率的遙感數(shù)據(jù)集,研究模型對(duì)不同數(shù)據(jù)集的有效性。