劉粉粉,王賀封,張安兵,李家駒,馬鵬飛
(1.河北工程大學地球科學與工程學院;2.河北工程大學礦業(yè)與測繪工程學院;3.邯鄲市自然資源空間信息重點實驗室,河北邯鄲 056038)
隨著社會經(jīng)濟快速發(fā)展和城市化進程不斷加快,我國土地利用狀況不斷發(fā)生改變[1]。掌握實時可靠的土地利用變化信息,對科學的土地利用規(guī)劃具有重要現(xiàn)實意義。在土地利用變化研究數(shù)據(jù)獲取方面,目前常采用遙感衛(wèi)星方式,該方式適用于大區(qū)域、多時相地面信息監(jiān)測,但由于衛(wèi)星傳感器數(shù)據(jù)采集受時間、空間分辨率及數(shù)據(jù)質量限制,往往無法及時、精細獲取指定區(qū)域用地變化信息。近年來,無人機(Unmanned Aerial Vehicle,UAV)低空技術快速發(fā)展,因其易操作、成本低、獲取數(shù)據(jù)快、分辨率高等特點,逐漸被應用于土地利用分類、精準農(nóng)業(yè)和國土資源監(jiān)測等領域,成為獲取高分辨影像的重要手段之一[2-3]。在信息提取模型研究方面,基于影像數(shù)據(jù)的土地分類方法逐漸發(fā)展成熟[4-5],主要包括監(jiān)督分類、非監(jiān)督分類兩大類型,最大似然法、人工神經(jīng)網(wǎng)絡、支持向量機等不同的分類模型,在土地利用、國土監(jiān)測、植被覆蓋變化等多個領域取得了較好應用效果[6-8]。
近年來,隨著深度學習的快速發(fā)展,語義分割技術的出現(xiàn)為高分辨率影像分類提供了新的更優(yōu)的解決思路[9]。Long 等[10]提出全卷積神經(jīng)網(wǎng)絡(Fully Convolutional Networks,F(xiàn)CN),該模型使用反卷積層替代全連接層,將語義分割精度推向新的高度。Ronnenerger 等[11]提出用于醫(yī)學影像分割的U-net 模型,該模型一經(jīng)問世就在醫(yī)學影像領域取得顯著效果。Chen 等[12-15]提出Deeplab 系列語義分割模型,先后采用條件隨機場(Conditional Random Field,CRF)、金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP),在保證不改變分辨率的條件下擴大感受野,提高了分割目標的邊界效果。DeeplabV3+將編碼器—解碼器(Encoder-Dncoder)結構與ASPP 相結合,在多個公開圖像數(shù)據(jù)集上取得較好分割效果,成為當前綜合性能優(yōu)秀的語義分割算法之一。但該模型是由DeeplabV1-3 發(fā)展而來,繼承了DeeplabV1-3模型的一些缺陷,如模型復雜、訓練速度慢、分割精度低等。針對上述問題,學者們進行了相關研究。劉文萍等[16]提出基于改進的DeeplabV3+模型進行無人機影像土地利用分類,結果表明該方法有較好的分類精度。孟俊熙等[17]以DeeplabV3+為基礎構建了N-DeeplabV3+模型,結果表明改進后的模型有效提高了小尺度目標的關注度,緩解了目標誤分及分割不完全問題,提高了分割精度。王紅軍等[18]提出一種基于SENet 優(yōu)化后的DeeplabV3+淡水魚頭、腹、鰭的語義分割算法,實驗發(fā)現(xiàn)改進后的網(wǎng)絡有效克服了細節(jié)信息丟失問題,達到了準確定位目的。但由于上述研究主要針對DeeplabV3+模型的某一缺陷進行改進,未能從全局性對網(wǎng)絡進行統(tǒng)一改進,因此細節(jié)信息丟失、分割不完全及參數(shù)量大等問題仍然十分突出。
基于此,本文以DeeplabV3+網(wǎng)絡為基礎,提出應用MobileNetV2 替換原始DeeplabV3+模型的主干特征提取網(wǎng)絡的思路,并將CA 注意力加入MobileNetV2 網(wǎng)絡,發(fā)揮各模塊算法優(yōu)勢,以期增強位置信息和空間信息的關系,在保證模型分割精度的同時,大幅度減少模型參數(shù)量,降低模型復雜度,提高模型計算速度。
DeeplabV3+是谷歌公司在DeeplabV1-3 基礎上將金字塔池化模塊(ASPP)與編碼器—解碼器結構相結合而提出的一種新的語義分割模型,是現(xiàn)階段最優(yōu)秀的語義分割算法之一[13]。DeeplabV3+網(wǎng)絡以DeeplabV3 作為編碼器(Encoder),同時又添加解碼器(Decoder),該模型采用ResNet101[19]作為主干特征提取網(wǎng)絡,后連接帶空洞卷積(Atrous Convolution)的金字塔池化模塊(ASPP)進行多尺度信息提取。ASPP 模塊包括一個1×1 卷積、3 個采用不同空洞率(分別為6、12、18)的3×3 空洞卷積和一個全局平均池化操作,在減少下采樣操作和不增加網(wǎng)絡參數(shù)的基礎上保證了空間分辨率,增大了感受野,獲取多尺度信息并進行特征融合以更好地實現(xiàn)對多尺度目標分割;然后通過1×1 卷積對通道進行降維處理并將降維后的特征圖利用雙線性插值方法進行4 倍上采樣后傳入Dncoder 中,在Dncoder內與主干特征提取網(wǎng)絡提取的低層次特征融合,恢復目標的邊界信息;最后利用3×3 卷積恢復空間信息和4 倍雙線性插值上采樣獲取圖像的語義分割結果。通過實驗發(fā)現(xiàn),使用DeeplabV3+網(wǎng)絡對無人機影像進行分割,存在邊緣粗糙、分割不完全等問題。
Fig.1 Improved DeeplabV3+network圖1 改進的DeeplabV3+網(wǎng)絡
MobileNetV1 是谷歌公司推出的一種輕量級計算機視覺神經(jīng)網(wǎng)絡,與其他網(wǎng)絡模型相比,該網(wǎng)絡降低了模型參數(shù)量,這一優(yōu)勢得益于該網(wǎng)絡采用了深度可分離卷積(Depthwise separable convolution)[21]。深度可分離卷積是一種分步式卷積,第一層為通道卷積:對每個輸入通道應用單通道的輕量級濾波器;第二層稱為逐點卷積:負責計算輸入通道的線性組合,構建新特征。MobileNetV2 是在MobileNetV1 網(wǎng)絡基礎上改進而來,MobileNetV1 網(wǎng)絡主要思想是將深度可分離卷積進行堆疊,而MobileNetV2 中除了繼續(xù)使用可分離卷積結構外,還做了線性瓶頸和反向殘差改進。反向殘差[22]結構先通過擴展層擴展維度,再使用深度可分離卷積提取特征,最后使用投影層壓縮數(shù)據(jù),使網(wǎng)絡重新變小,整個網(wǎng)絡中間胖、兩頭窄,呈沙漏形狀。反向殘差結構由原始的先做深度卷積再做點卷積變?yōu)橄茸鳇c卷積再做深度卷積,最后再做一次點卷積的運算方式,這種操作使得網(wǎng)絡能夠較好地提取信息且不會增加過多計算量。線性瓶頸是用在反殘差塊最后一次點卷積中,使用線性卷積代替原始卷積與ReLU 函數(shù)的組合,有助于信息保留,并且將通道卷積和點卷積的激活函數(shù)也調整為ReLU6。
近年來,注意力機制被廣泛應用于深度學習的各個方面,尤其是在圖像分割和目標識別領域。一般認為,特征圖的每個通道都同等重要,并沒有區(qū)分各通道的優(yōu)先級和重要程度。SENet[23]注意力機制通過對不同的通道賦予不同的權重,達到對重要特征進行強化學習的目的,但SENet在賦予通道權重時忽略了位置信息,而位置信息對空間選擇性的Attention Map 十分重要。為此,本文選擇了CA(Coordinate Attention)注意力機制,它不僅考慮了通道之間的關系,還考慮了特征空間的位置信息。
CA[24]是一種具有輕量級屬性的注意力方法,它有效捕獲了位置信息和通道信息的關系。CA 可以被看作一個旨在增強網(wǎng)絡學習特征表達力的計量單位,它可以對網(wǎng)絡中的任意特征向量X=[x1,x2,.....,xc] ∈RH×W×C進行轉化變換,輸出與X 大小相同的具有增強表示的變換張量Y=[y1,y2,......,yc] ∈RH×W×C。CA 注意力通過精確的位置信息對通道關系和長期依賴性進行編碼,其具體操作可分為Coordinate 信息嵌入和Coordinate Attention 生成。為了獲取圖像寬度和高度上的注意力并對精確位置信息進行編碼,分別從寬度和高度兩個方向上對特征圖進行加強,獲得兩個方向上的特征圖。Coordinate Attention 結構如圖2所示。
Fig.2 Structure of Coordinate Attention圖2 Coordinate Attention結構
(1)Coordinate 信息嵌入。為了獲取圖像寬度和高度上的注意力并對精確位置信息進行編碼,先將輸入特征圖分別按照寬度和高度兩個方向分別進行全局平局池化,分別獲得在寬度和高度兩個方向上的特征圖。具體而言,給定輸入X,首先采用(H,1)和(1,W)的池化核分別沿著水平和垂直方向對每個通道進行編碼操作。因此,第c通道的高度為h的輸出可以表示為:
在進行照片創(chuàng)意時,她最為在意的是最終成品的可控性與操作性——“是”與“像”之間、真實與人造之間的矛盾。斯各格蘭德認為,向自然意象轉型尋求靈感,這一點似乎深深根植于美國文化中。
上述兩種變換分別從兩個空間方向對特征進行聚合,得到一對方向感知特征圖。這與SENet中產(chǎn)生單一特征向量的SE block不同。這兩種轉換允許注意力模塊捕捉沿著一個空間方向的長期依賴關系,并保存沿著另一個空間方向的精確位置信息,有助于模型更好地定位感興趣目標。
(2)Coordinate Attention 生成。通過式(1)、式(2),可以很好地獲得全局感受野并對精確位置信息進行編碼。為了利用由此產(chǎn)生的特征,通過信息嵌入中的變換后,將式(1)和式(2)產(chǎn)生的聚合特征圖進行拼接操作,然后使用1×1 卷積變換函數(shù)F1對其進行變換操作,此過程稱為Coordinate Attention 生成。
其中,[]是沿空間維度的拼接操作,δ為非線性激活函數(shù),f∈RC/r×(H+W)是在水平方向和垂直方向對空間信息進行編碼的中間特征圖,r是用來控制SE block 大小的縮減率。沿著空間維度將f分解為2 個獨立的張量f h∈RC/r×H和f w∈RC/r×W,再利用另外兩個1×1 卷積變換Fh和Fw分別將fh和fw變換為具有相同通道數(shù)的張量到輸入X,得到:
其中,δ是Sigmoid 激活函數(shù)。為了降低模型復雜性和計算開銷,通常使用適當?shù)目s減比r來縮小f的通道數(shù),然后對輸出gh和gw進行擴展,分別作為注意力權重。最后Coordinate Attention 塊的輸出Y=[y1,y2,...yc]可以寫成:
本次實驗的研究區(qū)為岳城水庫附近的居民區(qū),位于河北省磁縣,其地理坐標位于114.07°~114.22°E、36.25°~36.35°N 之間,如圖3所示,考慮到地物類型豐富程度,經(jīng)數(shù)據(jù)篩選處理后,在研究區(qū)內選取3 塊地物類型不盡相同的實驗區(qū)。
采用型號為安爾康姆“md4-1000”四旋翼無人機,搭載索尼“A6000”相機進行數(shù)據(jù)采集;使用mdCockpit3.5 軟件進行航線設計,無人機飛行高度為150~200 m,航向重疊率度為80%,旁向重疊度為70%,布設像控點并進行測量;在確保天氣和啟航條件滿足要求時進行外業(yè)航攝;基于獲取的無人機照片、pos 信息及像控點坐標,采用Pix4DMapper軟件進行數(shù)據(jù)處理,得到研究區(qū)域正射影像。
Fig.3 Schematic diagram of the study area圖3 研究區(qū)域示意圖
考慮到計算機負荷及訓練時間,參考公共遙感數(shù)據(jù)集,對無人機影像進行重采樣。為了快速制作出符合實驗要求的切片,借助相關軟件進行快速裁剪,將無人機影像裁剪為512 pixel×512 pixel,并將原始圖像按7∶3 隨機分為訓練集和測試集。結合目視解譯和實地調查,利用EISeg軟件對無人機數(shù)據(jù)集進行標注,如圖4 土地利用分類標注示例,制作成滿足訓練條件的岳城水庫居民區(qū)土地利用分類信息數(shù)據(jù)集。數(shù)據(jù)集共包含建筑物、水體、道路、農(nóng)業(yè)用地、林地、其他用地等6 種類型,各用地類型所占像素百分比分別為24%、1%、9%、31%、28%和7%。為了得到泛化能力更強的模型,提高分類精度,防止因數(shù)據(jù)集過小而導致的過擬合問題,本文模型及對比模型均采用五折交叉驗證的方式,最后使用測試集對最優(yōu)模型進行測試。采取隨機旋轉、平移、模糊、加噪等方法對訓練集進行增強,增強后的圖片共有1 521 張,其中訓練集1 400 張,測試集121張。
Fig.4 Schematic diagram of land use classification annotation圖4 土地利用分類標注示示意圖
實驗環(huán)境為64 位Windows 操作系統(tǒng),CPU 為Intel Core i7-9700K,內存為3.6GHz @128G,顯卡為RTX 2080Ti 12G,硬盤為Samsung SSD 2TB,使用的深度學習框架為Pytorch。訓練過程中設置批大?。╞atch_size)為6,迭代次數(shù)為300 個周期(epoch),學習率初始化為0.000 5,weight_decay 為0.000 1,使用Adam 優(yōu)化器進行迭代更新參數(shù),Adam可動態(tài)調節(jié)學習率,使學習率更貼近當前參數(shù)更新狀態(tài),從而讓模型更好地收斂。
為了衡量網(wǎng)絡性能,采用像素準確度(Pixel Accuracy,PA)、平均像素準確率(Mean Pixel Accuracy,MPA)、交并比(Intersection over Union,IoU)和平均交并比(mean Intersection over Union,mIoU)作為圖像語義分割性能的評價指標。其中,PA 表示預測正確的像素點與總像素點的比值,MPA表示計算每個類被正確分類的像素總數(shù)與每個類別總數(shù)比率求和得到的均值,其計算公式分別為:
作為語義分割性能的評價指標,IoU 是衡量模型性能的常用評價指標,交并比用于計算某一類別真實值和預測值兩個集合的交集與并集的比值;mIoU 是對IoU 的進一步提升,為計算得到的每個類別IoU 的平均值,其計算公式分別為:
其中,k表示標簽的類別;k+1 表示包含空類或背景的總類別;pij表示本屬于i類但預測為j類的像素點總數(shù);pii表示真正例,即模型預測為正例,實際為正例;pij表示假正例,即模型預測為正例,實際為反例;pji表示本屬于j類但預測為i類的像素點總數(shù)。mIoU 的值越大,說明預測的分割結果越準確。
2.4.1 網(wǎng)絡驗證實驗
為了驗證輕量級MobileNeV2 網(wǎng)絡在DeeplabV3+模型中的匹配性和表現(xiàn)效果,分別采用ResNet101 和Mobile-NetV2 作為DeeplabV3+模型的特征骨干提取網(wǎng)絡(MN_DeeplabV3+)在岳城水庫數(shù)據(jù)集上進行比較實驗,以mIoU、MPA、模型參數(shù)量作為評價指標,實驗結果如表1 所示。采用ResNet101 作為DeeplabV3+模型的特征骨干提取網(wǎng)絡,評價指標mIoU 為65.10%,MPA 為76.31%,參數(shù)量為226.38MB,而將DeeplabV3+的主干特征提取網(wǎng)絡替換成MobileNetV2 后,mIoU 為66.31%,MPA 為78.28%,參數(shù)量為22.90MB。結果表明,替換主干特征提取網(wǎng)絡后的模型,分割平均像素準確率和平均交并比均比采用Resnet101 網(wǎng)絡略有提升,同時模型參數(shù)量相比于原始DeeplabV3+模型呈現(xiàn)大幅度減少。因此,使用MobileNetV2 作為主干特征提取網(wǎng)絡具有一定優(yōu)勢,不僅提高了模型分割精度和速度,而且參數(shù)量僅為原始網(wǎng)絡的1/10,降低203.48MB。
Table 1 Comparison results of different trunk feature extraction networks表1 不同主干特征提取網(wǎng)絡比較結果
2.4.2 模型比較實驗與分析
為了驗證CA 注意力機制的有效性,在保持實驗環(huán)境和數(shù)據(jù)集不變的條件下,將加入CA 注意力機制的MN_DeeplabV3+模型(MNCA_DeeplabV3+)與DeeplabV3+、SE_DeeplabV3+、MN_DeeplabV3+進行實驗比較。由表2 可知,在平均交并比方面(mIoU),傳統(tǒng)DeeplabV3+模型的平均交并比為65.10%,SE_DeeplabV3+的平均交并比為66.46%,MN_DeeplabV3+的平均交并比為66.31%,而MNCA_DeeplabV3+的平均交并比為70.36%,較傳統(tǒng)的DeeplabV3+算法、SE_DeeplabV3+、MN_DeeplabV3+模型分別提高5.26 個百分點、3.9 個百分點、4.05 個百分點;在平均像素準確度方面(MPA),傳統(tǒng)DeeplabV3+模型的平均像素準確度為76.31%,SE_DeeplabV3+的平均像素準確度為77.45%,MN_DeeplabV3+的平均像素準確度為78.28%,而MNCA_DeeplabV3+的平均像素準確度為80.41%,較傳統(tǒng)的DeeplabV3+模型、MN_DeeplabV3+模型分別提高4.10 個百分點、2.96 個百分點、2.13 個百分點。此外,從不同用地類別的分割精度看(見表2),4 種網(wǎng)絡對于建筑物、農(nóng)業(yè)用地、林地等用地類型均具有較高的分割精度。原因在于,這幾種用地類型目標在數(shù)據(jù)集中所占像素比例較高,能夠取得較好的分割精度,而其他用地類型,所占像素比例較小,且語義特征不明顯,分割精度相對較低。實驗數(shù)據(jù)表明,在MNCA_DeeplabV3+加入CA 注意力機制提高了模型的特征提取能力,對地物的分割精度更高。
Table 2 IoU and PA results of different land use classification表2 不同用地類別的IoU和PA結果
在常見的圖像語義分割模型中,一般模型層數(shù)越多,模型涉及參數(shù)量越大,模型越復雜,模型訓練難度就越大。由表3 可知,相較于傳統(tǒng)DeeplabV3+模型,MNCA_DeeplabV3+模型參數(shù)量降低202.5MB,僅為傳統(tǒng)模型的1/10;相較于SE_DeeplabV3+模型降低185.42MB;相較于MN_DeeplabV3+模型雖然有所增加,但僅為0.98MB,這是由于加入CA 注意力,分割效率受到影響。綜合分析可知,同時兼顧分割精度和分割效率的模型改進難度較大,MNCA_DeeplabV3+模型以較小的檢測速度為代價,換來分割精度的顯著提升,較好地平衡了分割精度和效率,體現(xiàn)了該模型的優(yōu)越性。
為了驗證改進模型的優(yōu)越性,將相同的測試圖片傳入到訓練好的不同模型中,得到各模型分割結果如圖5所示。
Table 3 Comparative experimental results of different models表3 不同模型比較實驗結果
Fig.5 Segmentation and comparison of different network models圖5 不同網(wǎng)絡模型分割比較
比較第一行和第四行圖片,DeeplabV3+、SE_ DeeplabV3+和MN_DeeplabV3+對林地和其他用地分割效果較差,不能真實地反映地物類型,其他用地被錯分為林地,林地被錯分為農(nóng)業(yè)用地;相比較而言,MNCA_DeeplabV3+模型分割結果未出現(xiàn)上述不足,分割效果有所提高,預測結果更加準確。對于用地類別較少的圖像(第1 行),4 種網(wǎng)絡分割效果差異較小,但對于含有地物類別比較豐富的圖像,以上4 種網(wǎng)絡差異比較明顯。對比第2、3、4 行發(fā)現(xiàn),對于地物類別比較豐富的圖像,DeeplabV3+模型分割結果最差,道路和建筑物誤分現(xiàn)象嚴重,存在嚴重的道路分割不連續(xù)現(xiàn)象,林地和水體也出現(xiàn)少數(shù)錯分現(xiàn)象;MC_DeeplabV3+、SE_ DeeplabV3+模型雖然提高了模型分割精度,改善了錯分及道路分割不連續(xù)問題,但效果并不理想,農(nóng)業(yè)用地和林地仍存在誤分或分割不完全現(xiàn)象且有明顯毛邊問題;MNCA_DeeplabV3+網(wǎng)絡的分割效果明顯優(yōu)于其他3 個網(wǎng)絡,該網(wǎng)絡對土地利用類型的分割更加精確,能準確識別出圖像細節(jié)信息,邊緣預測更為清晰,主要表現(xiàn)在道路不連續(xù)現(xiàn)象較少,建筑物輪廓相對規(guī)則,誤分和不完全分割現(xiàn)象相對較少。實驗結果表明,以上4 種模型在分割水體和建筑物方面均表現(xiàn)出優(yōu)越的性能,并且對于類別越少的影像其性能越突出;但對于用地類型較多的影像,MNCA_DeeplabV3+網(wǎng)絡更具有優(yōu)越性和有效性,能較好地識別真實的用地類型。此外,MNCA_DeeplabV3+模型在降低模型參數(shù)量的同時有效解決了道路斷連和分割不完全等問題,細化了目標地物的邊界,提高了目標地物的分割精度,具有更好的地物辨別能力。
為了降低模型的參數(shù)量、提高地物分類精度和提取效果,本文以DeeplabV3+模型為基礎,提出了一種改進的輕量級網(wǎng)絡模型MNCA_DeeplabV3+,并在自制無人機數(shù)據(jù)集上進行對比實驗,結果表明:
(1)MNCA_DeeplabV3+模型采用MobilenetV2 作為主干特征提取網(wǎng)絡,在很大程度上降低模型參數(shù)量,提高了模型計算速度;CA 注意力機制加入MobilenetV2 網(wǎng)絡提升了捕獲空間位置信息能力。通過模型比較實驗表明,注意力機制可以改善模型中存在的分割不完全、道路斷連、邊緣細節(jié)丟失等問題,進一步驗證了MNCA_DeeplabV3+模型優(yōu)越性。
(2)與原始網(wǎng)絡相比,MNCA_DeeplabV3+在選定區(qū)域無人機數(shù)據(jù)信息提取方面表現(xiàn)良好,mIoU、MPA 分別達到70.36%,80.41%,且模型參數(shù)量降至原始網(wǎng)絡的1/10。實驗結果證實,改進后的MNCA_DeeplabV3+模型對該數(shù)據(jù)集具有一定的適用性。
語義分割被廣泛應用于國土監(jiān)測、精準農(nóng)業(yè)等多個領域,進行諸如建筑物、道路提取、土地利用分類等工作。從實驗流程和實驗結果看,本文仍存在以下問題需深入研究:①無人機數(shù)據(jù)集標注工作量大,耗時耗力,后續(xù)將研究采用無監(jiān)督學習等方法解決數(shù)據(jù)集標注問題;②本文實驗區(qū)為高密度人類活動區(qū),考慮人工標注成本和無人機航線多等問題,實驗時僅選取地物類型較豐富的3 塊實驗區(qū)進行土地利用分類研究,代表性不足,未來將進一步豐富無人機影像數(shù)據(jù)集,測試MNCA_DeeplabV3+模型在完整區(qū)域的土地利用分類結果。