朱繼文,席志龍,陳景玨
(1.黑龍江工程學(xué)院 測(cè)繪工程學(xué)院,哈爾濱 150050;2.成都理工大學(xué) 地球科學(xué)學(xué)院,成都 610059)
淡水資源是人類最寶貴的資源之一,據(jù)統(tǒng)計(jì),全球有湖泊數(shù)量3.04億個(gè),面積為420萬km2,蓄水面積33.7萬km2,總計(jì)453.7萬km2,占地球陸地面積3%以上[1],淡水湖泊占陸地面積較少,因此,研究水體分布對(duì)水資源調(diào)查具有重要意義。合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)能穿透云層,可以獲取處于惡劣天氣情況下的影像,應(yīng)用SAR圖像進(jìn)行水體提取逐漸受到眾多學(xué)者青睞[2]。
SAR衛(wèi)星的側(cè)視成像方式使得影像上存在山體陰影,并且SAR影像還存在相干斑噪聲[3],這對(duì)于獲取精確的水體信息造成了極大的困難。監(jiān)督分類和非監(jiān)督分類是水體提取的常用方法,當(dāng)前研究較多的是監(jiān)督分類法[4],主要有最大似然、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(Support Vector Machine,SVM)等。當(dāng)分類器的輸入特征只有雷達(dá)強(qiáng)度影像時(shí),斑點(diǎn)噪聲和山體陰影易被分類成水體,沒有正確被預(yù)測(cè)和分類,出現(xiàn)了誤提取現(xiàn)象,從而影響到水體提取的總體精度。1973年Haralick等[5]提出灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM),基于GLCM可以間接地計(jì)算出圖像的14個(gè)紋理特征。利用SAR圖像的紋理特征可以增加模型的特征空間,極大地提高了模型訓(xùn)練和預(yù)測(cè)精度。然而,特征的增加不會(huì)使得模型精度不斷提高,過多的特征很可能會(huì)使分類模型精度下降,同時(shí)浪費(fèi)計(jì)算機(jī)算力,適當(dāng)?shù)奶卣鲾?shù)量更有利于分類模型訓(xùn)練和預(yù)測(cè)。陳媛媛等[6]在構(gòu)建SVM分類器時(shí),加入了熵、角二階矩、差異性和同質(zhì)性4種紋理特征作為模型因子參與訓(xùn)練,提取了南京市水體初始分布圖,并采用數(shù)字高程模型(Digital Elevation Model,DEM)模擬地形信息消除山體陰影,其結(jié)果表明:紋理特征有效地減少了奇次散射以及淹水期水田與城市水體的混淆。史旭等[7]獲取了汶川地震期間堰塞湖區(qū)域SAR影像,使用平均值、對(duì)比度和差異性3種紋理特征用于構(gòu)建最大似然分類器,并用DEM進(jìn)行仿真以消除大部分山體陰影。鄧瀅等[8]使用同質(zhì)性紋理特征與Freemen-Durden三分量特征,以像元為單位進(jìn)行眾數(shù)投票提取水體信息,其研究表明:同質(zhì)性的加入使得各項(xiàng)精度指標(biāo)都有所提升,提高了小型水體的檢測(cè)率。
文中綜合上述紋理特征對(duì)最后分類結(jié)果的作用,在14個(gè)紋理特征中選取5個(gè),分別是對(duì)比度、差異性、熵、同質(zhì)性和角二階矩。選擇隨機(jī)森林作為提取水體的分類器,用DEM、5種紋理特征和強(qiáng)度圖作為模型的特征空間輸入到隨機(jī)森林中,在像素級(jí)別上進(jìn)行預(yù)測(cè),對(duì)水體信息提取進(jìn)行探究。
武穴市是湖北省黃岡市管轄的一個(gè)縣級(jí)市,地處長(zhǎng)江中游北岸,擁有長(zhǎng)江十大深水良港之一的武穴港。武穴北依大別山,南臨長(zhǎng)江,地形包括低山區(qū)、丘陵崗地和沿江平原,地勢(shì)西北高而東南低。其地理范圍在29°49′28″N~30°13′10″N和115°22′03″E~115°49′45″E之間。2020年6月至8月,我國(guó)多地暴雨黃色預(yù)警,長(zhǎng)江干流先后也發(fā)布了5次編號(hào)洪水,為此,以2020年7月20日的Sentinel-1A雷達(dá)影像為基本底圖,使用隨機(jī)森林模型,提取了武穴市的水體信息圖。
歐洲太空局于2014年發(fā)射了Sentinel-1A衛(wèi)星,采用C波段對(duì)地球進(jìn)行觀測(cè),是“哥白尼計(jì)劃”發(fā)射的第一顆環(huán)境監(jiān)測(cè)衛(wèi)星。其設(shè)計(jì)軌道高度約693,重訪周期為12 d。該衛(wèi)星搭載的傳感器共有4種成像模式,分別為超寬幅模式(EW)、條帶模式(SM)、波模式(WV)和寬幅模式(IW)。文中實(shí)驗(yàn)數(shù)據(jù)為Sentinel-1A雷達(dá)影像,獲取了2020年7月20日覆蓋武穴市Sentinel-1A寬幅模式VH極化影像,所使用的影像數(shù)據(jù)經(jīng)過多視、濾波、地理編碼和輻射校正處理。多視和濾波能夠有效抑制相干斑噪聲[3,9],在對(duì)數(shù)據(jù)進(jìn)行處理時(shí)使用了5∶1的多視比和3×3窗口Frost濾波[10]。地理編碼和輻射校正利用研究區(qū)的DEM將雷達(dá)坐標(biāo)下的影像轉(zhuǎn)為地理坐標(biāo)系,同時(shí)消除由地形起伏引起的輻射畸變[11]。研究區(qū)域原始影像經(jīng)過處理得到地理編碼后的強(qiáng)度圖如圖1所示。
圖1 強(qiáng)度影像
GLCM是通過研究圖像灰度的空間相關(guān)特性來描述圖像的紋理特征。GLCM通常在0°、45°、90°和135°共4個(gè)方向進(jìn)行計(jì)算,GLCM內(nèi)的元素可由式(1)得出[12]。
p(i,j,δ,θ)={(x,y),(x+dx,y+dy)∈
N×N|f(x,y)=i,f(x+dx,y+dy)=j}.
(1)
假設(shè)圖像大小為N×N,式(1)中(x,y)為參考點(diǎn);(x+dx,y+dy)為偏移點(diǎn);i為參考點(diǎn)灰度值;j為偏移點(diǎn)像素。
基于GLCM可以計(jì)算對(duì)比度(Con)、差異性(Dis)、熵(Ent)、同質(zhì)性(Hom)和角二階矩(Asm)5種紋理特征,計(jì)算公式見式(2)~式(6)。
(2)
(3)
(4)
(5)
(6)
文中使用SAR強(qiáng)度影像作為基本底圖計(jì)算出GLCM,再由GLCM計(jì)算5種紋理特征。將紋理特征、原始強(qiáng)度影像和武穴市DEM作為因子參與水體提取模型的構(gòu)建,因子大致情況如表1所示。
表1 構(gòu)建隨機(jī)森林模型因子
圖2顯示了武穴市5種紋理特征的因子以及DEM因子。
圖2 紋理特征及DEM
圖2(a)可以看到城市區(qū)域和山頂區(qū)域Con值較大,與水體顏色差異明顯,陸地顏色與水體和城市活動(dòng)區(qū)也有明顯的差異,而水體較陸地顏色更深。圖2(b)中水體、地表和城市區(qū)三者之間有明顯的區(qū)分,水體輪廓也完整清晰。圖2(c)和圖2(e)兩因子紋理特征相似,雖然水體與非水體差異明顯,但部分水體的紋理特征與陸地?zé)o異。圖2(d)中水體與陸地具有一定的辨識(shí)度,但在真實(shí)水體區(qū)域離散分布著與陸地相似的紋理特征。圖2(f)中水體分布在海拔較低的區(qū)域,而山體陰影所在的海拔區(qū)域高于水體。
隨機(jī)森林(Random Forest,RF)模型[13]是一種常用的機(jī)器學(xué)習(xí)方法。它是以決策樹(Decision Tree,DT)為弱學(xué)習(xí)器組合而成的集成模型,可以進(jìn)行分類和回歸任務(wù)。文中構(gòu)建的隨機(jī)森林模型使用了100顆CART決策樹組成森林[14],應(yīng)用Bootstrap方法隨機(jī)抽取100個(gè)樣本,將其構(gòu)建100顆決策樹,對(duì)每顆DT的結(jié)果采取一定的投票規(guī)則進(jìn)行集成[15]。
文中以像素為單位,創(chuàng)建包含31 856個(gè)像素點(diǎn)的樣本區(qū)域,提取表1中出現(xiàn)的7個(gè)因子值作為構(gòu)建模型所需的樣本。在進(jìn)行模型訓(xùn)練之前,對(duì)樣本數(shù)據(jù)隨機(jī)打亂,把打亂后的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,比例為7∶3。將最終訓(xùn)練好的模型在測(cè)試集上進(jìn)行測(cè)試,其目的是防止模型在訓(xùn)練集上有突出的表現(xiàn),但是在測(cè)試集上沒有很好的泛化能力會(huì)出現(xiàn)過擬合現(xiàn)象。通過判斷測(cè)試集上預(yù)測(cè)的效果來調(diào)整模型的參數(shù),使得訓(xùn)練出的模型沒有過擬合現(xiàn)象,同時(shí)兼?zhèn)浜芎玫姆夯芰Α?/p>
在使用機(jī)器學(xué)習(xí)方法對(duì)遙感影像進(jìn)行分類后,常用總體精度(Overall Accuracy, OA)、用戶者精度(User’s Accuracy, UP)、生產(chǎn)者精度(Producer’s Accuracy, PP)和Kappa系數(shù)等來評(píng)價(jià)提取結(jié)果的精度[16-18]。上述精度評(píng)價(jià)方法可以通過混淆矩陣計(jì)算得出,見式(7)~式(11)?;煜仃嚾绫?所示。
表2 水體混淆矩陣
在混淆矩陣中,TP為將水體預(yù)測(cè)成水體的個(gè)數(shù);FP為將水體預(yù)測(cè)為非水體的個(gè)數(shù);FN為將非水體預(yù)測(cè)成水體的個(gè)數(shù);TN為將非水體預(yù)測(cè)為非水體的個(gè)數(shù),也將TP、FN、FP和TN稱為真陽性、假陰性、假陽性和真陰性。
(7)
(8)
(9)
(10)
(11)
式(11)中:n為總樣本數(shù);s為在總樣本中被正確分類的個(gè)數(shù);a1和b1分別為預(yù)測(cè)結(jié)果中水體的樣本數(shù);a0和b0分別為預(yù)測(cè)結(jié)果中非水體樣本數(shù)。
使用K最鄰近算法(K-Nearest Neighbor,KNN)、邏輯回歸模型(Logistic Regression,LR)以及只有強(qiáng)度圖構(gòu)建的RF模型(Power RF,PRF)進(jìn)行水體提取,并與所構(gòu)建的隨機(jī)森林模型進(jìn)行比較。圖3~圖6分別為KNN、LR、PRF和RF的水體提取結(jié)果。將4種模型提取水體的結(jié)果與原始強(qiáng)度圖(見圖1)比較,可以觀察到4種模型提取水體的輪廓清晰,但是對(duì)于陸地表面即非水體區(qū)域,KNN、LR和PRF提取結(jié)果有明顯的雜散點(diǎn)分布,而所構(gòu)建的RF模型提取結(jié)果中雜散點(diǎn)分布較不明顯。為了更好地討論4種模型在預(yù)測(cè)結(jié)果上的泛化能力,截取了圖3~圖6中兩個(gè)矩形區(qū)域進(jìn)行放大。一個(gè)矩形在非水體區(qū)域即陸地上進(jìn)行截取,另一個(gè)矩形在水體區(qū)域進(jìn)行截取。
圖3 KNN提取結(jié)果
圖4 LR提取結(jié)果
圖5 PRF提取結(jié)果
圖6 RF提取結(jié)果
如圖7所示,強(qiáng)度圖一列為兩個(gè)矩形在水體區(qū)域和陸地區(qū)域原始強(qiáng)度圖上的影像,將4種模型的提取結(jié)果與之進(jìn)行比較。在水體區(qū)域上,可以觀察到KNN、LR、無紋理特征和DEM的RF在水體區(qū)域存在誤分現(xiàn)象,錯(cuò)誤地將水體誤分為非水體。其中,KNN誤分最多,LR、無紋理和DEM的RF誤分現(xiàn)象相近,而RF表現(xiàn)最好,沒有觀察到誤分現(xiàn)象,提取的水體表面完整。從所截取陸地表面的強(qiáng)度影像可以看出,其存在部分水體和容易造成誤分現(xiàn)象的道路。這4種模型中只有構(gòu)建的RF模型不存在多余的雜散點(diǎn),且存在陰影的道路也沒被誤分為水體,其他3種模型存在的雜散點(diǎn)較多,陰影道路也被誤分為水體,但微小水體輪廓完整度要比RF提取結(jié)果好。對(duì)存在山體陰影區(qū)域進(jìn)行檢驗(yàn)時(shí),此方法將絕大部分山體陰影都進(jìn)行了正確分類,只有小部分山體陰影出現(xiàn)了誤分現(xiàn)象。雖然沒有完全地將山體陰影正確分類,但是其他3種模型表現(xiàn)更差,大部分山體陰影被識(shí)別為偽水體。
圖7 截取結(jié)果
構(gòu)建隨機(jī)森林模型的7個(gè)因子,在模型中所占權(quán)重如圖8所示。由圖8不難看出,因子Pow、DEM、Con和Dis是RF模型提取水體時(shí)主要的判斷因子,所占權(quán)重分別為32.6%、22.1%、19.4%和18.1%,這4個(gè)因子權(quán)重和為92.2%。其余3個(gè)因子所占權(quán)重僅為7.8%,Hom因子為6.0%,Ent因子為1.0%,Asm因子為0.8%,三者被認(rèn)為是最不重要的因子。將因子權(quán)重的結(jié)果與原始強(qiáng)度影像(見圖1)和因子圖(見圖2)對(duì)比,Pow因子被認(rèn)為是第一重要因子可能的原因是其作為紋理特征的底圖,由于水體反射特性使其能夠很好地分辨出水體與非水體之間的差別;水體易留存于低洼處,所以水體往往比周圍的地表要低,因此,DEM因子被認(rèn)為是第二重要因子;Con和Dis是第三和第四重要因子,重要程度相差不大,從圖2(a)和圖2(b)可知,兩個(gè)因子紋理特征分布相似,在水體與非水體之間有很好的辨識(shí)度;觀察圖2(d),水體和非水體有很好的辨識(shí)度,但是在水體區(qū)域和非水體區(qū)域,其平滑度差于因子Con和Dis;Ent和Asm兩因子圖相近,并且在部分水體區(qū)域和非水體區(qū)域其值也相近,被認(rèn)為是最不重要的因子之一。
圖8 因子權(quán)重
表3所示顯示了KNN、LR、PRF和RF提取水體的精度。從表3可知,所構(gòu)建的RF模型在水體提取上要優(yōu)于其余3種算法。其提取水體的總體精度和Kappa系數(shù)達(dá)到99.73%和0.996 6,水體和非水體的用戶者精度和生產(chǎn)者精度一致,達(dá)到99.51%和99.81%。
表3 提取水體精度
利用Sentinel-1A數(shù)據(jù)對(duì)暴雨后的武穴市進(jìn)行了水體提取。以SAR強(qiáng)度圖為底圖提取5個(gè)紋理特征信息,與DEM和強(qiáng)度圖一起參與了隨機(jī)森林模型的構(gòu)建,由此得到以下結(jié)論:
1)RF模型相較于KNN、LR和PRF模型不管是在水體上還是非水體區(qū)域,都沒有明顯的雜散點(diǎn)分布,要優(yōu)于其余3種模型,有效地減少了城市區(qū)建筑陰影和道路及斑點(diǎn)噪聲造成的誤分現(xiàn)象。同時(shí)由于RF模型是由多個(gè)因子共同參與決策,山體陰影區(qū)域造成的誤分也得到了極大地改善。
2)對(duì)提取的7個(gè)因子權(quán)重進(jìn)行分析,原始強(qiáng)度圖在RF模型中占有最大的權(quán)重,達(dá)到32.6%;DEM、Con和Dis權(quán)重占比為22.1%、19.4%和18.1%;其他3個(gè)因子占比不足8%,因此,Pow、DEM、Con和Dis是RF模型提取水體時(shí)的關(guān)鍵因子。在精度方面,RF模型的各個(gè)指標(biāo)都優(yōu)于其余3種模型。