亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Sentinel-1A數(shù)據(jù)的隨機(jī)森林武穴市水體信息提取

2022-06-25 09:32:40朱繼文席志龍陳景玨

黑龍江工程學(xué)院學(xué)報(bào) 2022年3期

朱繼文,席志龍,陳景玨

(1.黑龍江工程學(xué)院測(cè)繪工程學(xué)院，哈爾濱 150050；2.成都理工大學(xué) 地球科學(xué)學(xué)院，成都 610059)

淡水資源是人類最寶貴的資源之一，據(jù)統(tǒng)計(jì),全球有湖泊數(shù)量3.04億個(gè)，面積為420萬km2，蓄水面積33.7萬km2，總計(jì)453.7萬km2，占地球陸地面積3%以上[1]，淡水湖泊占陸地面積較少，因此，研究水體分布對(duì)水資源調(diào)查具有重要意義。合成孔徑雷達(dá)(Synthetic Aperture Radar，SAR)能穿透云層，可以獲取處于惡劣天氣情況下的影像，應(yīng)用SAR圖像進(jìn)行水體提取逐漸受到眾多學(xué)者青睞[2]。

SAR衛(wèi)星的側(cè)視成像方式使得影像上存在山體陰影，并且SAR影像還存在相干斑噪聲[3]，這對(duì)于獲取精確的水體信息造成了極大的困難。監(jiān)督分類和非監(jiān)督分類是水體提取的常用方法，當(dāng)前研究較多的是監(jiān)督分類法[4]，主要有最大似然、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(Support Vector Machine,SVM)等。當(dāng)分類器的輸入特征只有雷達(dá)強(qiáng)度影像時(shí)，斑點(diǎn)噪聲和山體陰影易被分類成水體，沒有正確被預(yù)測(cè)和分類，出現(xiàn)了誤提取現(xiàn)象，從而影響到水體提取的總體精度。1973年Haralick等[5]提出灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)，基于GLCM可以間接地計(jì)算出圖像的14個(gè)紋理特征。利用SAR圖像的紋理特征可以增加模型的特征空間，極大地提高了模型訓(xùn)練和預(yù)測(cè)精度。然而，特征的增加不會(huì)使得模型精度不斷提高，過多的特征很可能會(huì)使分類模型精度下降，同時(shí)浪費(fèi)計(jì)算機(jī)算力，適當(dāng)?shù)奶卣鲾?shù)量更有利于分類模型訓(xùn)練和預(yù)測(cè)。陳媛媛等[6]在構(gòu)建SVM分類器時(shí)，加入了熵、角二階矩、差異性和同質(zhì)性4種紋理特征作為模型因子參與訓(xùn)練，提取了南京市水體初始分布圖，并采用數(shù)字高程模型(Digital Elevation Model，DEM)模擬地形信息消除山體陰影，其結(jié)果表明：紋理特征有效地減少了奇次散射以及淹水期水田與城市水體的混淆。史旭等[7]獲取了汶川地震期間堰塞湖區(qū)域SAR影像，使用平均值、對(duì)比度和差異性3種紋理特征用于構(gòu)建最大似然分類器，并用DEM進(jìn)行仿真以消除大部分山體陰影。鄧瀅等[8]使用同質(zhì)性紋理特征與Freemen-Durden三分量特征，以像元為單位進(jìn)行眾數(shù)投票提取水體信息，其研究表明：同質(zhì)性的加入使得各項(xiàng)精度指標(biāo)都有所提升，提高了小型水體的檢測(cè)率。

文中綜合上述紋理特征對(duì)最后分類結(jié)果的作用，在14個(gè)紋理特征中選取5個(gè)，分別是對(duì)比度、差異性、熵、同質(zhì)性和角二階矩。選擇隨機(jī)森林作為提取水體的分類器，用DEM、5種紋理特征和強(qiáng)度圖作為模型的特征空間輸入到隨機(jī)森林中，在像素級(jí)別上進(jìn)行預(yù)測(cè)，對(duì)水體信息提取進(jìn)行探究。

1 研究區(qū)與數(shù)據(jù)概況

1.1 研究區(qū)域

武穴市是湖北省黃岡市管轄的一個(gè)縣級(jí)市，地處長(zhǎng)江中游北岸，擁有長(zhǎng)江十大深水良港之一的武穴港。武穴北依大別山，南臨長(zhǎng)江，地形包括低山區(qū)、丘陵崗地和沿江平原，地勢(shì)西北高而東南低。其地理范圍在29°49′28″N～30°13′10″N和115°22′03″E～115°49′45″E之間。2020年6月至8月,我國(guó)多地暴雨黃色預(yù)警，長(zhǎng)江干流先后也發(fā)布了5次編號(hào)洪水，為此，以2020年7月20日的Sentinel-1A雷達(dá)影像為基本底圖，使用隨機(jī)森林模型，提取了武穴市的水體信息圖。

1.2 實(shí)驗(yàn)數(shù)據(jù)詳情

歐洲太空局于2014年發(fā)射了Sentinel-1A衛(wèi)星，采用C波段對(duì)地球進(jìn)行觀測(cè)，是“哥白尼計(jì)劃”發(fā)射的第一顆環(huán)境監(jiān)測(cè)衛(wèi)星。其設(shè)計(jì)軌道高度約693，重訪周期為12 d。該衛(wèi)星搭載的傳感器共有4種成像模式，分別為超寬幅模式(EW)、條帶模式(SM)、波模式(WV)和寬幅模式(IW)。文中實(shí)驗(yàn)數(shù)據(jù)為Sentinel-1A雷達(dá)影像，獲取了2020年7月20日覆蓋武穴市Sentinel-1A寬幅模式VH極化影像，所使用的影像數(shù)據(jù)經(jīng)過多視、濾波、地理編碼和輻射校正處理。多視和濾波能夠有效抑制相干斑噪聲[3,9]，在對(duì)數(shù)據(jù)進(jìn)行處理時(shí)使用了5∶1的多視比和3×3窗口Frost濾波[10]。地理編碼和輻射校正利用研究區(qū)的DEM將雷達(dá)坐標(biāo)下的影像轉(zhuǎn)為地理坐標(biāo)系，同時(shí)消除由地形起伏引起的輻射畸變[11]。研究區(qū)域原始影像經(jīng)過處理得到地理編碼后的強(qiáng)度圖如圖1所示。

圖1 強(qiáng)度影像

2 因子選擇與方法

2.1 因子選擇

GLCM是通過研究圖像灰度的空間相關(guān)特性來描述圖像的紋理特征。GLCM通常在0°、45°、90°和135°共4個(gè)方向進(jìn)行計(jì)算，GLCM內(nèi)的元素可由式(1)得出[12]。

p(i,j,δ,θ)={(x,y),(x+dx,y+dy)∈

N×N|f(x,y)=i,f(x+dx,y+dy)=j}.

(1)

假設(shè)圖像大小為N×N,式(1)中(x,y)為參考點(diǎn)；(x+dx,y+dy)為偏移點(diǎn);i為參考點(diǎn)灰度值；j為偏移點(diǎn)像素。

基于GLCM可以計(jì)算對(duì)比度(Con)、差異性(Dis)、熵(Ent)、同質(zhì)性(Hom)和角二階矩(Asm)5種紋理特征，計(jì)算公式見式(2)～式(6)。

(2)

(3)

(4)

(5)

(6)

文中使用SAR強(qiáng)度影像作為基本底圖計(jì)算出GLCM，再由GLCM計(jì)算5種紋理特征。將紋理特征、原始強(qiáng)度影像和武穴市DEM作為因子參與水體提取模型的構(gòu)建，因子大致情況如表1所示。

表1 構(gòu)建隨機(jī)森林模型因子

圖2顯示了武穴市5種紋理特征的因子以及DEM因子。

圖2 紋理特征及DEM

圖2(a)可以看到城市區(qū)域和山頂區(qū)域Con值較大,與水體顏色差異明顯，陸地顏色與水體和城市活動(dòng)區(qū)也有明顯的差異，而水體較陸地顏色更深。圖2(b)中水體、地表和城市區(qū)三者之間有明顯的區(qū)分，水體輪廓也完整清晰。圖2(c)和圖2(e)兩因子紋理特征相似，雖然水體與非水體差異明顯，但部分水體的紋理特征與陸地?zé)o異。圖2(d)中水體與陸地具有一定的辨識(shí)度，但在真實(shí)水體區(qū)域離散分布著與陸地相似的紋理特征。圖2(f)中水體分布在海拔較低的區(qū)域，而山體陰影所在的海拔區(qū)域高于水體。

2.2 隨機(jī)森林模型

隨機(jī)森林(Random Forest，RF)模型[13]是一種常用的機(jī)器學(xué)習(xí)方法。它是以決策樹(Decision Tree，DT)為弱學(xué)習(xí)器組合而成的集成模型，可以進(jìn)行分類和回歸任務(wù)。文中構(gòu)建的隨機(jī)森林模型使用了100顆CART決策樹組成森林[14]，應(yīng)用Bootstrap方法隨機(jī)抽取100個(gè)樣本，將其構(gòu)建100顆決策樹，對(duì)每顆DT的結(jié)果采取一定的投票規(guī)則進(jìn)行集成[15]。

文中以像素為單位，創(chuàng)建包含31 856個(gè)像素點(diǎn)的樣本區(qū)域，提取表1中出現(xiàn)的7個(gè)因子值作為構(gòu)建模型所需的樣本。在進(jìn)行模型訓(xùn)練之前，對(duì)樣本數(shù)據(jù)隨機(jī)打亂，把打亂后的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，比例為7∶3。將最終訓(xùn)練好的模型在測(cè)試集上進(jìn)行測(cè)試，其目的是防止模型在訓(xùn)練集上有突出的表現(xiàn)，但是在測(cè)試集上沒有很好的泛化能力會(huì)出現(xiàn)過擬合現(xiàn)象。通過判斷測(cè)試集上預(yù)測(cè)的效果來調(diào)整模型的參數(shù)，使得訓(xùn)練出的模型沒有過擬合現(xiàn)象，同時(shí)兼?zhèn)浜芎玫姆夯芰Α?/p>

2.3 精度評(píng)價(jià)方法

在使用機(jī)器學(xué)習(xí)方法對(duì)遙感影像進(jìn)行分類后，常用總體精度(Overall Accuracy, OA)、用戶者精度(User’s Accuracy, UP)、生產(chǎn)者精度(Producer’s Accuracy, PP)和Kappa系數(shù)等來評(píng)價(jià)提取結(jié)果的精度[16-18]。上述精度評(píng)價(jià)方法可以通過混淆矩陣計(jì)算得出，見式(7)～式(11)?；煜仃嚾绫?所示。

表2 水體混淆矩陣

在混淆矩陣中，TP為將水體預(yù)測(cè)成水體的個(gè)數(shù)；FP為將水體預(yù)測(cè)為非水體的個(gè)數(shù)；FN為將非水體預(yù)測(cè)成水體的個(gè)數(shù)；TN為將非水體預(yù)測(cè)為非水體的個(gè)數(shù)，也將TP、FN、FP和TN稱為真陽性、假陰性、假陽性和真陰性。

(7)

(8)

(9)

(10)

(11)

式(11)中:n為總樣本數(shù);s為在總樣本中被正確分類的個(gè)數(shù);a1和b1分別為預(yù)測(cè)結(jié)果中水體的樣本數(shù);a0和b0分別為預(yù)測(cè)結(jié)果中非水體樣本數(shù)。

3 實(shí)驗(yàn)分析與精度評(píng)價(jià)

3.1 提取結(jié)果分析

使用K最鄰近算法(K-Nearest Neighbor,KNN)、邏輯回歸模型(Logistic Regression,LR)以及只有強(qiáng)度圖構(gòu)建的RF模型(Power RF,PRF)進(jìn)行水體提取，并與所構(gòu)建的隨機(jī)森林模型進(jìn)行比較。圖3～圖6分別為KNN、LR、PRF和RF的水體提取結(jié)果。將4種模型提取水體的結(jié)果與原始強(qiáng)度圖(見圖1)比較，可以觀察到4種模型提取水體的輪廓清晰，但是對(duì)于陸地表面即非水體區(qū)域，KNN、LR和PRF提取結(jié)果有明顯的雜散點(diǎn)分布，而所構(gòu)建的RF模型提取結(jié)果中雜散點(diǎn)分布較不明顯。為了更好地討論4種模型在預(yù)測(cè)結(jié)果上的泛化能力，截取了圖3～圖6中兩個(gè)矩形區(qū)域進(jìn)行放大。一個(gè)矩形在非水體區(qū)域即陸地上進(jìn)行截取，另一個(gè)矩形在水體區(qū)域進(jìn)行截取。

圖3 KNN提取結(jié)果

圖4 LR提取結(jié)果

圖5 PRF提取結(jié)果

圖6 RF提取結(jié)果

如圖7所示，強(qiáng)度圖一列為兩個(gè)矩形在水體區(qū)域和陸地區(qū)域原始強(qiáng)度圖上的影像，將4種模型的提取結(jié)果與之進(jìn)行比較。在水體區(qū)域上，可以觀察到KNN、LR、無紋理特征和DEM的RF在水體區(qū)域存在誤分現(xiàn)象，錯(cuò)誤地將水體誤分為非水體。其中，KNN誤分最多，LR、無紋理和DEM的RF誤分現(xiàn)象相近，而RF表現(xiàn)最好，沒有觀察到誤分現(xiàn)象，提取的水體表面完整。從所截取陸地表面的強(qiáng)度影像可以看出，其存在部分水體和容易造成誤分現(xiàn)象的道路。這4種模型中只有構(gòu)建的RF模型不存在多余的雜散點(diǎn)，且存在陰影的道路也沒被誤分為水體，其他3種模型存在的雜散點(diǎn)較多，陰影道路也被誤分為水體，但微小水體輪廓完整度要比RF提取結(jié)果好。對(duì)存在山體陰影區(qū)域進(jìn)行檢驗(yàn)時(shí)，此方法將絕大部分山體陰影都進(jìn)行了正確分類，只有小部分山體陰影出現(xiàn)了誤分現(xiàn)象。雖然沒有完全地將山體陰影正確分類，但是其他3種模型表現(xiàn)更差，大部分山體陰影被識(shí)別為偽水體。

圖7 截取結(jié)果

3.2 因子權(quán)重分析

構(gòu)建隨機(jī)森林模型的7個(gè)因子,在模型中所占權(quán)重如圖8所示。由圖8不難看出，因子Pow、DEM、Con和Dis是RF模型提取水體時(shí)主要的判斷因子，所占權(quán)重分別為32.6%、22.1%、19.4%和18.1%，這4個(gè)因子權(quán)重和為92.2%。其余3個(gè)因子所占權(quán)重僅為7.8%，Hom因子為6.0%，Ent因子為1.0%，Asm因子為0.8%，三者被認(rèn)為是最不重要的因子。將因子權(quán)重的結(jié)果與原始強(qiáng)度影像(見圖1)和因子圖(見圖2)對(duì)比，Pow因子被認(rèn)為是第一重要因子可能的原因是其作為紋理特征的底圖，由于水體反射特性使其能夠很好地分辨出水體與非水體之間的差別；水體易留存于低洼處，所以水體往往比周圍的地表要低，因此，DEM因子被認(rèn)為是第二重要因子；Con和Dis是第三和第四重要因子，重要程度相差不大，從圖2(a)和圖2(b)可知，兩個(gè)因子紋理特征分布相似，在水體與非水體之間有很好的辨識(shí)度；觀察圖2(d)，水體和非水體有很好的辨識(shí)度，但是在水體區(qū)域和非水體區(qū)域，其平滑度差于因子Con和Dis；Ent和Asm兩因子圖相近，并且在部分水體區(qū)域和非水體區(qū)域其值也相近，被認(rèn)為是最不重要的因子之一。

圖8 因子權(quán)重

3.3 精度評(píng)價(jià)

表3所示顯示了KNN、LR、PRF和RF提取水體的精度。從表3可知，所構(gòu)建的RF模型在水體提取上要優(yōu)于其余3種算法。其提取水體的總體精度和Kappa系數(shù)達(dá)到99.73%和0.996 6，水體和非水體的用戶者精度和生產(chǎn)者精度一致，達(dá)到99.51%和99.81%。

表3 提取水體精度

4 結(jié) 論

利用Sentinel-1A數(shù)據(jù)對(duì)暴雨后的武穴市進(jìn)行了水體提取。以SAR強(qiáng)度圖為底圖提取5個(gè)紋理特征信息，與DEM和強(qiáng)度圖一起參與了隨機(jī)森林模型的構(gòu)建，由此得到以下結(jié)論:

1)RF模型相較于KNN、LR和PRF模型不管是在水體上還是非水體區(qū)域，都沒有明顯的雜散點(diǎn)分布，要優(yōu)于其余3種模型，有效地減少了城市區(qū)建筑陰影和道路及斑點(diǎn)噪聲造成的誤分現(xiàn)象。同時(shí)由于RF模型是由多個(gè)因子共同參與決策，山體陰影區(qū)域造成的誤分也得到了極大地改善。

2)對(duì)提取的7個(gè)因子權(quán)重進(jìn)行分析，原始強(qiáng)度圖在RF模型中占有最大的權(quán)重，達(dá)到32.6%；DEM、Con和Dis權(quán)重占比為22.1%、19.4%和18.1%；其他3個(gè)因子占比不足8%，因此，Pow、DEM、Con和Dis是RF模型提取水體時(shí)的關(guān)鍵因子。在精度方面，RF模型的各個(gè)指標(biāo)都優(yōu)于其余3種模型。