付華聯(lián),馮 杰, 李 軍,劉 軍
(1. 成都理工大學(xué),四川 成都 610000; 2. 中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院,廣東 深圳 518055)
遙感影像應(yīng)用廣泛,如資源、環(huán)境、災(zāi)害、區(qū)域、城市等各個(gè)方面[1-5]。根據(jù)國(guó)際衛(wèi)星云氣候計(jì)劃ISCCP(International Satellite Cloud Climatology Project)提供的全球云量數(shù)據(jù)顯示,云覆蓋了全球60%以上的地球表面[6-7]。因此,星載遙感觀測(cè)不可避免地要進(jìn)行云檢測(cè)。遙感影像在成像過程中受到云層的遮擋,導(dǎo)致原地物光譜失真,對(duì)影像的信息提取造成很大的影響[8]。因此,實(shí)現(xiàn)遙感影像云檢測(cè)與識(shí)別具有重要的意義。
風(fēng)云系列氣象衛(wèi)星為氣象、海洋、農(nóng)業(yè)、林業(yè)、水利、航空、航海和環(huán)境保護(hù)等領(lǐng)域作了巨大貢獻(xiàn)。氣象衛(wèi)星云圖中云檢測(cè)、定量判別及其計(jì)算機(jī)實(shí)現(xiàn)是氣象衛(wèi)星云圖信息處理的主要工作。由于風(fēng)云衛(wèi)星云檢測(cè)方法偏少,因此需要在遙感影像云檢測(cè)的基礎(chǔ)上進(jìn)行研究。目前遙感圖像云檢測(cè)方法眾多,文獻(xiàn)[9]總結(jié)了4種基本的云檢測(cè)方法:物理法、基于云的紋理和空間特性的檢測(cè)方法、模式識(shí)別檢測(cè)法、綜合優(yōu)化方法。物理方法必須要找到合適的光學(xué)閾值[10-12],模式識(shí)別法依賴于正確的訓(xùn)練數(shù)據(jù)集和特征的組合來確定方法的性能優(yōu)劣,紋理特征[13]則可以進(jìn)一步提高云識(shí)別的性能,但是沒有一種普適的特征集能識(shí)別所有的云和地面。
近年來,機(jī)器學(xué)習(xí)在生態(tài)、醫(yī)學(xué)、遙感、交通及其他領(lǐng)域都取得了較大的成功[14-16]。在遙感影像的數(shù)據(jù)背景下,通過對(duì)遙感影像進(jìn)行訓(xùn)練,通過機(jī)器學(xué)習(xí)思路能夠發(fā)掘影像潛在的復(fù)雜而又豐富的信息[17-19]。本文提出一種基于機(jī)器學(xué)習(xí)中隨機(jī)森林算法的風(fēng)云衛(wèi)星遙感影像云檢測(cè)方法。該方法首先使用隨機(jī)森林算法對(duì)國(guó)家氣象衛(wèi)星中心(National Satellite Meteorological Centre,NSMC)FY-2G產(chǎn)品的訓(xùn)練樣本進(jìn)行訓(xùn)練得到模型;然后,利用NSMC的FY-2G產(chǎn)品的測(cè)試樣本來測(cè)試隨機(jī)森林訓(xùn)練好的模型;最后,將隨機(jī)森林(random forest,RF)云檢測(cè)方法得到的結(jié)果與大津法(Otsu)[20]、NSMC云產(chǎn)品數(shù)據(jù)對(duì)比分析。
隨機(jī)森林作為一種集成分類器,具有訓(xùn)練樣本數(shù)量需求少、人工干預(yù)少、分類精度高的特點(diǎn),可以處理高維數(shù)據(jù)并快速得到分類結(jié)果。本文充分利用NSMC的FY-2G衛(wèi)星云分類結(jié)果,根據(jù)隨機(jī)森林原理在NSMC分類基礎(chǔ)上進(jìn)行試驗(yàn),得到理想的效果;最后將隨機(jī)森林的云檢測(cè)結(jié)果與Otsu云檢測(cè)、NSMC的聚類的結(jié)果比對(duì)。
NSMC云分類生成過程分為以下幾個(gè)步驟:
(1) 分割段單位,計(jì)算大像素點(diǎn)的均值和方差。
(2) 對(duì)于每一個(gè)段,求出拋物線模型的參數(shù),去除拋物線外部的像元。
(3) 提取均勻像元,分析表明大像元的方差事跡反映像元分布的均勻程度。在大像元方差的直方圖上,方差值小的一部分占較大比例。在一個(gè)段內(nèi)做大像元方差的直方圖,可以得到一個(gè)最大的波峰,找到這個(gè)波峰右側(cè)的波谷作為閾值,如果得到的像元數(shù)大于段內(nèi)總像元數(shù)的5%,即將此值作為均勻像元閾值;如果像元數(shù)小于段內(nèi)總像元數(shù)的5%,將在直方圖上由最小值開始累加像元數(shù),直至得到的像元數(shù)超過總像元數(shù)的5%,以此作為閾值。根據(jù)最后得到的閾值,就可以得到段內(nèi)的均勻像元。
(4) 對(duì)于均勻像元,可以用直方圖進(jìn)行分析、分類處理。首先分析水汽直方圖,得到相應(yīng)的類別;然后對(duì)每個(gè)類別用紅外直方圖作進(jìn)一步分類,將均勻像元?jiǎng)澐值蕉鄠€(gè)類別中。直方圖分析涉及直方圖平滑、波峰波谷自動(dòng)識(shí)別、容錯(cuò)處理等步驟。
(5) 使用最小距離法將剩余的像元?dú)w入相應(yīng)的類別中。
(6) 根據(jù)紅外-水汽散點(diǎn)圖的斜率,將已獲得的各類別標(biāo)定為具體的云類。
(7) 由于按照段區(qū)域分割,可能會(huì)造成兩個(gè)相鄰段之間云類的不連續(xù),因此最后要進(jìn)行段間云類的重新匹配處理。
RF算法是一種基于分治思想的集成學(xué)習(xí)策略,針對(duì)回歸樹(CART)的多分類器模型。RF由大量決策樹構(gòu)成,每棵樹都依賴于一個(gè)隨機(jī)向量,其中所有的向量都是獨(dú)立同分布的。每棵樹進(jìn)行獨(dú)立分類運(yùn)算得到各自的分類結(jié)果,根據(jù)每棵樹的分類結(jié)果投票決定最終的結(jié)果。
在RF算法中,首先需要定義兩個(gè)參數(shù)n和m,其中n代表決策樹的數(shù)量,m代表分裂每個(gè)節(jié)點(diǎn)上屬性特征的數(shù)量。首先,從原始訓(xùn)練樣本集中抽出n個(gè)樣本,剩余數(shù)據(jù)對(duì)分類誤差進(jìn)行估計(jì);然后,把每個(gè)樣本集作為訓(xùn)練集生成單棵決策樹,在樹的每個(gè)節(jié)點(diǎn)處,從特征變量中隨機(jī)選m個(gè)特征變量作為預(yù)測(cè)變量,從中選出一個(gè)最優(yōu)的特征變量進(jìn)行分類。RF采用分類與CART算法來生成決策樹。在CART算法中,每個(gè)節(jié)點(diǎn)根據(jù)基尼指數(shù)(GINI Index)來選擇最佳分裂樹形,對(duì)于給定的訓(xùn)練集,基尼指數(shù)公式如下
(1)
式中,T為學(xué)習(xí)器{h1,h2,…,hT}集合的個(gè)數(shù);f(CiT)/T為所選類屬于Ci的概率。
GINI指數(shù)可以衡量類間差異性,當(dāng)GINI指數(shù)增加時(shí),類間的差異性增加;反之,類間差異性減少。如果子節(jié)點(diǎn)的基尼指數(shù)小于父節(jié)點(diǎn),則分裂該節(jié)點(diǎn)。當(dāng)GINI指數(shù)為0時(shí),終止分裂,一類被分離出來。當(dāng)n個(gè)決策樹生成森林時(shí),用這n個(gè)決策樹的預(yù)測(cè)結(jié)果來預(yù)測(cè)新的數(shù)據(jù)集。
(2)
在FY-2G衛(wèi)星云檢測(cè)中,首先從NSMC云檢測(cè)結(jié)果中隨機(jī)選取一定數(shù)量具有代表性的像素點(diǎn)組成總訓(xùn)練樣本集,利用自舉重采樣(boot-strap)方法,隨機(jī)產(chǎn)生訓(xùn)練集(即采用有放回的方式從總訓(xùn)練集中抽取N次組成新的訓(xùn)練集);然后選取合適的特征作為分類屬性,利用每個(gè)訓(xùn)練集,生成對(duì)應(yīng)的決策樹用于分類;最后將影像的所有像素點(diǎn)作為測(cè)試樣本,組成測(cè)試樣本集,利用每個(gè)決策樹對(duì)各個(gè)像素點(diǎn)進(jìn)行分類。采用式(2)的投票方法,將決策樹輸出最多的類別作為測(cè)試機(jī)樣本所屬的類別。
1.3.1 數(shù)據(jù)獲取
本文采用從NSMC下載的2015年6月3日8:00—11:00時(shí)刻FY-2G衛(wèi)星的HDF5格式全圓盤圖。試驗(yàn)中使用其可見光波段、紅外1波段、紅外2波段、紅外3波段、紅外4波段5個(gè)波段的數(shù)據(jù),其中可見光波段的波長(zhǎng)范圍為0.55~0.9 μm,星下點(diǎn)分辨率為1.25 km;紅外1波段的波長(zhǎng)范圍為10.3~11.3 μm,星下點(diǎn)分辨率為5 km;紅外2波段的波長(zhǎng)范圍為11.5~12.5 μm,星下點(diǎn)分辨率為5 km;紅外3波段的波長(zhǎng)范圍為6.3~7.6 μm,星下點(diǎn)分辨率為5 km;紅外4波段的波段范圍為3.5~4.0 μm,星下點(diǎn)分辨率為5 km。
1.3.2 隨機(jī)森林的參數(shù)選取
隨機(jī)森林在處理FY-2G影像云檢測(cè)時(shí)兩個(gè)主要的影響參數(shù)為:生成一棵決策樹所隨機(jī)選取的屬性特征數(shù)量(簡(jiǎn)稱特征數(shù)量)m和最終生成的決策樹數(shù)量n,選擇最佳的分類影響參數(shù),可以提高分類的準(zhǔn)確性。實(shí)現(xiàn)隨機(jī)森林算法,m的大小關(guān)系到遙感影像分類時(shí)構(gòu)建出的決策樹能力強(qiáng)弱及決策樹之間的相關(guān)性。隨機(jī)森林中決策樹的數(shù)量n決定了隨機(jī)森林得票數(shù)和準(zhǔn)確率,依據(jù)大數(shù)定理,當(dāng)n增加時(shí),模型泛化誤差收斂。隨機(jī)森林選擇屬性特征的過程為:①計(jì)算每個(gè)特征的重要性,并按降序排序;②確定要剔除的比例,依據(jù)特征重要性剔除相應(yīng)比例的特征,得到一個(gè)新的特征集;③用新的特征集重復(fù)上述過程,直到剩下m個(gè)特征(m為提前設(shè)定的值);④根據(jù)上述過程中得到的各個(gè)特征集和特征集對(duì)應(yīng)的袋外誤差率(out of band,OOB),選擇袋外誤差率最低的特征集。
本文為了找到最佳的m和n值,選擇了多個(gè)參數(shù)的組合進(jìn)行試驗(yàn),在抽樣過程中,采用袋外數(shù)據(jù)進(jìn)行內(nèi)部誤差估計(jì),產(chǎn)生OOB誤差,OOB被用來預(yù)測(cè)分類的正確率。通過比較不同組合的OOB(準(zhǔn)確度),來選擇最佳的屬性特征數(shù)量值和決策樹數(shù)量。
1.3.3 訓(xùn) 練
本文基于NSMC的云檢測(cè)結(jié)果,采用隨機(jī)森林進(jìn)行訓(xùn)練的步驟如下:
(1) 選取樣本。訓(xùn)練樣本是整個(gè)待分類區(qū)的具有代表性的樣本,樣本的選擇影響分類的精度,為了避免選擇的樣本對(duì)分類精度的影響,訓(xùn)練樣本不但要保證典型性,還要保證隨機(jī)性。本文從NSMC云分類產(chǎn)品中隨機(jī)選取200 000個(gè)有云像素點(diǎn)和200 000個(gè)無(wú)云像素點(diǎn)作為訓(xùn)練的原始訓(xùn)練樣本。
(2) 選取訓(xùn)練特征。為了提高隨機(jī)森林的模型預(yù)測(cè)能力,本文對(duì)訓(xùn)練樣本作了一定的增強(qiáng)處理,即除了選取當(dāng)前像素點(diǎn)外,還選取了該像素的3×3鄰域內(nèi)的所有像素構(gòu)成訓(xùn)練樣本。這樣做的理由是本文認(rèn)為樣本點(diǎn)附近的3×3鄰域的點(diǎn)與樣本點(diǎn)有一定的親和性,具有很大程度的可信度。最終選取樣本的5個(gè)波段像素點(diǎn)的灰度值、5個(gè)波段灰度值對(duì)應(yīng)的均值和方差,以及云和非云的標(biāo)記作為訓(xùn)練特征。
對(duì)于第i個(gè)樣本點(diǎn),其對(duì)應(yīng)的訓(xùn)練樣本格式如下
〈x1,x2,…,x45,x46,…,x55〉i,yi
(3)
式中,x1~x45為5個(gè)波段中每個(gè)樣本點(diǎn)3×3鄰域9個(gè)像素的灰度值;x46~x55為5個(gè)波段樣本點(diǎn)灰度值對(duì)應(yīng)的均值和方差;yi為該樣本點(diǎn)為云或非云的標(biāo)記。
1.3.4 測(cè) 試
將測(cè)試樣本數(shù)據(jù)作為輸入,輸入到訓(xùn)練完成的隨機(jī)森林模型,測(cè)試其分類的結(jié)果。選取測(cè)試數(shù)據(jù)時(shí),首先對(duì)FY-2G數(shù)據(jù)每幅影像的5波段影像的每一個(gè)像素點(diǎn)選取其鄰域的灰度值,構(gòu)成測(cè)試數(shù)據(jù)的輸入;其次基于隨機(jī)森林訓(xùn)練得到的模型,判斷該測(cè)試數(shù)據(jù)的輸入所屬的類別,0表示無(wú)云,1表示有云;最后對(duì)所有像素點(diǎn)遍歷執(zhí)行上述操作,得到最終的云檢測(cè)結(jié)果。
試驗(yàn)使用的遙感數(shù)據(jù)來源為NSMC的FY-2G衛(wèi)星的HDF5格式全圓盤圖,計(jì)算機(jī)配置為Intel(R) Core(TM) i5-6300HQ CPU @2.3 GHz 2.3 GHz,4 GB內(nèi)存。FY-2G云檢測(cè)的分類結(jié)果以國(guó)家氣象衛(wèi)星官方公布的云分類產(chǎn)品數(shù)據(jù)為準(zhǔn)。由于目前沒有完全真實(shí)的云檢測(cè)結(jié)果,本文以NSMC的云檢測(cè)結(jié)果作為真值,將試驗(yàn)結(jié)果與NSMC的云分類結(jié)果進(jìn)行對(duì)比。
本文使用命中率(probability of detection,POD)、誤報(bào)率(false alarm ratio,F(xiàn)AR)和臨界成功指數(shù)(critical success index,CSI)來評(píng)價(jià)該試驗(yàn)效果。各個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式為
(4)
式中,NH表示FY-2G的云檢測(cè)結(jié)果和NSMC云產(chǎn)品中都為云的像素點(diǎn)頻數(shù);NM表示FY-2G云檢測(cè)結(jié)果中無(wú)云而NSMC云產(chǎn)品中有云的像素點(diǎn)頻數(shù);NF表示FY-2G云檢測(cè)結(jié)果中有云而NSMC云產(chǎn)品中無(wú)云的像素點(diǎn)頻數(shù)。
圖1為FY-2G衛(wèi)星2015年6月3日的9:00的圖像及各個(gè)方法的云檢測(cè)結(jié)果圖。圖中,白色表示云,黑色表示非云。將圖1(a)、(b)與(c)對(duì)比可知,Otsu云檢測(cè)結(jié)果存在大面積的錯(cuò)檢、漏檢,造成錯(cuò)檢的原因是沒有選取到合適的閾值,將部分非云區(qū)域錯(cuò)判為云。圖1(d)是隨機(jī)森林云檢測(cè)結(jié)果,從圖像上看很接近NSMC云檢測(cè)結(jié)果,由圖像的C區(qū)域可以看出,NSMC的云檢測(cè)結(jié)果存在部分水體誤判為云的情況,隨機(jī)森林能夠正確地標(biāo)識(shí)誤判區(qū)域。
圖2(a)—(d)為圖1(a)中A區(qū)域可見光通道圖像、NSMC云檢測(cè)圖像、Otsu云檢測(cè)圖像、RF云檢測(cè)圖像;圖2(e)—(h)為圖1(a)中B區(qū)域可見光通道圖像、NSMC云檢測(cè)圖像、Otsu云檢測(cè)圖像、RF檢測(cè)圖像;圖2(i)—(l)為圖1(a)中C區(qū)域可見光通道圖像、NSMC云檢測(cè)圖像、Otsu云檢測(cè)圖像、RF檢測(cè)圖像。
將圖2(a)—(d)對(duì)比可知,Otsu云檢測(cè)存在大面積的錯(cuò)檢和漏檢,部分非云區(qū)域誤判為云。基于RF云檢測(cè)方法與NSMC云檢測(cè)結(jié)果基本一致,且能將一些含云量較小、薄云低云部分正確標(biāo)記出來;將圖2(e)—(h)對(duì)比可知,NSMC云檢測(cè)將含云量較稀疏的地方標(biāo)記成連續(xù)成片云,而RF的結(jié)果能正確標(biāo)記;由圖2(i)—(l)可知,NSMC云檢測(cè)將部分水體誤判為云,隨機(jī)森林能較好地正確區(qū)分云和水體。
圖3為FY-2G衛(wèi)星2015年6月3日11:00圖像的各個(gè)云檢測(cè)方法得到的結(jié)果圖。將圖3(b)、(c)、(d)對(duì)比可知,Otsu云檢測(cè)結(jié)果相比NSMC云檢測(cè)結(jié)果存在誤判,而RF云檢測(cè)結(jié)果與NSMC云檢測(cè)結(jié)果接近,說明本文的方法可行。
圖4(a)—(d)為圖3(a)中A區(qū)域可見光通道圖像、NSMC云檢測(cè)圖像、Otsu云檢測(cè)圖像、RF云檢測(cè)圖像;圖4(e)—(h)為圖3(a)中B區(qū)域可見光通道圖像、NSMC云檢測(cè)圖像、Otsu云檢測(cè)圖像、RF云檢測(cè)圖像;圖4(i)—(l)為圖3(a)中C區(qū)域可見光通道圖像、NSMC云檢測(cè)圖像、Otsu云檢測(cè)圖像、RF云檢測(cè)圖像。
圖4(b)—(d)中,RF云檢測(cè)與NSMC云檢測(cè)結(jié)果比較接近,RF云檢測(cè)將部分少檢的區(qū)域標(biāo)記出來;圖4(f)—(h)中,Otsu云檢測(cè)將部分非云區(qū)域錯(cuò)判為云,NSMC云檢測(cè)將部分非云區(qū)域誤判為云區(qū),RF云檢測(cè)能夠比較準(zhǔn)確地標(biāo)記NSMC誤判的區(qū)域;將圖4(j)—(l)比較可知,RF云檢測(cè)在部分區(qū)域優(yōu)于NSMC的云檢測(cè)結(jié)果。
計(jì)算Otsu、RF云檢測(cè)結(jié)果的命中率(POD)、誤報(bào)率(FAR)、臨界成功指數(shù)(CSI)3個(gè)評(píng)價(jià)指標(biāo),見表1。
由表1可知,F(xiàn)Y-2G衛(wèi)星在2015年6月3日上午8:00—11:00,Otsu云檢測(cè)的命中率(POD)比較低,誤報(bào)率(FAR)偏高,臨界成功指數(shù)(CSI)均在50.31%以下,而且Otsu云檢測(cè)結(jié)果和NSMC云檢測(cè)結(jié)果的臨界成功指數(shù)為30%~50%。而RF云檢測(cè)誤報(bào)率(FAR)相比Otsu云檢測(cè)的誤報(bào)率(FAR)較低。RF云檢測(cè)結(jié)果和NSMC云檢測(cè)結(jié)果的臨界成功指數(shù)(CSI)為78.16%~80.14%,比Otsu云檢測(cè)結(jié)果提升了很多。試驗(yàn)結(jié)果表明,該方法提高了云檢測(cè)的精度,有效解決了云漏檢、錯(cuò)檢。
本文提出了基于隨機(jī)森林的云檢測(cè)方法,并應(yīng)用于FY-2G影像,而且將其云檢測(cè)結(jié)果、大津法云檢測(cè)結(jié)果與國(guó)家氣象衛(wèi)星中心云檢測(cè)結(jié)果進(jìn)行比較。從整體來看,隨機(jī)森林算法能夠在一定程度上標(biāo)識(shí)國(guó)家氣象衛(wèi)星云檢測(cè)產(chǎn)品中的錯(cuò)檢區(qū)域。試驗(yàn)結(jié)果表明,該方法具有一定的優(yōu)勢(shì):準(zhǔn)確率高,對(duì)于不同類型的云均有較好的檢測(cè)結(jié)果。本文方法能在一定程度上改善云的錯(cuò)檢和漏檢,提高云檢測(cè)精度。但筆者僅僅將FY-2G影像有限的鄰域灰度值特征用于訓(xùn)練,取得了較好的云檢測(cè)結(jié)果,下一步的研究將集中于完善隨機(jī)森林模型,更進(jìn)一步提高云檢測(cè)精度。