許赟, 許艾文
(1.杭州市交通規(guī)劃設(shè)計(jì)研究院,杭州 310003; 2.浙江省國(guó)土空間規(guī)劃研究院,杭州 310012)
在光學(xué)遙感影像中,地表有效信息常常被云、霧天氣和積雪遮擋,使遙感影像中許多地物特征信息被掩蓋。因此,需要對(duì)遙感影像中的云、雪、霧區(qū)域進(jìn)行檢測(cè),通過(guò)剔除無(wú)效信息占比過(guò)大的影像,從而提高有效遙感數(shù)據(jù)的使用效率。
遙感影像云檢測(cè)的方法很多,應(yīng)用最廣泛的是物理閾值法,如Saunders[1]和Ackerman[2]通過(guò)光譜閾值判斷是否是云; 另一類是利用模式識(shí)別方法進(jìn)行云檢測(cè),如Merchant[3]的全概率貝葉斯法和Baum[4]的模糊邏輯分類方法。遙感對(duì)霧的研究主要針對(duì)典型個(gè)例,例如Bendix[5]、李亞春[6]等利用遙感數(shù)據(jù)進(jìn)行大霧的監(jiān)測(cè)。利用云、雪在可見(jiàn)光波段特征相似而在短波紅外差異較大的特點(diǎn),鄭小波[7]、殷青軍[8]等通過(guò)構(gòu)建云、雪反差增大因子識(shí)別雪; 對(duì)于全色影像也可利用紋理特征,丁海燕[9]、劉湘航[10]等通過(guò)計(jì)算分形維數(shù)實(shí)現(xiàn)云、雪的識(shí)別。目前的相關(guān)研究主要側(cè)重于對(duì)云、霧和云、雪的檢測(cè),而對(duì)同時(shí)區(qū)分遙感影像中云、雪、霧的方法研究甚少,且上述研究方法對(duì)遙感數(shù)據(jù)源有一定要求,檢測(cè)的效率和準(zhǔn)確度也不高。
目前隨機(jī)森林算法已經(jīng)在遙感圖像分類中得以廣泛的應(yīng)用[11]。本文提出一種基于隨機(jī)森林的遙感影像云、雪、霧自動(dòng)檢測(cè)方法,用以對(duì)云、雪、霧和地物不同特征區(qū)域進(jìn)行分類,并對(duì)其相應(yīng)范圍的圖像區(qū)域進(jìn)行標(biāo)記。通過(guò)研究云、雪、霧在遙感影像中表現(xiàn)出的不同特性,利用機(jī)器學(xué)習(xí)手段,可實(shí)現(xiàn)大數(shù)據(jù)遙感影像中云、雪、霧的快速檢測(cè)和識(shí)別,增強(qiáng)遙感影像質(zhì)量檢查的時(shí)效性,提高遙感影像利用率。
在可見(jiàn)光遙感影像中,云、雪對(duì)光線的反射率均達(dá)到90%以上,具有十分相似的光譜特征; 霧中的水滴一般比云中的水滴小得多,使云對(duì)可見(jiàn)光形成反射,而霧則形成米氏散射,由此引起云、霧的輻射特性的差異。如圖1(a)—(d)所示,全色(panchromatic,PAN)與多光譜(multispectral,MUX)影像中云區(qū)域比霧區(qū)域的平均亮度要高很多,本文通過(guò)提取灰度均值、方差等特征量可以區(qū)分目標(biāo)灰度特征的差異。在紋理特征方面,云、雪、霧有著明顯的區(qū)別。如圖1(a),(b)的云樣本,其紋理屬于隨機(jī)紋理,多變且難測(cè),表現(xiàn)雜亂沒(méi)有規(guī)律,邊緣紋理較粗且模糊; 圖1(c),(d)的霧樣本紋理則比較均勻,平滑度較好,邊緣形態(tài)規(guī)則; 圖1(e),(f)的積雪樣本受到地面紋理的影響,具有更好的方向性,梯度變化大。針對(duì)上述分析,本文利用梯度、灰度共生矩陣、一階差分、分?jǐn)?shù)維等紋理特征量來(lái)描述目標(biāo)紋理的復(fù)雜度和粗糙程度,對(duì)云、雪、霧表現(xiàn)的不同紋理特征進(jìn)行分辨。
隨機(jī)森林(random forest,RF)[12]是一種高準(zhǔn)確度的分類算法,可以用于處理大批量的輸入數(shù)據(jù),且計(jì)算效率高、速度快,目前被廣泛運(yùn)用于各個(gè)領(lǐng)域。
RF以CART(classification and regression tree)決策樹(shù)為基礎(chǔ)學(xué)習(xí)器進(jìn)行集成學(xué)習(xí),決策樹(shù)是由根節(jié)點(diǎn)、中間節(jié)點(diǎn)和葉子節(jié)點(diǎn)構(gòu)成的樹(shù)狀數(shù)據(jù)結(jié)構(gòu)。利用Bagging算法[13]從訓(xùn)練集T中隨機(jī)獲得k個(gè)獨(dú)立同分布的訓(xùn)練子集T={T1,T2,…,Tk},并根據(jù)不同的訓(xùn)練子集構(gòu)造生成對(duì)應(yīng)k棵不同的決策樹(shù)F={F1,F2,…,Fk}。CART樹(shù)通過(guò)Gini系數(shù)作為節(jié)點(diǎn)特征選擇的標(biāo)準(zhǔn),如果樣本集T中有N種類別實(shí)例,Gini系數(shù)計(jì)算公式為:
Gini(T)=1-∑[P(i)*P(i)],
(1)
式中,P(i)為當(dāng)前節(jié)點(diǎn)上數(shù)據(jù)集中第i類樣本的比例,當(dāng)特征屬性f將樣本集合T分為T1和T2兩個(gè)樣本子集時(shí),Gini系數(shù)定義為:
Gini=Gini(T)-Gini(T1)-Gini(T2) ,
(2)
選取使Gini系數(shù)最小的屬性作為該節(jié)點(diǎn)的分裂屬性,并設(shè)定節(jié)點(diǎn)閾值和滿足停止分裂的標(biāo)準(zhǔn)。對(duì)于第i棵CART樹(shù),將樣本子集從根節(jié)點(diǎn)開(kāi)始訓(xùn)練,如果達(dá)到終止條件,則設(shè)置當(dāng)前節(jié)點(diǎn)為葉子節(jié)點(diǎn); 如果沒(méi)有達(dá)到終止條件,則利用Gini系數(shù)從N維特征中選取一個(gè)最佳特征,將當(dāng)前節(jié)點(diǎn)上的樣本劃分到左、右子節(jié)點(diǎn)中,繼續(xù)訓(xùn)練其他節(jié)點(diǎn),直到所有節(jié)點(diǎn)都訓(xùn)練過(guò)了或者被標(biāo)記為葉子節(jié)點(diǎn)。所有CART都被訓(xùn)練過(guò)后,每棵樹(shù)能根據(jù)節(jié)點(diǎn)閾值對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè),綜合每棵樹(shù)的分類結(jié)果投票決定整個(gè)隨機(jī)森林最終的分類結(jié)果。
為提高分類檢測(cè)效率,先對(duì)原始遙感影像進(jìn)行降采樣處理,得到該影像對(duì)應(yīng)1 024×1 024像素大小的快視圖。基于隨機(jī)森林的光學(xué)衛(wèi)星遙感影像云、雪、霧分類檢測(cè)方法的具體過(guò)程見(jiàn)下文。
2.2.1 樣本集構(gòu)建
選取大量具有不同特征的云、雪、霧和地物影像對(duì)象,對(duì)影像對(duì)象進(jìn)行分塊處理,得到對(duì)象的正方形影像塊,構(gòu)成訓(xùn)練樣本集。
2.2.2 特征提取
云、雪、霧和地物具有非常豐富的光譜、幾何和紋理信息,利用不同對(duì)象的特征差異可以對(duì)其進(jìn)行區(qū)分。分析并提取各類樣本對(duì)象的光譜、幾何和紋理特征,將每個(gè)樣本的特征信息存儲(chǔ)在一個(gè)向量中,計(jì)算所有樣本的特征信息,最終得到樣本的8維特征向量,本方法選取的特征如下:
1)灰度均值。表示一定大小的圖像內(nèi)所有像素的灰度算術(shù)平均值,即
(3)
2)灰度標(biāo)準(zhǔn)差。反映圖像各像素灰度值相對(duì)于灰度均值的偏離值,即
(4)
3)平均梯度。表示圖像細(xì)微特征的不同,可以評(píng)價(jià)圖像的清晰程度,即
(5)
式中:M,N為圖像的長(zhǎng)和寬;Z(xi,yj)為第(i,j)個(gè)像素的灰度值。
4)信息熵。反映圖像數(shù)據(jù)源信息的不確定性,以此衡量數(shù)據(jù)中的信息量大小,即
(6)
式中pi為影像中每個(gè)像元灰度信息在所有灰度信息中出現(xiàn)的概率。
5)對(duì)比度。反映圖像中某個(gè)像素和其周邊像素的灰度值對(duì)比,若對(duì)比度高,則圖像的亮度信息變化較大,即
(7)
式中:δ(i,j)=|i-j|,代表相鄰像素間的灰度差;Pδ(i,j)代表相鄰像素間灰度差為δ時(shí)的概率。
6)逆差矩。反映圖像的同質(zhì)性,并度量圖像中紋理變化的大小,即
(8)
式中:k為影像的灰度級(jí);Pδ(i,j)表示鄰像素間灰度差為δ=|i-j|時(shí)的概率。
7)自相關(guān)性。反映出圖像中局部范圍內(nèi)的紋理一致程度,相關(guān)度大,則說(shuō)明圖像中部分區(qū)域的灰度差異小,灰度分布均勻; 反之則圖像灰度值相差大,即
(9)
8)分?jǐn)?shù)維。表示了紋理的破碎程度,可用來(lái)度量圖像中紋理特征是否規(guī)則,分?jǐn)?shù)維大則圖像越破碎,反之圖像越光滑,即
(10)
(11)
式中f(x,y)為第(x,y)個(gè)像素的灰度值。
2.2.3 隨機(jī)森林模型訓(xùn)練和分類
基于隨機(jī)森林對(duì)樣本數(shù)據(jù)集進(jìn)行訓(xùn)練,構(gòu)造得到訓(xùn)練后的隨機(jī)森林云、雪、霧分類模型。選取待檢測(cè)影像中3×3的結(jié)構(gòu)對(duì)象,利用訓(xùn)練好的隨機(jī)森林模型,輸入結(jié)構(gòu)對(duì)象的特征向量,統(tǒng)計(jì)各決策樹(shù)的投票結(jié)果,得到各結(jié)構(gòu)對(duì)象屬于云、雪、霧和地物的投票數(shù)量,根據(jù)各對(duì)象屬于云、雪、霧和地物得票數(shù)多少,對(duì)影像對(duì)象進(jìn)行分類劃分,遍歷以上過(guò)程直至影像末端,得到云、雪、霧分類檢測(cè)結(jié)果。
2.2.4 形態(tài)學(xué)運(yùn)算
由于云、雪、霧區(qū)域內(nèi)部的光譜特征相似且紋理特征不明顯,利用隨機(jī)森林完成分類后會(huì)出現(xiàn)大量云、霧、雪區(qū)域的誤檢。本文利用圖像形態(tài)學(xué)原理,對(duì)二值化后的云、雪、霧3幅圖像進(jìn)行先膨脹后腐蝕的形態(tài)學(xué)“閉”運(yùn)算,將云、雪、霧的區(qū)域連成一片,消除云、雪、霧邊緣的噪聲區(qū)域。
2.2.5 融合云、雪、霧的二值化圖像
判斷云、雪、霧區(qū)域的位置關(guān)系,確定目標(biāo)區(qū)域最終類別。融合后的影像中存在部分類別重疊的區(qū)域,若某一類區(qū)域包含于另一類別的區(qū)域范圍,則判定該區(qū)域與外接區(qū)域的類別一致,否則判定原分類結(jié)果為該區(qū)域的類別,判定后的結(jié)果為云、雪、霧的檢測(cè)范圍。本文采用隨機(jī)森林模型的云雪霧分類檢測(cè)過(guò)程如圖2所示。
遙感影像中常常出現(xiàn)“同譜異物”的情況,地物和云、霧、雪樣本亮度值非常接近,如圖3所示。在隨機(jī)森林分類器完成第一次檢測(cè)后,存在部分高亮地物和云、雪、霧區(qū)域發(fā)生錯(cuò)檢,通過(guò)增加“二次檢測(cè)”環(huán)節(jié),降低云、雪、霧和地物間的錯(cuò)檢率,提高檢測(cè)精度?!岸螜z測(cè)”是在第一次檢測(cè)結(jié)果的基礎(chǔ)上,重新選擇云、雪、霧和高亮地物樣本,利用隨機(jī)森林模型分別對(duì)云與地物、霧與地物、雪與地物樣本進(jìn)行訓(xùn)練并分類,只有當(dāng)目標(biāo)區(qū)域的兩次檢測(cè)結(jié)果類別判定一致時(shí),才能定該區(qū)域?yàn)樵?、雪或霧,否則判定該區(qū)域類別為地物。
本文以國(guó)產(chǎn)光學(xué)衛(wèi)星遙感影像數(shù)據(jù)為研究對(duì)象,分別選取1 023幅資源三號(hào)(ZY-3)號(hào)衛(wèi)星全色遙感影像,554幅資源一號(hào)02C(ZY1-02C)號(hào)衛(wèi)星全色遙感影像,832幅高分一號(hào)(GF-1)號(hào)衛(wèi)星多光譜遙感影像和317幅天繪一號(hào)01號(hào)(TH01-01)衛(wèi)星多光譜遙感影像作為實(shí)驗(yàn)數(shù)據(jù)(數(shù)據(jù)來(lái)源: http: //sjfw.sasmac.cn/)。
全色影像采用32×32像素的影像塊作為基礎(chǔ)處理單元,多光譜影像則采用16×16像素的影像塊。分別選取1 500個(gè)地物樣本,1 000個(gè)云樣本,1 000個(gè)雪樣本,1 000個(gè)霧樣本作為訓(xùn)練樣本數(shù)據(jù),重新選取各500個(gè)云與地物、霧與地物、雪與地物樣本進(jìn)行“二次檢測(cè)”。所有實(shí)驗(yàn)均在Inteli7 3960X內(nèi)存64 GB的高性能計(jì)算機(jī)平臺(tái)上完成。
本文先從降采樣后全色、多光譜遙感影像快視圖中選取云雪霧和地物樣本,計(jì)算樣本特征信息,利用隨機(jī)森林模型對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練和分類。通過(guò)增加“二次檢測(cè)”減少云、雪、霧和有效區(qū)域之間的錯(cuò)檢情況。圖4中(a)—(d)分別是隨機(jī)森林對(duì)ZY-3全色影像、02C全色影像、GF-1多光譜影像、TH01-01多光譜影像的一次與二次分類檢測(cè)結(jié)果,其中紅色區(qū)域表示云,藍(lán)色區(qū)域表示霧,紫紅色區(qū)域表示雪。
(a) ZY-3全色影像及一檢、二檢結(jié)果
(b) ZY2-02C全色影像及一檢、二檢結(jié)果
(c) GF1多光譜影像及一檢、二檢測(cè)結(jié)果
(d) TH-1多光譜影像及一檢、二檢結(jié)果圖4 不同衛(wèi)星云、雪、霧分類檢測(cè)結(jié)果Fig.4 Cloud, snow, fog classificationresults of each satellite
3.3.1 定量評(píng)價(jià)
以圖4中的ZY-3號(hào)衛(wèi)星全色影像分類檢測(cè)結(jié)果為例,采用混淆矩陣法對(duì)第一次檢測(cè)結(jié)果和二次檢測(cè)后的結(jié)果進(jìn)行定量評(píng)價(jià),混淆矩陣中列數(shù)據(jù)表示該類別的真實(shí)像素?cái)?shù)量,行數(shù)據(jù)表示遙感影像分類得到的像素個(gè)數(shù),如表1和表2所示。從表中可以看出,經(jīng)過(guò)二次檢測(cè)后的總體分類精度和Kappa系數(shù)都要明顯高于第一次分類檢測(cè)的結(jié)果。從混淆矩陣中可以發(fā)現(xiàn),經(jīng)過(guò)二次檢測(cè)的地物錯(cuò)檢成云、雪、霧的像元數(shù)量減少,正確分類的云、雪、霧像元數(shù)量增加。根據(jù)混淆矩陣得到分類精度指標(biāo),其中第一次檢測(cè)Kappa系數(shù)為0.741,達(dá)到分類精度“一般”的標(biāo)準(zhǔn),而經(jīng)過(guò)二次檢測(cè)的分類結(jié)果Kappa系數(shù)達(dá)到0.8以上,說(shuō)明云、雪、霧的檢測(cè)結(jié)果和參考影像中的真實(shí)范圍很吻合。綜上所述,增加二次檢測(cè)可以有效提高光學(xué)衛(wèi)星遙感影像云、雪、霧的分類檢測(cè)精度。
表1 第一次檢測(cè)混淆矩陣Tab.1 Confusion matrix of the first detection results
表2 第二次檢測(cè)混淆矩陣Tab.2 Confusion matrix of the second detection results
3.3.2 檢測(cè)結(jié)果
將從事遙感圖像目視解譯人員對(duì)測(cè)試影像判讀得到的云、雪、霧范圍與本文方法得到的檢測(cè)結(jié)果進(jìn)行比較,若通過(guò)隨機(jī)森林方法得到的云、雪、霧區(qū)域和目視解譯范圍誤差小于±10%,則表示該幅影像檢測(cè)準(zhǔn)確,否則表示檢測(cè)不合格。表3是本文實(shí)驗(yàn)數(shù)據(jù)的云、雪、霧分類檢測(cè)結(jié)果精度。
表3 各衛(wèi)星遙感影像云、雪、霧檢測(cè)精度Tab.3 Cloud, snow, fog detection accuracy ofeach satellite remote sensing images
當(dāng)云、雪、霧分類檢測(cè)精度達(dá)到90%以上時(shí),可以將該方法應(yīng)用在工程實(shí)踐中。從表3中可以看出,利用隨機(jī)森林方法對(duì)遙感影像進(jìn)行第一次檢測(cè)之后,只有資源三號(hào)和高分一號(hào)衛(wèi)星影像的檢測(cè)精度略高于90%,而資源二號(hào)02C和天繪一號(hào)01星的檢測(cè)精度分別為88.1%和87.8%。經(jīng)過(guò)第二次檢測(cè)后各衛(wèi)星遙感影像的檢測(cè)精度明顯提高,其中精度最高的資源三號(hào)全色影像達(dá)到了97.3%,精度最低的天繪多光譜影像也達(dá)到了93.4%。實(shí)驗(yàn)測(cè)試數(shù)據(jù)的總數(shù)據(jù)量為4 361.6 MB,總計(jì)算時(shí)間3 620 s,平均每幅影像檢測(cè)時(shí)間0.83s。以上檢測(cè)數(shù)據(jù)說(shuō)明本文分類檢測(cè)云、雪、霧的方法具有較高的精度和效率,能在工程實(shí)踐中應(yīng)用。
為提高海量遙感數(shù)據(jù)使用效率,基于隨機(jī)森林模型對(duì)云、雪、霧和地物樣本進(jìn)行訓(xùn)練,再用訓(xùn)練后的模型對(duì)數(shù)據(jù)對(duì)象進(jìn)行投票決策,實(shí)現(xiàn)遙感影像的云、雪、霧分類檢測(cè)。具體結(jié)論如下:
1)對(duì)遙感影像數(shù)據(jù)降采樣處理,將得到的快視圖作為實(shí)驗(yàn)源數(shù)據(jù),大大減少了實(shí)驗(yàn)的數(shù)據(jù)量,從而降低了樣本數(shù)據(jù)在特征訓(xùn)練和影像數(shù)據(jù)在分類預(yù)測(cè)過(guò)程中的計(jì)算量,顯著提高分類檢測(cè)效率。
2)針對(duì)隨機(jī)森林分類模型第一次檢測(cè)結(jié)果中存在較多誤檢、錯(cuò)檢的情況,本文采用增加第二次檢測(cè)的策略,有效降低了影像有效區(qū)域的錯(cuò)檢率。經(jīng)多顆衛(wèi)星、大量遙感數(shù)據(jù)的工程實(shí)踐證明,本文提出的方法取得了較高的檢測(cè)精度,具有較好的適用性。