邱耀煒,沈蔚,惠笑,張華臣
(1.上海海洋大學(xué) 海洋科學(xué)學(xué)院,上海 201306;2. 上海河口海洋測繪工程技術(shù)研究中心,上海 201306)
淺海水深是重要的地形要素,對于近岸海域開展經(jīng)濟(jì)和軍事等活動都具有十分重要的意義。目前,淺海水深遙感反演有許多經(jīng)驗(yàn)和半經(jīng)驗(yàn)算法[1-3]。一般來說,經(jīng)驗(yàn)算法都是采用回歸分析法進(jìn)行一次或多次多項(xiàng)式擬合,算法簡單,計(jì)算方便,但推導(dǎo)出的水深反演關(guān)系式依賴于采用的具有相同統(tǒng)計(jì)性質(zhì)的數(shù)據(jù)。半經(jīng)驗(yàn)算法是一種簡化模式的理論解析模型,一般通過線性回歸的方式來獲取模型中難以求解的參數(shù),計(jì)算獲取經(jīng)驗(yàn)參數(shù)來代入模型求解水深。Lyzenga等人[4]基于底層反射模型,對水深值和波段輻射亮度進(jìn)行線性回歸反演獲得了水深信息。Stumpf等人[5]則利用波段之間的比值和水深值進(jìn)行線性的回歸獲取了水深,在一定程度上消除了淺海海底不同的底質(zhì)的影響。Su和Bramante[6-7]對Lyzenga和Stumpf的水深反演模型進(jìn)行了優(yōu)化改進(jìn),提高了精度。然而,當(dāng)遙感影像存在噪聲時(shí),比如,海水受到風(fēng)浪影響在遙感圖像上容易形成耀斑,在高分辨率圖像上尤為明顯,這使得水深和水體表面輻射亮度之間的線性關(guān)系并不成立。因而水深反演的經(jīng)驗(yàn)半經(jīng)驗(yàn)算法都具有一定的局限性。
隨機(jī)森林(random forest,RF) 算法是由Leo Breiman和Cutler Adele 在2001 年提出的一種機(jī)器學(xué)習(xí)方法[8],可用于分類和回歸。隨機(jī)森林算法在非線性回歸上表現(xiàn)十分出眾,非常適合解決非線性的復(fù)雜問題。
李旭青等[9]利用隨機(jī)森林算法構(gòu)建了高精度的水稻冠層氮素含量光譜反演點(diǎn)模型,模型具有普適性和有效性;王麗愛等[10]利用HJ-CCD 數(shù)據(jù)和隨機(jī)森林算法對小麥葉面積指數(shù)進(jìn)行了反演,解決了復(fù)雜的非線性回歸問題。目前,隨機(jī)森林算法在水深反演上的應(yīng)用較少。
本文以甘泉島為研究區(qū)域,利用實(shí)測的水深數(shù)據(jù)和WorldView-2遙感影像4個(gè)波段組合構(gòu)建了隨機(jī)森林水深反演模型,確定了模型的中的主要參數(shù),并同其余3種水深反演模型:單波段模型、雙波段比值模型、多波段模型進(jìn)行了對比;同時(shí)利用實(shí)測水深值進(jìn)行了驗(yàn)證,旨在為提升大范圍水深探測精度提供技術(shù)和方法。
可見光水深探測是依據(jù)光線對水體的穿透能力和水體的漫衰減系數(shù)成反比,水體的漫衰減系數(shù)因水體所含物質(zhì)的不同而有所差異。利用可見光在水體的穿透能力通過一定的解算方法可以獲取水體的深度值。
遙感水深理論解析模型從輻射傳輸模型出發(fā)來求取水深值,需要多種水體內(nèi)部參數(shù),由于水體內(nèi)部光學(xué)參數(shù)獲取困難,模型求解復(fù)雜,沒有得到廣泛的應(yīng)用。在此基礎(chǔ)上發(fā)展的半理論半經(jīng)驗(yàn)?zāi)P停且环N簡化模式的理論解析模型。目前應(yīng)用較廣泛的有以下3種模型:
單波段線性回歸模型:
Z=a·ln(Li-Lsi)+b
(1)
雙波段比值線性回歸模型:
(2)
多波段組合線性回歸模型:
(3)
式中:Z是水深值;Li(Lj)是影像第i(j)波段的輻射亮度;Lsi(Lj)是影像第i(j)波段深水區(qū)輻射亮度,反映了水面輻射、水體散射及大氣散射等的總和,不包含底質(zhì)反射;a(ai)是回歸系數(shù)。
隨機(jī)森林是一種集成式的監(jiān)督學(xué)習(xí)方法,在其算法中,同時(shí)生成多個(gè)預(yù)測模型,并綜合分析每個(gè)模型的預(yù)測結(jié)果來提升預(yù)測準(zhǔn)確度。隨機(jī)森林算法設(shè)計(jì)對樣本和變量進(jìn)行抽樣,從而生成大量決策樹,對于每棵樹進(jìn)行自助抽樣,利用袋外樣本數(shù)據(jù)進(jìn)行誤差估計(jì)。在生成決策樹的時(shí)候,隨機(jī)選擇變量,因此隨機(jī)森林不會隨著樹數(shù)目的增多而產(chǎn)生過度擬合[11]。隨機(jī)森林算法能夠在大數(shù)據(jù)集的情況下仍有高效的學(xué)習(xí)速率,可以計(jì)算變量的相對重要度,對結(jié)果具有可解釋性。
如圖1所示,隨機(jī)森林算法首先把原始訓(xùn)練數(shù)據(jù)集分成k個(gè)子集,也就是構(gòu)建k棵樹,對于每顆樹進(jìn)行自助抽樣。一般來說,抽取其中2/3的數(shù)據(jù)集作為袋內(nèi)數(shù)據(jù),生成大量的決策樹。而未被抽到的樣本組成了袋外數(shù)據(jù)集(out of bag data,OOB),OOB可以用來估計(jì)輸入的各個(gè)變量在模型中的重要性,同時(shí)可以計(jì)算模型的泛化誤差。假設(shè)模型有M個(gè)變量,每棵樹在分割節(jié)點(diǎn)生成決策樹時(shí),隨機(jī)抽取m 圖1 隨機(jī)森林回歸分析流程圖 在隨機(jī)森林回歸算法中,需要對回歸樹個(gè)數(shù)ntree和分割節(jié)點(diǎn)所需的變量數(shù)目mtry進(jìn)行優(yōu)化。 如圖2所示,研究區(qū)選取的是我國西沙群島中的甘泉島,研究區(qū)范圍為111°34′41″E ~111°35′38″E,16°29′56″N ~16°31′17″N。遙感圖像采用的是高分辨率WorldView-2數(shù)據(jù),成像時(shí)間是2014年4月2日03:33(格林尼治時(shí)間),一共有藍(lán)、綠、紅和近紅外4個(gè)波段,空間分辨率為2 m。本研究對WorldView-2數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正和噪聲去除等預(yù)處理。實(shí)測水深數(shù)據(jù)由機(jī)載LiDAR SHOALS-3000獲得,水平精度2.5 m,測深精度25 cm。由于遙感影像和實(shí)測水深數(shù)據(jù)存在時(shí)間差,根據(jù)中國海事服務(wù)網(wǎng)查詢當(dāng)日的潮位進(jìn)行改正。 圖2 研究區(qū)示意圖 當(dāng)淺海區(qū)域受到風(fēng)浪影響時(shí),太陽光在粗糙海面發(fā)生菲涅耳反射,而在遙感圖像的就產(chǎn)生白色的耀斑,這對淺海水深的探測精度會產(chǎn)生一定的影響。根據(jù)Lyzenga[12]等人的理論,水體對近紅外波段具有強(qiáng)吸收的特性,可認(rèn)為在近紅外波段的輻射亮度只有大氣散射和太陽耀斑組成,在經(jīng)過大氣校正后的圖像上,只受太陽耀斑的影響。在圖像上選擇不包含水體信息的深水區(qū)中的N個(gè)樣本點(diǎn),可見光波段i與近紅外波段j之間的協(xié)方差ρij表示為: (4) 式中:Lin代表第n個(gè)樣本點(diǎn)在波段i上的輻射亮度值;Ljn則代表第n個(gè)樣本點(diǎn)在近紅外波段上的輻射亮度值。 Lyzenga等人的理論將耀斑去除的公式表示為: (5) 圖3(a)中的影響存在大量的耀斑,經(jīng)改正后入圖3(b)所示,圖像質(zhì)量明顯提升。 圖3 甘泉島耀斑改正對比圖 根據(jù)實(shí)測數(shù)據(jù)的經(jīng)緯度坐標(biāo),利用IDL編程提取遙感圖像上對應(yīng)位置的各波段象元值。結(jié)合潮位改正后的水深值,以及甘泉島遙感數(shù)據(jù),用IDL編程建立單波段法、雙波段法、多波段法算法水深反演模型。用R語言編程實(shí)現(xiàn)隨機(jī)森林算法,確定隨機(jī)森林算法中的回歸樹個(gè)數(shù)ntree和分割節(jié)點(diǎn)所需的變量數(shù)目mtry。針對每種模型,采用相關(guān)系數(shù)(R2)和均方根誤差(root mean square error,RMSE)作為評價(jià)指標(biāo),將模型反演獲得的水深值和實(shí)測水深值進(jìn)行回歸分析,比較這4種模型的反演精度。 傳統(tǒng)的線性水深反演模型,單波段線性回歸模型選用對水體信息敏感的綠波段作為自變量,雙波段線性回歸模型選用對水體具有較強(qiáng)穿透性的綠波段和藍(lán)波段的比值,多波段線性回歸模型則采用全部的4個(gè)波段。 利用353個(gè)訓(xùn)練樣本點(diǎn),使用隨機(jī)森林算法構(gòu)建水深反演模型,采用4個(gè)波段B1、B2、B3、B4和各個(gè)波段之間的比值B1/B2、B1/B3、B1/B4、B2/B3、B2/B4、B3/B4作為自變量,實(shí)測的水深值作為因變量。在隨機(jī)森林模型構(gòu)建中,通過多次試驗(yàn)和經(jīng)驗(yàn),確定隨機(jī)森林算法中的回歸樹個(gè)數(shù)ntree和分割節(jié)點(diǎn)所需的變量數(shù)目mtry分別為1 000和6。隨機(jī)森林模型根據(jù)袋外訓(xùn)練數(shù)據(jù)集計(jì)算了模型中的各個(gè)自變量的重要性,圖4反映了10個(gè)變量對模型的影響力,變量的重要性值越大,說明變量特征在模型中越重要。在10個(gè)變量中B1/B2重要性最高,也就說明在模型中與水深信息最為密切,傳統(tǒng)的雙波段線性回歸模型選用的也正是這兩個(gè)波段。在B1、B2、B3和B4中B2的重要性最高,這也與單波段線性回歸模型選用對水體信息敏感的綠波段(B2)十分符合,水體在近紅外波段(B4)區(qū)間表現(xiàn)為強(qiáng)吸收,所以B4對水深信息不敏感,重要性較低。 圖4 變量重要性分布 為了探究隨機(jī)森林算法遙感反演水深能力,在 模型構(gòu)建中,根據(jù)多次試驗(yàn),確定隨機(jī)森林水深反演算法中最佳的模型參數(shù)ntree和mtry,利用模型反演的水深數(shù)據(jù)與相應(yīng)的實(shí)測水深數(shù)據(jù)進(jìn)行比較,采用R2和RMSE為精度評價(jià)標(biāo)準(zhǔn)(表2),并同傳統(tǒng)的單波段線性回歸模型、雙波段比值線性回歸模型和多波段線性回歸模型進(jìn)行比較,繪制了各個(gè)模型反演值與實(shí)測值的1∶1關(guān)系圖,結(jié)果如圖5所示。 圖5直觀地反映了各個(gè)檢驗(yàn)點(diǎn)的水深反演值和實(shí)測值的偏離情況,所有檢驗(yàn)點(diǎn)越接近圖中的直線說明偏離越小,反之亦然。從圖5(a)中可以看出,單波段線性模型的檢驗(yàn)點(diǎn)總體存在一定的偏離,在水深值大于10.0 m時(shí),反演水深值比實(shí)測水深值要小很多,這可能是單波段模型的采用的綠波段受限于對水深的探測能力。圖5(b)反應(yīng)的雙波段比值模型檢驗(yàn)點(diǎn)的偏離程度比單波段線性模型要大,水深值在0~2 m之間時(shí)反演值偏高。由圖5(c)和圖5(d)可知,多波段線性模型和隨機(jī)森林模型檢驗(yàn)點(diǎn)總體偏離程度相對較小。 表2 淺海水深反演模型比較 圖5 水深反演值與實(shí)測值1∶1關(guān)系圖 表2比較了隨機(jī)森林模型和其余3種傳統(tǒng)水深反演的線性回歸模型,由表2可知,隨機(jī)森林模型最優(yōu),檢驗(yàn)點(diǎn)之間的R2達(dá)到 0.967,且均方根誤差最小(0.868 m)。多波段模型次之,單波段模型和雙波段模型較差。 結(jié)果表明隨機(jī)森林算法反演獲得水深值和實(shí)測水深值之間顯著相關(guān),R2最高且RMSE最低,優(yōu)于傳統(tǒng)的單波段模型、雙波段比值模型和多波段模型。 本文根據(jù)WorldView-2遙感影像和實(shí)測水深數(shù)據(jù),利用隨機(jī)森林非線性回歸模型對甘泉島地區(qū)進(jìn)行淺海水深反演,并同前人已經(jīng)使用線性回歸反演模型進(jìn)行對比。結(jié)果分析表明:隨機(jī)森林水深反演模型反演精度優(yōu)于單波段線性回歸、雙波段比值線性回歸、多波段組合線性回歸模型??梢杂行Э焖佾@取大范圍水下地形信息。 本文的研究工作仍存在不足之處,在隨機(jī)森林水深反演模型構(gòu)建中,主要參數(shù)的ntree和mtry的確定需要一定的人為干預(yù),在一定程度上會影響反演效率。在今后的工作中,還需要在保證精度的條件下研究參數(shù)的自適應(yīng)選取,對模型進(jìn)行完善。2 數(shù)據(jù)處理
2.1 研究區(qū)與數(shù)據(jù)
2.2 耀斑消除
2.3 數(shù)據(jù)利用與分析
3 結(jié)果與分析
3.1 水深反演模型構(gòu)建
3.2 模型精度驗(yàn)證與比較
4 結(jié)束語