余 成,唐 毅,潘 楊,易虹辰,谷一平,褚 峰,施驕陽(yáng)
基于無(wú)人機(jī)遙感和集成學(xué)習(xí)的蘇州市河流懸浮物濃度反演
余 成1,唐 毅2*,潘 楊2,易虹辰2,谷一平2,褚 峰2,施驕陽(yáng)2
(1.蘇州科技大學(xué)地理科學(xué)與測(cè)繪工程學(xué)院,江蘇 蘇州 215009;2.蘇州科技大學(xué)環(huán)境科學(xué)與工程學(xué)院,江蘇 蘇州 215009)
針對(duì)單一模型容易過(guò)擬合的缺陷,通過(guò)4種不同的集成學(xué)習(xí)策略實(shí)現(xiàn)多種機(jī)器學(xué)習(xí)方法之間的優(yōu)勢(shì)互補(bǔ),從而提升模型的精度和泛化性,并以蘇州市為研究區(qū),無(wú)人機(jī)采集的多光譜遙感影像和實(shí)地測(cè)量的懸浮物濃度數(shù)據(jù)為基礎(chǔ)建立集成學(xué)習(xí)反演模型.同時(shí),4種常用的回歸分析方法和3種經(jīng)典的機(jī)器學(xué)習(xí)方法被作為對(duì)比方法以探究集成學(xué)習(xí)策略的有效性.結(jié)果表明,集成學(xué)習(xí)策略能夠克服單一模型各自的缺陷,顯著提升遙感反演的精度和泛化性,其中表現(xiàn)最優(yōu)的集成學(xué)習(xí)反演模型的驗(yàn)證集決定系數(shù)達(dá)到0.821,相比回歸分析方法提升38.21%,相比單一機(jī)器學(xué)習(xí)方法提升16.79%.此外,集成學(xué)習(xí)方法反演的絕對(duì)誤差集中于較小值,其絕對(duì)誤差均值和中值均優(yōu)于傳統(tǒng)方法,以期提高城市懸浮物濃度反演精度,為無(wú)人機(jī)遙感河流懸浮物濃度反演提供指導(dǎo).
河流懸浮物濃度;無(wú)人機(jī)遙感;多光譜;集成學(xué)習(xí);機(jī)器學(xué)習(xí)
在經(jīng)濟(jì)高速增長(zhǎng)、城市化進(jìn)程快速發(fā)展以及人口持續(xù)上升的局勢(shì)下,城市內(nèi)部的生活廢水、工業(yè)污水排放加劇,沖破了河流納污能力極限,城市河流水質(zhì)惡化日趨嚴(yán)重.其中,河流中的懸浮物濃度(SSC)嚴(yán)重威脅到了水體透明度、水下光場(chǎng)分布以及河流生態(tài)系統(tǒng)的平衡性,及時(shí)有效地對(duì)城市河流中的懸浮物濃度進(jìn)行定量監(jiān)測(cè),對(duì)于挖掘其時(shí)空變化規(guī)律,做到精準(zhǔn)有效的防護(hù)治理有重要的現(xiàn)實(shí)意義[1].傳統(tǒng)的水體懸浮物濃度監(jiān)測(cè)手段需要實(shí)地采集水體樣本,存在技術(shù)耗時(shí)長(zhǎng)、工作量大、經(jīng)濟(jì)成本高等問(wèn)題[2].遙感技術(shù)具有時(shí)效性強(qiáng)、宏觀性強(qiáng)、經(jīng)濟(jì)成本低、人力成本低等優(yōu)點(diǎn),能夠從全局反映研究區(qū)水體水質(zhì)狀況及空間分布特征[3].其中,無(wú)人機(jī)遙感憑借短時(shí)間快速獲取、高分辨率精細(xì)覆蓋、長(zhǎng)時(shí)序動(dòng)態(tài)追蹤等優(yōu)勢(shì)成為水體懸浮物濃度監(jiān)測(cè)的可靠方法[4-5].
當(dāng)前,基于遙感的懸浮物濃度反演算法多采用經(jīng)驗(yàn)/半經(jīng)驗(yàn)?zāi)P蚚6-8],然而,由于城市河流所處的環(huán)境條件具有多樣性,水體的光學(xué)特征表現(xiàn)出復(fù)雜性,以經(jīng)驗(yàn)/半經(jīng)驗(yàn)?zāi)P蛯?duì)城市河流開(kāi)展懸浮物濃度反演工作,難以準(zhǔn)確地反映河流光譜特性與懸浮物濃度之間的復(fù)雜關(guān)系.得利于計(jì)算機(jī)科學(xué)與技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法被引入懸浮物濃度反演領(lǐng)域. Silveira等[9]采用Sentinel-2和多種機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了密蘇里河與密西西比河的SSC反演.Peterson等[10]基于Landsat多光譜影像數(shù)據(jù),利用極限學(xué)習(xí)機(jī)反演密蘇里河1982年至2018年SSC,平均2達(dá)到0.91.Nazeer等[11]采用神經(jīng)網(wǎng)絡(luò)反演香港沿海的懸浮物濃度,精度相比傳統(tǒng)經(jīng)驗(yàn)?zāi)P吞嵘?0%.基于更高效的數(shù)學(xué)方法與數(shù)據(jù)處理方式,機(jī)器學(xué)習(xí)方法具備更高維度的數(shù)據(jù)處理能力,能夠更好地兼顧懸浮物濃度與河流光學(xué)特征之間的非線性關(guān)系,更適合用于遙感影像與懸浮物濃度間的復(fù)雜關(guān)系模擬工作[12-14].然而,單一機(jī)器學(xué)習(xí)方法存在過(guò)參數(shù)化問(wèn)題,對(duì)反演結(jié)果的負(fù)面影響不可忽視.
集成學(xué)習(xí)通過(guò)集成多個(gè)不同模型的反演結(jié)果,采用特定規(guī)則將這些結(jié)果組合,產(chǎn)生更加穩(wěn)健的反演結(jié)果,提高模型的泛化能力和精度[15-17].已有學(xué)者采用集成學(xué)習(xí)方法開(kāi)展懸浮物濃度反演工作.陳點(diǎn)點(diǎn)等[18]采用多種機(jī)器學(xué)習(xí)方法對(duì)閩江下游懸浮物進(jìn)行反演,發(fā)現(xiàn)其懸浮物濃度分布存在“西低東高”特征.DeLuca等[19]利用MODIS影像數(shù)據(jù)和RF方法反演切薩皮克灣懸浮物濃度,Dehkordi等[20]分別采用RF和SVR對(duì)密蘇里河SSC進(jìn)行反演,實(shí)驗(yàn)證明RF反演的2相比SVR提升14%.Kwon等[21]在考慮光譜變異性的情況下聯(lián)合高斯混合模型與RF開(kāi)發(fā)了SSC反演模型,相比傳統(tǒng)RF模型精度提升10.81%.這些研究證明了集成學(xué)習(xí)在SSC反演方面的優(yōu)越性,但現(xiàn)有研究多基于星載衛(wèi)星數(shù)據(jù)開(kāi)展粗分辨率反演,在基于無(wú)人機(jī)遙感的懸浮物濃度精細(xì)反演方面研究有所欠缺.同時(shí),研究多集中于單一集成學(xué)習(xí)策略,而缺乏對(duì)不同集成學(xué)習(xí)策略的對(duì)比和分析.
基于此,本文以蘇州市為研究區(qū),探究無(wú)人機(jī)遙感技術(shù)和集成學(xué)習(xí)策略在城市河流SSC監(jiān)測(cè)方面的潛力.首先,本文分別通過(guò)無(wú)人機(jī)遙感和實(shí)地測(cè)量的方式獲取研究區(qū)的多光譜遙感影像和SSC監(jiān)測(cè)數(shù)據(jù).其后,以多種常用的機(jī)器學(xué)習(xí)方法為基模型,分別利用引導(dǎo)聚集(Bagging)、提升(Boosting)、堆疊(Stacking)和投票(Voting)等4種集成學(xué)習(xí)策略建立了多種SSC集成學(xué)習(xí)反演模型.與此同時(shí),為了探究集成學(xué)習(xí)策略的有效性,4種常用的回歸分析方法和3種經(jīng)典的機(jī)器學(xué)習(xí)方法也被用于建立無(wú)人機(jī)遙感SSC反演模型,以期找到適用于城市河流SSC反演的最優(yōu)模型.本文研究成果有望提高城市河流SSC反演精度,為無(wú)人機(jī)遙感SSC反演提供指導(dǎo).
蘇州市位于中國(guó)江蘇省東南部,處于長(zhǎng)江中下游,城市地形平坦,內(nèi)部河港交錯(cuò),有“一江、百湖、萬(wàn)河”的獨(dú)特水網(wǎng),且經(jīng)濟(jì)發(fā)達(dá),人口眾多.在經(jīng)濟(jì)快速發(fā)展、城市化進(jìn)程不斷深化的過(guò)程中,生活廢水與工業(yè)污水的排放使得城市河流水質(zhì)惡化,對(duì)蘇州市的城市河流生態(tài)造成了巨大威脅.盡管近年來(lái)蘇州市積極推動(dòng)城市河流污染治理工程,河流污染形勢(shì)得到較大改觀,但城市河流水質(zhì)問(wèn)題仍存在超標(biāo)、難以徹底根除的問(wèn)題.本文著眼于蘇州市內(nèi)部與生活區(qū)、工業(yè)區(qū)緊密相連的河流,設(shè)置兩個(gè)研究區(qū),其中,樣區(qū)1為工業(yè)區(qū),周?chē)植贾T多的工業(yè)廠房,有大量的工業(yè)廢水排放;樣區(qū)2為生活區(qū),該區(qū)域分布著住宅樓、學(xué)校及醫(yī)院等建筑,污水排放以生活廢水為主,研究區(qū)位置如圖1所示.
圖1 研究區(qū)示意
本文的無(wú)人機(jī)多光譜影像數(shù)據(jù)由大疆多旋翼無(wú)人機(jī)搭載的MicaSense RedEdge相機(jī)拍攝.該傳感器以輕便、小體積的優(yōu)勢(shì)成為中小型無(wú)人機(jī)遙感的常用傳感器,能同時(shí)提供5個(gè)波段的影像,其主要波段信息及參數(shù)信息見(jiàn)表1.
表1 MicaSense RedEdge相機(jī)參數(shù)
分別于2022年2月和4月對(duì)兩個(gè)樣區(qū)附近的河流進(jìn)行無(wú)人機(jī)多光譜影像獲取、水質(zhì)采樣及采樣點(diǎn)坐標(biāo)記錄工作,數(shù)據(jù)采集時(shí)航高與航速分別設(shè)置為200m與5m/s.為了保證遙感影像與水體采樣結(jié)果的匹配關(guān)系,水體樣本數(shù)據(jù)采集與遙感影像數(shù)據(jù)獲取同步進(jìn)行,二者時(shí)間差不超過(guò)2h.最終在工業(yè)樣區(qū)和生活樣區(qū)共獲取了90組實(shí)地采樣數(shù)據(jù),獲取到的無(wú)人機(jī)多光譜影像數(shù)據(jù)及SSC實(shí)地采樣點(diǎn)如圖2所示.由圖可知,所獲取的無(wú)人機(jī)影像覆蓋了兩個(gè)樣區(qū)內(nèi)主要的細(xì)小水體,且SSC采樣點(diǎn)在樣區(qū)內(nèi)均勻分布,數(shù)據(jù)具有代表性.對(duì)實(shí)地采樣獲取的懸浮物濃度進(jìn)行統(tǒng)計(jì),結(jié)果如表2所示.由表可知,工業(yè)樣區(qū)內(nèi)河流的SSC(平均值為52.7mg/L)顯著高于生活樣區(qū)(平均值為41.4mg/L),且工業(yè)樣區(qū)內(nèi)河流的SSC變化也較生活樣區(qū)明顯(標(biāo)準(zhǔn)差為18.0mg/L).
圖2 無(wú)人機(jī)影像及采樣點(diǎn)位示意
表2 野外實(shí)地采樣SSC濃度
為探究集成學(xué)習(xí)在城市河流SSC反演中的作用,本文以多種機(jī)器學(xué)習(xí)方法為基模型,采用Bagging、Boosting、Stacking和Voting等4種策略建立集成學(xué)習(xí)模型.同時(shí),4種回歸分析方法和3種傳統(tǒng)的單模型機(jī)器學(xué)習(xí)方法也被分別用于SSC反演模型的建立,以對(duì)比分析集成學(xué)習(xí)策略的有效性.
回歸分析是探索變量之間關(guān)系最常使用的方法,通常具有原理簡(jiǎn)單,結(jié)果易于解釋等優(yōu)勢(shì).因此,多元線性回歸(MLR)、偏最小二乘回歸(PLS)、嶺回歸(Ridge)和套索回歸(LASSO)等4種常用的回歸分析方法被用于城市河流SSC反演模型的建立.PLS是一種常用的線性回歸方法,它通過(guò)將原始自變量轉(zhuǎn)換為一組新的綜合變量,并利用這些變量建立預(yù)測(cè)模型[22].PLS相較于傳統(tǒng)MLR具有適用性廣、對(duì)噪聲和冗余信息適應(yīng)性高和能夠處理自變量共線性等優(yōu)勢(shì)[23].Ridge回歸通過(guò)對(duì)系數(shù)正則化以削弱過(guò)擬合問(wèn)題,具有過(guò)擬合概率低、能夠處理高維數(shù)據(jù)、穩(wěn)定性強(qiáng)等優(yōu)勢(shì)[24-25].LASSO與Ridge回歸類(lèi)似,同樣加入正則化項(xiàng)以約束模型復(fù)雜度,但二者的正則化項(xiàng)和懲罰系數(shù)并不相同[26].總的來(lái)說(shuō),Ridge回歸更適用于存在顯著多元共線性的數(shù)據(jù),而LASSO則更適用于具有稀疏性的數(shù)據(jù)[27].
隨著計(jì)算機(jī)技術(shù)的發(fā)展,各種機(jī)器學(xué)習(xí)方法被提出,以最大化地挖掘數(shù)據(jù)中的潛在信息,并在各種反演任務(wù)上表現(xiàn)出強(qiáng)大的性能.因此,SVR、決策樹(shù)(DT)和K鄰近(KNN)等3種經(jīng)典的機(jī)器學(xué)習(xí)方法被用于SSC反演模型的建立.SVR具有適用于非線性回歸和可以處理高維數(shù)據(jù)等優(yōu)勢(shì),是最常使用的機(jī)器學(xué)習(xí)回歸方法之一[28-29].DT類(lèi)似二叉樹(shù),其核心原理是基于信息增益或基尼系數(shù)等指標(biāo)來(lái)選擇最佳的劃分節(jié)點(diǎn)[30].KNN模型將來(lái)自所有數(shù)據(jù)點(diǎn)的特征值(目標(biāo)值)存儲(chǔ)在輸入數(shù)據(jù)集中,并使用訓(xùn)練數(shù)據(jù)集和預(yù)測(cè)數(shù)據(jù)集之間的特征相似性來(lái)查找相似的數(shù)據(jù)點(diǎn)(目標(biāo)值)并預(yù)測(cè)數(shù)據(jù)集的目標(biāo)值,具有非參數(shù)化、魯棒性強(qiáng)和高可擴(kuò)展性等優(yōu)勢(shì),被廣泛應(yīng)用于回歸和分類(lèi)任務(wù)[31].
集成學(xué)習(xí)通過(guò)構(gòu)建多個(gè)單模型機(jī)器學(xué)習(xí)方法組合策略的方式完成數(shù)據(jù)集的學(xué)習(xí)任務(wù),實(shí)現(xiàn)單模型機(jī)器學(xué)習(xí)方法之間的優(yōu)勢(shì)互補(bǔ),從而提高模型的精度及泛化能力,還在一定程度上減少了模型對(duì)數(shù)據(jù)集的依賴程度.本文選用Bagging、Boosting、Stacking和Voting等4種不同的集成學(xué)習(xí)策略進(jìn)行研究工作.各方法原理如下.
(1)Bagging
Bagging法通過(guò)對(duì)原始數(shù)據(jù)集進(jìn)行自助采樣(Bootstrap)隨機(jī)采集與訓(xùn)練樣本集個(gè)數(shù)相同的子樣本集,然后在每個(gè)子樣本集上訓(xùn)練獨(dú)立的回歸器,最終通過(guò)投票或求概率均值的方式集成這些回歸器來(lái)得到最終的回歸器[32].該方法通過(guò)隨機(jī)采樣來(lái)降低方差,從而提高模型的泛化性和準(zhǔn)確性,具有穩(wěn)定性強(qiáng)、適用性廣等特征.隨機(jī)森林(RF)是最為典型的Bagging方法,它通過(guò)在原始數(shù)據(jù)集的隨機(jī)子集上構(gòu)建多棵決策樹(shù),并使用投票或平均值等方式集成這些決策樹(shù)的結(jié)果,得到最終的分類(lèi)或回歸結(jié)果[33].該方法具有魯棒性強(qiáng)、高維數(shù)據(jù)適應(yīng)性強(qiáng)和可擴(kuò)展性強(qiáng)等優(yōu)勢(shì),是最常用的機(jī)器學(xué)習(xí)方法之一[34].
(2)Boosting
Boosting的基本思想是通過(guò)加權(quán)迭代訓(xùn)練多個(gè)回歸器,使得每個(gè)回歸器都能夠?qū)η耙粋€(gè)回歸器的錯(cuò)誤糾正,最終通過(guò)集成這些回歸器的結(jié)果來(lái)得到最終的回歸器.自適應(yīng)提升算法(AdaBoost)是Boosting策略的代表算法之一,它采用錯(cuò)誤加權(quán)的策略來(lái)訓(xùn)練基回歸器,并根據(jù)其在訓(xùn)練集上的表現(xiàn)來(lái)動(dòng)態(tài)調(diào)整樣本權(quán)重,使得下一個(gè)基回歸器更加關(guān)注錯(cuò)誤的樣本[35].GBDT是Boosting策略的另一個(gè)代表,它主要使用梯度提升技術(shù)來(lái)構(gòu)建一個(gè)強(qiáng)大的回歸器[36].GBDT能夠很好處理特征因子間的關(guān)系,提高模型泛化能力,并且對(duì)數(shù)據(jù)缺失敏感較弱,可以有效降低偏差,提高模型整體精確度.
(3)Stacking
Stacking是由Wolpert提出的一種基于模型組合的集成學(xué)習(xí)策略,它的核心思想是將多個(gè)不同模型的預(yù)測(cè)結(jié)果作為新特征輸入到一個(gè)元模型中,用于最終的預(yù)測(cè)[37].Stacking相比于Bagging和Boosting等其他集成學(xué)習(xí)策略可以在不同的數(shù)據(jù)空間角度和數(shù)據(jù)結(jié)構(gòu)角度來(lái)觀測(cè)數(shù)據(jù),可以利用不同模型之間的優(yōu)勢(shì),提高預(yù)測(cè)性能[38].此外,由于Stacking集成學(xué)習(xí)過(guò)程中將數(shù)據(jù)集劃分為多個(gè)子集,并使用不同的訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集來(lái)訓(xùn)練和驗(yàn)證模型,可以有效降低過(guò)擬合的概率.
(4)Voting
Voting是一種簡(jiǎn)單但有效的集成學(xué)習(xí)策略,它通過(guò)對(duì)多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行投票來(lái)得出最終的預(yù)測(cè)結(jié)果[39].Voting策略具有簡(jiǎn)單易實(shí)現(xiàn)、魯棒性強(qiáng)等優(yōu)勢(shì),但其效果取決于所集成的基模型之間的差異性.若基模型之間的相似度較高,則集成效果會(huì)受到影響.
為了確定最適用于SSC反演的模型,采用平均絕對(duì)值誤差(MAE)、均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)、決定系數(shù)(2)等4種指標(biāo)對(duì)各反演模型的精度進(jìn)行定量評(píng)價(jià).MAE表征了反演值和實(shí)測(cè)值之間的絕對(duì)誤差的平均值,RMSE則對(duì)異常值具有高敏感性,能直觀地反映反演值和實(shí)測(cè)值的偏差.此外,為了削弱數(shù)據(jù)范圍的影響,引入MAPE作為定量指標(biāo)以分析誤差與實(shí)測(cè)值之間的百分比關(guān)系.2則表征反演值與預(yù)測(cè)值之間的擬合優(yōu)度,其值越大,說(shuō)明模型的擬合度越高.各指標(biāo)的計(jì)算公式如下:
地表反射率是遙感影像最重要的特征,水體及其中的懸浮物對(duì)不同波長(zhǎng)輻射的響應(yīng)是遙感SSC反演的基礎(chǔ).由圖3可見(jiàn)一些典型水體樣本的遙感反射光譜曲線,SSC與近紅外波段反射率呈現(xiàn)出典型的正相關(guān),近紅外波段反射率越高,SSC通常越高.水體通常在綠光波段和紅邊波段存在反射峰,尤其以紅邊波段最為顯著,這可能與水中的藻類(lèi)有關(guān).
圖3 典型水體樣本的反射光譜曲線
為了進(jìn)一步探究無(wú)人機(jī)多光譜影像與懸浮物濃度之間的關(guān)系,使用Pearsonr相關(guān)系數(shù)、Spearmanr相關(guān)系數(shù)和互信息指數(shù)(MI)等方法分析影像波段與懸浮物濃度之間的相關(guān)性.由表3可知,近紅外波段與懸浮物濃度相關(guān)性最高(Pearsonr=0.940, Spearmanr=0.942, MI=1.025),紅光波段次之(Pearsonr=0.793, Spearmanr=0.792, MI=0.564),而紅邊波段相關(guān)性最低(Pearsonr=0.433).所有波段的Pearsonr和Spearmanr相關(guān)系數(shù)均非常顯著(<0.001),且三種相關(guān)性評(píng)價(jià)方法結(jié)果吻合.
綜上,無(wú)人機(jī)多光譜影像與懸浮物濃度之間存在顯著的相關(guān)性,使用無(wú)人機(jī)遙感影像反演河流懸浮物濃度具有理論依據(jù)和可行性.
表3 影像各波段與懸浮物濃度的相關(guān)性
接下來(lái),分別使用2.1節(jié)所述的4種回歸分析方法建立SSC反演模型.無(wú)人機(jī)多光譜遙感影像的5個(gè)波段全部被作為特征,實(shí)地采集的SSC值被作為標(biāo)簽.其中,采集的SSC測(cè)量數(shù)據(jù)中的70%被作為訓(xùn)練集,剩余的30%數(shù)據(jù)被作為驗(yàn)證集.最終得到4種方法在驗(yàn)證集上的反演結(jié)果及其誤差(圖4).由圖可知,LASSO回歸方法取得了4種回歸分析方法中最優(yōu)的精度(RMSE=10.623mg/L, MAPE=18.987%,2=0.594),Ridge回歸的精度次之(RMSE= 23.776mg/L, MAPE=23.776%,2=0.525),而MLR方法精度最低(RMSE=12.540mg/L, MAPE=20.515%,2=0.434).值得注意的是,Ridge回歸方法雖然取得了次優(yōu)的2,但其實(shí)測(cè)-反演擬合曲線與對(duì)角線的吻合程度較低,且MAPE指標(biāo)也顯著地高于其他方法.
其后,采用同樣的策略,基于2.1節(jié)所述的3種傳統(tǒng)的機(jī)器學(xué)習(xí)方法建立SSC反演模型.3種方法在驗(yàn)證集上的反演結(jié)果及其誤差如圖5所示.由圖可知,SVR方法反演精度最低,其驗(yàn)證集2僅為0.488,略次于回歸分析方法中的Lasso回歸,且實(shí)測(cè)-反演擬合曲線與對(duì)角線差異巨大,顯示出該方法在遙感SSC反演方面的適應(yīng)性較低.DT方法精度次之,其RMSE和2分別達(dá)到10.559mg/L 和0.599.KNN方法的RMSE和2分別達(dá)到9.086mg/L 和0.703,其反演精度不僅優(yōu)于4種回歸分析方法,也顯著地優(yōu)于其他兩種機(jī)器學(xué)習(xí)方法.
圖4 回歸分析方法反演結(jié)果
圖5 經(jīng)典機(jī)器學(xué)習(xí)方法反演結(jié)果
綜上,遙感影像與城市河流SSC之間存在著顯著的相關(guān)性,回歸分析方法能夠在一定程度上捕獲SSC與遙感影像的關(guān)系,4種回歸方法建模的2平均值和最大值分別達(dá)到0.504及0.594.而機(jī)器學(xué)習(xí)方法則能夠提升反演模型的擬合能力,其平均2為0.597,高出回歸分析方法對(duì)應(yīng)值17.86%;2最高值為0.703,高出回歸分析方法對(duì)應(yīng)值18.35%,相比回歸分析方法精度提升顯著.
3.1節(jié)的實(shí)驗(yàn)證明了機(jī)器學(xué)習(xí)方法在遙感信息獲取和反演方面的強(qiáng)大能力.然而,單一的機(jī)器學(xué)習(xí)模型具有各自的缺陷,在復(fù)雜的現(xiàn)實(shí)場(chǎng)景下容易出現(xiàn)欠擬合和過(guò)擬合等問(wèn)題.因此,采用2.2節(jié)介紹的集成學(xué)習(xí)策略,以多種回歸分析和機(jī)器學(xué)習(xí)方法為基模型,建立多個(gè)集成學(xué)習(xí)SSC反演模型,以期克服單一模型各自的缺陷,達(dá)到最佳反演效果.
四種集成學(xué)習(xí)策略實(shí)現(xiàn)方式及其對(duì)應(yīng)的反演精度如表4所示,各策略最優(yōu)方法的反演結(jié)果如圖6所示.由表和圖可知,Bagging和Boosting策略的最優(yōu)方法分別為RF和GBDT,其2分別達(dá)到0.778和0.787,優(yōu)于前述最優(yōu)的回歸分析方法和單一機(jī)器學(xué)習(xí)方法.Stacking策略的最優(yōu)方法為SVR、MLR、DT和KNN模型的組合,其RMSE和2分別達(dá)到7.239mg/L和0.811.Voting策略的最優(yōu)方法為MLR、SR、DT和KNN模型的組合,其RMSE和2分別達(dá)到7.046mg/L和0.821.
由以上統(tǒng)計(jì)結(jié)果可知,集成學(xué)習(xí)策略在單模型機(jī)器學(xué)習(xí)方法的基礎(chǔ)上進(jìn)一步提升了擬合能力,其最差的RMSE和2分別為8.073mg/L和0.765,優(yōu)于前述所有的回歸分析方法和單一機(jī)器學(xué)習(xí)方法的結(jié)果(最優(yōu)RMSE和2分別為9.086mg/L和0.703).集成學(xué)習(xí)策略反演的平均2為0.799,最高值為0.821,平均2高于單模型機(jī)器學(xué)習(xí)方法34.512%.
表4 集成學(xué)習(xí)方法反演精度
圖6 集成學(xué)習(xí)方法典型模型反演結(jié)果
特別地,基于Voting策略組合的MLR、SR、DT和KNN模型雖然取得了最低的RMSE和最高的2,然而其MAPE卻高于基于Stacking策略組合的SVR、MLR、DT和KNN模型(16.332%),這可能是由于基于Voting的方法更好地?cái)M合了全體SSC,而基于Stacking策略的方法更好地?cái)M合了SSC低值,因此基于Voting策略的方法在MAPE上表現(xiàn)次于基于Stacking策略的方法.這表明對(duì)于SSC反演不僅需要關(guān)注各種精度指標(biāo),還需要考慮各種方法的誤差分布情況.因此,使用箱形圖進(jìn)一步分析SSC反演的誤差分布,結(jié)果如圖8所示.由圖可知,三種方法中,集成學(xué)習(xí)方法的誤差整體較小,其絕對(duì)誤差均值和中值分別為6.521mg/L和5.410mg/L,低于回歸分析方法和單一機(jī)器學(xué)習(xí)方法的對(duì)應(yīng)誤差.同時(shí),無(wú)論是單一機(jī)器學(xué)習(xí)方法還是集成學(xué)習(xí)方案,其絕對(duì)誤差的最大異常值均相對(duì)較小(低于30mg/L),而回歸分析方法絕對(duì)誤差的最大異常值則高于50mg/L.
進(jìn)一步地,使用小提琴圖分析四種集成學(xué)習(xí)策略中各自最優(yōu)的兩種方法的反演誤差分布,結(jié)果如圖8所示.由圖可知,基于Bagging和Boosting策略的方案絕對(duì)誤差集中于5mg/L附近.基于Voting策略對(duì)應(yīng)的誤差分布小提琴呈葫蘆型,其絕對(duì)誤差集中于2mg/L和8mg/L附近.相比之下,基于Stacking策略的誤差分布小提琴呈梭形,其絕對(duì)誤差集中于較小值(2mg/L附近).
圖7 各建模策略誤差分布
綜上,基于集成學(xué)習(xí)的方法相比回歸分析方法和傳統(tǒng)的單一機(jī)器學(xué)習(xí)方法在無(wú)人機(jī)多光譜遙感城市河流SSC反演方面具有顯著的優(yōu)勢(shì),其中最為突出的是基于Stacking策略的方法,該方法不僅具有相對(duì)最優(yōu)的精度,而且絕對(duì)誤差多集中于較小值,相比其他集成學(xué)習(xí)方法具有更穩(wěn)定的性能,是理想的SSC反演方法.
3.1節(jié)和3.2節(jié)的實(shí)驗(yàn)證明了集成學(xué)習(xí)方法相比回歸分析方法和單一機(jī)器學(xué)習(xí)方法在SSC反演方面的顯著優(yōu)勢(shì).因此,本節(jié)以3.2節(jié)中表現(xiàn)最優(yōu)的基于Stacking策略組合的SVR、MLR、DT和KNN模型為反演模型,對(duì)蘇州市生活區(qū)部分水體的SSC進(jìn)行反演,結(jié)果如圖9所示.由圖9(a)可知,蘇州生活區(qū)SSC呈現(xiàn)典型的東高西低,細(xì)小水體SSC較低、而河流主干SSC較高的趨勢(shì).圖9(b)顯示生活區(qū)左下部,即蘇州市學(xué)府路、科技路附近部分河段和蘇州科技大學(xué)內(nèi)湖SSC較低,而臨近石湖的部分河段SSC相對(duì)較高.圖9(c)顯示楊素路、友新路等部分路段附近的細(xì)小水體SSC較低,而生活區(qū)中部和南部京杭運(yùn)河河段SSC顯著高于其他河段.
同樣地,使用基于Stacking策略組合的SVR、MLR、DT和KNN模型為反演模型,對(duì)蘇州市工業(yè)區(qū)部分水體的SSC進(jìn)行反演,結(jié)果如圖10所示.由圖10(a)可知,工業(yè)區(qū)SSC整體也呈現(xiàn)東高西低的趨勢(shì).以長(zhǎng)江路為界,長(zhǎng)江路東側(cè)馬運(yùn)河部分河段SSC較高,而長(zhǎng)江路西側(cè)馬運(yùn)河部分河段以及前橋港、珠江路附近河段SSC相對(duì)較低,但工業(yè)區(qū)整體SSC仍顯著高于生活區(qū).特別地,圖10(c)中佳能(蘇州)有限公司工業(yè)園區(qū)左側(cè)部分河段SSC呈現(xiàn)出典型的分布不均的情況.河道右側(cè)靠近佳能(蘇州)有限公司工業(yè)園區(qū)的部分河段SSC呈現(xiàn)低值,而該部分河段中部靠近橋梁部分河段SSC相對(duì)較高,反映了本文反演方法對(duì)懸浮物濃度變化的敏感性.
圖9 生活區(qū)河流懸浮物濃度
圖10 工業(yè)區(qū)河流懸浮物濃度
近年來(lái),無(wú)人機(jī)遙感憑借著其空間分辨率高、數(shù)據(jù)實(shí)時(shí)性強(qiáng)、成本低廉且靈活性高等優(yōu)勢(shì),被廣泛應(yīng)用于各種地表監(jiān)測(cè)和傾斜、正射影像采集任務(wù)[40–43].回歸分析是探索變量間關(guān)系最常使用的方法,具有原理簡(jiǎn)單、結(jié)果易于解釋等優(yōu)勢(shì)[44–46],但在模型擬合能力上卻所有欠缺,導(dǎo)致其反演精度相對(duì)較低.機(jī)器學(xué)習(xí)方法在各種遙感反演任務(wù)上表現(xiàn)出遠(yuǎn)超回歸分析方法的性能[47].3.2節(jié)實(shí)驗(yàn)結(jié)果也證明了聯(lián)合無(wú)人機(jī)遙感技術(shù)和機(jī)器學(xué)習(xí)方法在SSC反演方面的潛力(最優(yōu)RMSE=9.086mg/L,最優(yōu)2=0.703,分別優(yōu)于回歸分析方法最優(yōu)精度16.92%和18.35%).
然而,現(xiàn)有的基于機(jī)器學(xué)習(xí)方法反演SSC的研究主要使用單一模型,而機(jī)器學(xué)習(xí)方法的解空間維度通常較高,各方法具有較強(qiáng)的擬合能力,卻由于方法各自的缺陷容易陷入局部最優(yōu)解(即“過(guò)擬合”)[48–53].同時(shí),由于遙感輻射傳輸?shù)臋C(jī)理復(fù)雜,單一機(jī)器學(xué)習(xí)模型難以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)場(chǎng)景,也加劇了單一機(jī)器學(xué)習(xí)模型的過(guò)擬合問(wèn)題,限制了機(jī)器學(xué)習(xí)方法在遙感SSC反演方面的能力.
集成學(xué)習(xí)以多個(gè)單一機(jī)器學(xué)習(xí)模型作為基模型,采用不同的策略將各個(gè)基模型進(jìn)行組合以實(shí)現(xiàn)基模型方法之間的優(yōu)勢(shì)互補(bǔ),最大程度地發(fā)揮機(jī)器學(xué)習(xí)方法的潛力[54],從而提升模型在SSC反演方面的精度和泛化性.本文以MLR、SVR、DT和KNN等方法為基模型,分別使用4種集成學(xué)習(xí)策略對(duì)這些基模型進(jìn)行組合.3.1和3.2節(jié)實(shí)驗(yàn)顯示基于集成學(xué)習(xí)的方法在無(wú)人機(jī)遙感SSC反演方面顯著優(yōu)于回歸分析方法和傳統(tǒng)單一機(jī)器學(xué)習(xí)方法,其中基于Stacking策略組合的SVR、MLR、DT和KNN模型取得了最優(yōu)的反演效果,其驗(yàn)證集RMSE為7.046mg/L,相比回歸分析方法最優(yōu)RMSE提升50.76%,相比單一機(jī)器學(xué)習(xí)方案最優(yōu)RMSE提升28.95%;其驗(yàn)證集最優(yōu)2為0.821,相比回歸分析方法最優(yōu)2提升38.21%,相比單一機(jī)器學(xué)習(xí)方法最優(yōu)2提升16.79%.此外,集成學(xué)習(xí)方法反演的絕對(duì)誤差集中于較小值,其絕對(duì)誤差均值和中值分別為6.521mg/L和5.410mg/L,低于回歸分析方法和單一機(jī)器學(xué)習(xí)方法的對(duì)應(yīng)誤差,說(shuō)明了集成學(xué)習(xí)方案在總體精度和誤差分布兩方面均優(yōu)于傳統(tǒng)單一模型.
由于輻射傳輸?shù)膹?fù)雜性,無(wú)人機(jī)影像采集時(shí)間、氣象條件和反演河流特性等會(huì)對(duì)SSC反演造成影響[55].本研究在數(shù)據(jù)獲取過(guò)程中盡量保持了數(shù)據(jù)采集時(shí)間和氣象條件的一致性,但不同河段的河流特性仍存在較大差異.同時(shí),樣本數(shù)量顯著影響著遙感反演精度,尤其是機(jī)器學(xué)習(xí)遙感反演精度.集成學(xué)習(xí)策略能夠克服各種單一模型的缺陷,顯著提升了遙感SSC反演精度和泛化性,在遙感地表監(jiān)測(cè)和信息提取方面表現(xiàn)出巨大的潛力.然而,受限于天氣和數(shù)據(jù)采集成本等主客觀條件,本文所采集的無(wú)人機(jī)影像數(shù)據(jù)和SSC實(shí)地監(jiān)測(cè)數(shù)據(jù)量相對(duì)較小,所建立的反演模型僅適用于春季時(shí)蘇州市部分水體.后續(xù)的研究將重點(diǎn)考慮獲取更長(zhǎng)時(shí)間尺度和更大空間范圍的數(shù)據(jù),以提升反演模型的適用性.同時(shí),考慮將河流流速、深度等信息加入反演模型,以削弱河流特性對(duì)反演的影響,進(jìn)一步提升反演精度.
5.1 無(wú)人機(jī)遙感技術(shù)在城市河流SSC反演方面具有巨大的潛力,無(wú)人機(jī)遙感影像各波段與SSC實(shí)測(cè)值具有顯著的高相關(guān)性,使用無(wú)人機(jī)遙感技術(shù)反演城市河流SSC具有理論基礎(chǔ)和可行性.
5.2 機(jī)器學(xué)習(xí)方法相比回歸分析方法在遙感SSC反演方面具有更強(qiáng)的擬合能力和更高的反演精度,而集成學(xué)習(xí)策略通過(guò)聯(lián)合多種模型,有效地克服了單一機(jī)器學(xué)習(xí)方法容易“過(guò)擬合”的缺陷,其反演精度相比單一機(jī)器學(xué)習(xí)方法具有顯著提升.
5.3 基于Stacking的集成學(xué)習(xí)模型在SSC反演的多種精度指標(biāo)和誤差分布兩方面均取得了最優(yōu)的結(jié)果,其中最為典型的是基于Stacking策略組合的SVR、MLR、DT和KNN模型,其驗(yàn)證集2相比回歸分析方法提升近1/3,相比單一機(jī)器學(xué)習(xí)方法提升近1/6,且反演絕對(duì)誤差多集中于較小值,是蘇州市城市河流SSC反演的最優(yōu)方法.
[1] 盧世軍.Ⅱ類(lèi)水體懸浮物遙感研究進(jìn)展[J]. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版), 2016,(32):34-39. Lu S J. Research progress on the retrieval of suspended sediment from II water [J]. Modern Computers, 2016,(32):34-39.
[2] 王 波,黃津輝,郭宏偉,等.基于遙感的內(nèi)陸水體水質(zhì)監(jiān)測(cè)研究進(jìn)展[J]. 水資源保護(hù), 2022,38(3):117-124. Wang B, Huang J H, Guo H W, et al. Progress in research on inland water quality monitoring based on remote sensing [J]. Water Resources Protection, 2022,38(3):117-124.
[3] Hong S M, Cho K H, Park S, et al. Estimation of cyanobacteria pigments in the main rivers of South Korea using spatial attention convolutional neural network with hyperspectral imagery [J]. GIScience & Remote Sensing, 2022,59(1):547-567.
[4] 楊 振,盧小平,武永斌,等.無(wú)人機(jī)高光譜遙感的水質(zhì)參數(shù)反演與模型構(gòu)建[J]. 測(cè)繪科學(xué), 2020,45(9):60-64,95. Yang Z, Lu X P, Wu Y B, et al. Retrieval and model construction of water quality parameters for UAV hyperspectral remote sensing [J]. 2020,45(9):60-64,95.
[5] 臧傳凱,沈 芳,楊正東.基于無(wú)人機(jī)高光譜遙感的河湖水環(huán)境探測(cè)[J]. 自然資源遙感, 2021,33(3):45-53. Zang C K, Shen F, Yang Z D. Aquatic environmental monitoring of inland waters based on UAV hyperspectral remote sensing [J]. Remote Sensing for Natural Resources, 2021,33(3):45-53.
[6] 丁 波,李 偉,胡 克.基于同期光學(xué)與微波遙感的茅尾海及其入海口水體懸浮物反演[J]. 自然資源遙感, 2022,34(1):10-17. Ding B, Li W, Hu K. Inversion of total suspended matter concentration in Maowei Sea and its estuary, Southwest China using contemporaneous optical data and GF SAR data [J]. Remote Sensing for Natural Resources, 2022,34(1):10-17.
[7] 蓋穎穎,王章軍,楊 雷,等.金沙灘近岸水體葉綠素a和懸浮物遙感反演研究[J]. 國(guó)土資源遙感, 2020,32(3):129-135. Gai Y Y, Wang Z J, Yang L, et al. Remote sensing retrieval of chlorophyll - a and suspended matter in coastal waters of Golden Beach [J]. Remote Sensing for Land and Resources, 2020,32(3):129- 135.
[8] 禹定峰,周 燕,馬萬(wàn)棟,等.基于HICO模擬數(shù)據(jù)的杭州灣水體懸浮物濃度遙感反演[J]. 國(guó)土資源遙感, 2018,30(4):171-175. Yu D F, Zhou Y, Ma W D, et al. Retrieval of total suspended matter concentration in Hangzhou Bay based on simulated HICO from in situ hyperspectral data [J]. Remote Sensing for Land and Resources, 2018, 30(4):171-175.
[9] Silveira Kupssinskü L, Thomassim Guimar?es T, Menezes de Souza E, et al. A method for chlorophyll-a and suspended solids prediction through remote sensing and machine learning [J]. Sensors, 2020,20(7): 2125.
[10] Peterson K T, Sagan V, Sidike P, et al. Suspended sediment concentration estimation from Landsat imagery along the Lower Missouri and Middle Mississippi Rivers using an extreme learning machine [J]. Remote Sensing, 2018,10(10):1503.
[11] Nazeer M, Bilal M, Alsahli M M M, et al. Evaluation of empirical and machine learning algorithms for estimation of coastal water quality parameters [J]. ISPRS International Journal of Geo-Information, 2017,6(11):360.
[12] 王思?jí)?秦伯強(qiáng).湖泊水質(zhì)參數(shù)遙感監(jiān)測(cè)研究進(jìn)展[J]. 環(huán)境科學(xué), 2023,44(3):1228-1243. Wang S M, Qin B Q. Research progress on remote sensing monitoring of lake water quality parameters [J]. Environmental Science, 2023,44 (3):1228-1243.
[13] 楊宇鋒,武 暕,王 璐,等.基于隨機(jī)森林模型的遼河高時(shí)間分辨率氮、磷濃度模擬與預(yù)測(cè)[J]. 環(huán)境科學(xué)學(xué)報(bào), 2022,42(12):384-391. Yang Y F, Wu J, Wang L, et al. Simulation and prediction of nitrogen and phosphorus concentrations with high time resolution in Liao River using random forest model [J]. Acta Scientiae Circumstantiae, 2022, 42(12):384-391.
[14] Pahlevan N, Smith B, Alikas K, et al. Simultaneous retrieval of selected optical water quality indicators from Landsat-8, Sentinel-2, and Sentinel-3 [J]. Remote Sensing of Environment, 2022,270: 112860.
[15] 嵇曉燕,楊 凱,陳亞男,等.基于ARIMA和Prophet的水質(zhì)預(yù)測(cè)集成學(xué)習(xí)模型[J]. 水資源保護(hù), 2022,38(6):111-115. Ji X Y, Yang K, Chen Y N, et al. An ensemble learning model for water quality forecast based on ARIMA and Prophet. Water Resources Protection, 2022,38(6):111-115.
[16] 王成賀,宋 寧,王京禹,等.基于時(shí)空演變多重特性建模的近海葉綠素濃度時(shí)序預(yù)測(cè)[J]. 信號(hào)處理, 2022,38(6):1232-1239. Wang C H, Song N, Wang J Y, et al. Temporal prediction of chlorophyll concentration in coastal waters based on multi- characteristics modeling of spatio-temporal evolution [J]. Journal of Signal Processing, 2022,38(6):1232-1239.
[17] 李雪清,鄭 航,劉悅憶,等.基于多源數(shù)據(jù)機(jī)器學(xué)習(xí)的區(qū)域水質(zhì)預(yù)測(cè)方法研究[J]. 水利水電技術(shù)(中英文), 2021,52(11):152-163. Li X Q, Zheng H, Liu Y Y, et al. Multi-source data machine learning-based study on method for regional water quality prediction [J]. Water Resources and Hydropower Engineering, 2021,52(11):152- 163.
[18] 陳點(diǎn)點(diǎn),陳蕓芝,馮險(xiǎn)峰,等.基于超參數(shù)優(yōu)化CatBoost算法的河流懸浮物濃度遙感反演[J]. 地球信息科學(xué)學(xué)報(bào), 2022,24(4):780-791. Chen D D, Chen Y Z, Feng X F, et al. Retrieving suspended matter concentration in rivers based on hyperparameter optimized CatBoost algorithm [J]. Journal of Geo-information Science, 2022,24(4):780- 791.
[19] DeLuca N M, Zaitchik B F, Curriero F C. Can multispectral information improve remotely sensed estimates of total suspended solids? A statistical study in Chesapeake Bay [J]. Remote Sensing, 2018,10(9):1393.
[20] Dehkordi A T, Ghasemi H, Zoej M J V. Machine learning-based estimation of suspended sediment concentration along Missouri River using remote sensing imageries in Google Earth Engine [C]// 2021 7th International Conference on Signal Processing and Intelligent Systems (ICSPIS). IEEE, 2021:1-5.
[21] Kwon S, Seo I W, Noh H, et al. Hyperspectral retrievals of suspended sediment using cluster-based machine learning regression in shallow waters [J]. Science of The Total Environment, 2022,833:155168.
[22] Abdi H. Partial least squares regression and projection on latent structure regression (PLS Regression) [J]. WIREs Computational Statistics, 2010,2(1):97-106.
[23] Wold S, Sj?str?m M, Eriksson L. PLS-regression: A basic tool of chemometrics [J]. Chemometrics and Intelligent Laboratory Systems, 2001,58(2):109-130.
[24] Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems [J]. Technometrics, 1970,12(1):55-67.
[25] Hoerl A E, Kennard R W. Ridge regression: applications to nonorthogonal problems [J]. Technometrics, 1970,12(1):69-82.
[26] Tibshirani R. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society. Series B (Methodological), 1996,58(1):267-288.
[27] Tibshirani R. The lasso method for variable selection in the Cox model [J]. Statistics in Medicine, 1997,16(4):385-395.
[28] Drucker H, Burges C J C, Kaufman L, et al. Support vector regression machines [C]//Advances in Neural Information Processing Systems. MIT Press, 1996.
[29] Suykens J A K, Vandewalle J, De Moor B. Optimal control by least squares support vector machines [J]. Neural Networks, 2001,14(1): 23-35.
[30] Kamiński B, Jakubczyk M, Szufel P. A framework for sensitivity analysis of decision trees [J]. Central European Journal of Operations Research, 2018,26(1):135-159.
[31] Cover T, Hart P. Nearest neighbor pattern classification [J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.
[32] Breiman L. Bagging predictors [J]. Machine Learning, 1996,24:123- 140.
[33] Breiman L. Random forests [J]. Machine Learning, 2001,45(1):5-32.
[34] Painsky A, Rosset S. Cross-validated variable selection in tree-based methods improves predictive performance [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(11):2142-2153.
[35] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [C]//Vitányi P, ed.// Computational Learning Theory. Berlin, Heidelberg: Springer, 1995: 23-37.
[36] Piryonesi S M, El-Diraby T E. Data analytics in asset management: Cost-effective prediction of the pavement condition index [J]. Journal of Infrastructure Systems, 2020,26(1):04019036.
[37] Wolpert D H. Stacked generalization [J]. Neural Networks, 1992,5(2): 241-259.
[38] Breiman L. Stacked regressions [J]. Machine Learning, 1996,24(1): 49-64.
[39] Littlestone N, Warmuth M K. The weighted majority algorithm [J]. Information and Computation, 1994,108(2):212-261.
[40] 周志偉,鄧 化,施華宏.基于無(wú)人機(jī)遙感與機(jī)器學(xué)習(xí)的岸灘大型塑料垃圾監(jiān)測(cè)方法[J]. 海洋環(huán)境科學(xué), 2023,42(1):141-150. Zhou Z W, Deng H, Shi H H. Monitoring of marine macro-plastic litter in the coastal zone based on UAV remote sensing and machine learning. Marine Environmental Science, 2023,42(1):141-150.
[41] 毛正君,石碩杰,王貴榮,等.基于無(wú)人機(jī)遙感的區(qū)域黃土滑坡識(shí)別及發(fā)育特征分析[J]. 災(zāi)害學(xué), 2023,38(1):63-71. Mao Z J, Shi S J, Wang G R, et al. Identification and development characteristics analysis of loess landslide based on UAV remote sensing [J]. Journal of Catastrophology, 2022,38(1):63-71.
[42] 申華磊,蘇歆琪,趙巧麗,等.基于深度學(xué)習(xí)的無(wú)人機(jī)遙感小麥倒伏面積提取方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022,53(9):252-260,341. Shen H L, Shu X Q, Zhao Q L, et al. Extraction of lodging area of wheat varieties by unman [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022,53(9):252-260,341.
[43] 謝運(yùn)鴻,荊雪慧,孫 釗,等.基于實(shí)例分割的高郁閉度林分單木樹(shù)冠無(wú)人機(jī)遙感提取[J]. 林業(yè)科學(xué)研究, 2022,35(5):14-21. Xie Y H, Jing X H, Sun Z, et al. Tree crown extraction of UAV remote sensing high canopy density stand based on instance segmentation. Forest Research, 2022,35(5):14-21.
[44] Dethier E N, Renshaw C E, Magilligan F J. Rapid changes to global river suspended sediment flux by humans [J]. Science, 2022,376(6600): 1447-1452.
[45] Overeem I, Hudson B D, Syvitski J P M, et al. Substantial export of suspended sediment to the global oceans from glacial erosion in Greenland [J]. Nature Geoscience, 2017,10(11):859-863.
[46] Park E, Latrubesse E M. Modeling suspended sediment distribution patterns of the Amazon River using MODIS data [J]. Remote Sensing of Environment, 2014,147:232-242.
[47] Umar M, Rhoads B L, Greenberg J A. Use of multispectral satellite remote sensing to assess mixing of suspended sediment downstream of large river confluences [J]. Journal of Hydrology, 2018,556:325-338.
[48] Sabzekar M, Hasheminejad S M H. Robust regression using support vector regressions [J]. Chaos, Solitons & Fractals, 2021,144:110738.
[49] Yu Q, Liu Y, Rao F. Parameter selection of support vector regression machine based on differential evolution algorithm[C]//2009Sixth International Conference on Fuzzy Systems and Knowledge Discovery. Tianjin, China: IEEE, 2009:596-598.
[50] Moses D, Deepa B, Patri T, et al. A review of decision tree algorithms for predictive analysis in data mining [J]. Journal on Software Engineering, 2017,12(1).
[51] Alsagheer R H, Alharan A F, Al-Haboobi A S. Popular decision tree algorithms of data mining techniques: a review [J]. International Journal of Computer Science and Mobile Computing, 2017,6(6):133- 142.
[52] Losing V, Hammer B, Wersing H. KNN classifier with self adjusting memory for heterogeneous concept drift [C]//2016IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016:291- 300.
[53] Bagnall A, Lines J, Bostrom A, et al. The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances [J]. Data Mining and Knowledge Discovery, 2017,31(3):606-660.
[54] Zhou Z-H. Ensemble methods: foundations and algorithms [M]. CRC press, 2012.
[55] Romero-Trigueros C, Nortes P A, Alarcón J J, et al. Effects of saline reclaimed waters and deficit irrigation on Citrus physiology assessed by UAV remote sensing [J]. Agricultural Water Management, 2017, 183:60-69.
Inversion of suspended sediment concentration in rivers of Suzhou based on UAV remote sensing and ensemble learning.
YU Cheng1, TANG Yi2*, PAN Yang2, YI Hong-chen2, GU Yi-ping2, ZHU Feng2, SHI Jiao-yang2
(1.School of Geography Science and Geomatics Engineering, Suzhou University of Science and Technology, Suzhou 215009, China;2.School of Environmental Science and Engineering, Suzhou University of Science and Technology, Suzhou 215009, China)., 2023,43(10):5235~5246
The inversion of suspended sediment concentrations of urban rivers by remote sensing has important practical significance for water environmental management. To address the problem of overfitting in individual models, this study attempts to improve the accuracy and generalizability of the inversion model by realizing the complementary advantages among four different ensemble learning strategies. Ensemble learning inversion models were established based on multispectral remote sensing images collected by unmanned aerial vehicles and field-measured suspended sediment concentrations of Suzhou in this study. Four commonly used regression methods and three classic machine learning methods were used to validate the effectiveness of the ensemble learning strategies. The results demonstrate that the ensemble learning strategies effectively mitigate the limitations of individual models, substantially improving the accuracy and generalizability of the remote sensing inversions. The stacking strategy achieves the best performance with a validation set’s coefficient of determination of 0.821, show casing a 38.21% enhancement compared with the regression methods and a 16.79% improvement compared to the individual machine learning methods. The absolute error of the ensemble learning method is concentrated on small values, with its mean and median absolute errors surpassing the traditional methods. This study can improve the accuracy of urban suspended sediment concentration inversion and provide guidance for unmanned aerial vehicle remote sensing of river suspended sediment concentration inversion.
river suspended sediment concentration;unmanned aerial vehicle remote sensing;multispectral;ensemble learning;machine learning
X87
A
1000-6923(2023)10-5235-12
2023-03-01
國(guó)家自然科學(xué)基金資助項(xiàng)目(41801148)
* 責(zé)任作者, 高級(jí)工程師, tangyi4k3@163.com
余 成(1987-),女,湖北仙桃人,講師,博士,主要從事土地利用變化的水環(huán)境效應(yīng).發(fā)表論文10篇.yucheng823@126.com.
余 成,唐 毅,潘 楊,等.基于無(wú)人機(jī)遙感和集成學(xué)習(xí)的蘇州市河流懸浮物濃度反演 [J]. 中國(guó)環(huán)境科學(xué), 2023,43(10):5235-5246.
Yu C, Tang Y, Pan Y, et al. Inversion of suspended sediment concentration in rivers of Suzhou based on UAV remote sensing and ensemble learning [J]. China Environmental Science, 2023,43(10):5235-5246.