趙梓琦ZHAO Zi-qi
(哈爾濱師范大學(xué)地理科學(xué)學(xué)院,哈爾濱 150025)
水質(zhì)監(jiān)測(cè)是進(jìn)行水質(zhì)狀況綜合評(píng)價(jià)與水污染防治的重要依據(jù),尤其是對(duì)內(nèi)陸水體的水質(zhì)監(jiān)測(cè)[1-3]。傳統(tǒng)的水質(zhì)監(jiān)測(cè)指標(biāo)是通過(guò)野外采集水樣,進(jìn)行化學(xué)分析來(lái)確定,這種現(xiàn)場(chǎng)采樣測(cè)量方式具有很高的準(zhǔn)確度,但此過(guò)程因監(jiān)測(cè)范圍廣,采樣數(shù)據(jù)量大,耗費(fèi)大量的時(shí)間和勞動(dòng)力,且在區(qū)域大尺度上,使用傳統(tǒng)的點(diǎn)采樣方式分析水質(zhì),在進(jìn)行識(shí)別水質(zhì)的時(shí)空變化上具有不確定性[4-6]。近幾十年來(lái),學(xué)者們主要關(guān)注各種遙感數(shù)據(jù)源的應(yīng)用和眾多反演方法的改進(jìn),以追求高精度的預(yù)測(cè)[7-9]。傳統(tǒng)技術(shù)已經(jīng)無(wú)法滿(mǎn)足研究人員的需求且傳統(tǒng)方法由于數(shù)據(jù)的底層關(guān)系無(wú)法描述,很難捕捉到水質(zhì)特征。作為人工智能的一個(gè)重要分支,機(jī)器學(xué)習(xí)是利用大量數(shù)據(jù)產(chǎn)生數(shù)學(xué)模型的學(xué)習(xí)算法。近年來(lái),隨著水環(huán)境領(lǐng)域監(jiān)測(cè)數(shù)據(jù)的增多,機(jī)器學(xué)習(xí)在水質(zhì)預(yù)測(cè)中的應(yīng)用研究逐漸增多[10]。Tiyasha[11,12]等使用支持向量機(jī)進(jìn)行水質(zhì)分類(lèi),該方法在水質(zhì)監(jiān)測(cè)領(lǐng)域取得了廣泛的應(yīng)用,但在基于遙感和物聯(lián)網(wǎng)的水質(zhì)監(jiān)測(cè)站,目前并沒(méi)有很成熟的測(cè)量傳感器,使得越來(lái)越多的數(shù)據(jù)以高速和不規(guī)則的方式產(chǎn)生,導(dǎo)致水質(zhì)數(shù)據(jù)具有復(fù)雜性[13],不能以高精度和高效率實(shí)時(shí)處理數(shù)據(jù)[14]。李雪清等通過(guò)收集廣東省31 個(gè)水質(zhì)監(jiān)測(cè)站在2008-2016 間的水質(zhì)等級(jí)數(shù)據(jù)作為訓(xùn)練樣本,運(yùn)用機(jī)器學(xué)習(xí)技術(shù),建立區(qū)域水質(zhì)等級(jí)預(yù)測(cè)模型,但該模型以每周的數(shù)據(jù)為研究對(duì)象,對(duì)樣本量較少的水質(zhì)等級(jí)預(yù)測(cè)適用性較差,難以實(shí)現(xiàn)水質(zhì)實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)[15]。
松花江為黑龍江省在中國(guó)境內(nèi)的最大支流,現(xiàn)有研究對(duì)區(qū)域大尺度水環(huán)境綜合治理的支撐能力不足,隨著水環(huán)境實(shí)時(shí)數(shù)據(jù)的不斷豐富,為長(zhǎng)時(shí)序動(dòng)態(tài)監(jiān)測(cè)內(nèi)陸水體提供了數(shù)據(jù)支持。
本研究采用黑龍江省松花江流域37 個(gè)國(guó)控?cái)嗝?022 年6 月、7 月、8 月實(shí)時(shí)水質(zhì)等級(jí)數(shù)據(jù)以及Landsat8 OLI 遙感影像作為數(shù)據(jù)源。相比傳統(tǒng)遙感影像需要先下載后處理的研究方式,本研究使用GEE 遙感云服務(wù)平臺(tái),直接對(duì)Landsat8 OLI 數(shù)據(jù)集進(jìn)行在線分析,將更多的精力用于后端的科學(xué)分析,更加適用于長(zhǎng)時(shí)間序列的研究。分別運(yùn)用RF、CART、SVM,建立水體光譜反射率與水質(zhì)等級(jí)之間的關(guān)系,分析三種機(jī)器學(xué)習(xí)模型在樣本量較少,區(qū)域大尺度上水質(zhì)等級(jí)預(yù)測(cè)上的性能表現(xiàn),提供更精確和更高時(shí)間分辨率的長(zhǎng)期動(dòng)態(tài)監(jiān)測(cè),為區(qū)域水環(huán)境治理實(shí)時(shí)提供宏觀決策支持。
松花江是中國(guó)七大河之一,涵蓋東北四省區(qū)。松花江流域介于41°42'~51°38'N、119°52'~132°31'E 之間,分為南北兩源。流域面積55.72×104km2,超過(guò)珠江流域面積,徑流總量759×109m3,超過(guò)黃河的總徑流量,為黑龍江省在中國(guó)境內(nèi)的最大支流,是三江平原的孕育者[16]。(圖1)
圖1 黑龍江省松花江流域水區(qū)和監(jiān)測(cè)點(diǎn)
Landsat8 于2013 年2 月11 日由NASA 成功發(fā)射,攜帶兩個(gè)傳感器:操作陸地成像儀(OLI)和熱紅外傳感器(TIRS)。本文中的遙感數(shù)據(jù)來(lái)自前者,遙感影像來(lái)自GEE網(wǎng)站[17]。實(shí)測(cè)數(shù)據(jù)來(lái)源于國(guó)家地表水水質(zhì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)發(fā)布系統(tǒng)國(guó)控?cái)嗝媸占c(diǎn),由于這些數(shù)據(jù)收集點(diǎn)廣泛的分布在黑龍江省松花江流域的各個(gè)地區(qū),其特征具有表達(dá)整體的能力,這為后續(xù)的水質(zhì)等級(jí)反演提供了可靠有效的數(shù)據(jù)源。
數(shù)據(jù)預(yù)處理均在GEE 上進(jìn)行,按GB3838-2002 的二級(jí)標(biāo)準(zhǔn)進(jìn)行水質(zhì)計(jì)算,將實(shí)測(cè)數(shù)據(jù)水質(zhì)等級(jí)分為5 類(lèi),制作水質(zhì)等級(jí)標(biāo)簽。最后遍歷當(dāng)前影像樣本點(diǎn)特征集合,與實(shí)測(cè)數(shù)據(jù)進(jìn)行時(shí)空匹配,剔除水質(zhì)等級(jí)為null 的特征,建立實(shí)測(cè)數(shù)據(jù)與光譜反射率之間的關(guān)系,匹配后的數(shù)據(jù)用于訓(xùn)練模型。
基于GEE 平臺(tái)分別建立RF、CART、SVM 分類(lèi)反演模型。其中RF 的基本原理是由很多決策樹(shù)分類(lèi)模型組成的組合分類(lèi)模型。通過(guò)randomColumn 函數(shù)將全部特征集合按照7∶3 隨機(jī)分為訓(xùn)練集以及測(cè)試集,考慮標(biāo)記水質(zhì)等級(jí)的特征為6 月、7 月的數(shù)據(jù),8 月數(shù)據(jù)未進(jìn)行水質(zhì)等級(jí)的劃分,因此訓(xùn)練集選用6 月、7 月與實(shí)測(cè)數(shù)據(jù)進(jìn)行時(shí)空匹配后具有水質(zhì)等級(jí)屬性的特征集。建立RF 反演模型公式如下:
注:H(x)表示組合分類(lèi)模型,hi是單個(gè)決策樹(shù)分類(lèi)模型,Y 表示目標(biāo)變量,I()為示性函數(shù)。
CART 的基本原理是通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集的循環(huán)分析形成二叉樹(shù)形式的決策樹(shù)。當(dāng)決策樹(shù)的層數(shù)達(dá)到預(yù)先設(shè)置的最大值,或所有葉結(jié)點(diǎn)中的樣本屬于同一個(gè)類(lèi)別或樣本數(shù)為1 時(shí),CART 決策樹(shù)算法建樹(shù)停止生長(zhǎng),完成分類(lèi)器的訓(xùn)練。使用smileChart 函數(shù),建立分類(lèi)決策樹(shù)的公式為:
注:式中GINI(D,A)為在已知特征A 的條件下集合D的GINI 指數(shù)。GINI(D,A)取值越大,樣本的不確定性也越大,此處需要選擇滿(mǎn)足GINI(D,A)取最小值的特征A。
SVM(是一種二分類(lèi)模型,基本模型是定義在特征空間的間隔最大的線性分類(lèi)器。SVM 的主優(yōu)化問(wèn)題為凸優(yōu)化問(wèn)題,滿(mǎn)足強(qiáng)對(duì)偶性,可通過(guò)最大化對(duì)偶函數(shù)求解。模型選擇優(yōu)先選擇高斯核,相比線性核更能處理復(fù)雜的問(wèn)題。建立支持向量機(jī)反演模型公式如下:
注:根據(jù)輸入訓(xùn)練集得到分類(lèi)決策函數(shù),選擇懲罰參數(shù)C>0 得到最優(yōu)解α*,選擇α*的一個(gè)分量得到b*。
其中6 月、7 月份符合要求影像共35 張,遍歷影像集后返回樣本點(diǎn)特征集共66 個(gè)特征,根據(jù)實(shí)測(cè)數(shù)據(jù)集進(jìn)行時(shí)空匹配后共48 個(gè)特征具有水質(zhì)等級(jí)屬性。對(duì)具有標(biāo)簽的48 個(gè)特征和8 月未進(jìn)行水質(zhì)等級(jí)劃分的數(shù)據(jù)進(jìn)行反演,隨機(jī)抽取的測(cè)試集共32 個(gè)樣點(diǎn),其中8 月數(shù)據(jù)共18個(gè)樣點(diǎn),結(jié)合8 月實(shí)測(cè)數(shù)據(jù)制作混淆矩陣如圖2。其中隨機(jī)森林相比其他兩種模型對(duì)每種類(lèi)別反演準(zhǔn)確率和精確度較好,準(zhǔn)確率為71.875%。從模型分類(lèi)精度以及反演準(zhǔn)確率上來(lái)看,隨機(jī)森林使用多顆決策樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè),其中包含多個(gè)決策樹(shù)的算法。相比單獨(dú)使用CART決策樹(shù)或SVM 支持向量機(jī)進(jìn)行分類(lèi),其輸出的類(lèi)別是由個(gè)別決策樹(shù)輸出的眾樹(shù)決定,在水質(zhì)等級(jí)劃分上分類(lèi)結(jié)果更加準(zhǔn)確,且容易實(shí)現(xiàn)并行化計(jì)算。
圖2 a、b、c 分別代表隨機(jī)森林、CART 決策樹(shù)、SVM 支持向量機(jī)的混淆矩陣
本研究應(yīng)用GEE 遙感云服務(wù)平臺(tái)Landsat8 OLI 遙感影像,結(jié)合黑龍江省松花江流域37 個(gè)國(guó)控?cái)嗝纥c(diǎn)水質(zhì)監(jiān)測(cè)6 月、7 月的實(shí)時(shí)更新數(shù)據(jù),進(jìn)行時(shí)空匹配,作為模型輸入數(shù)據(jù)。分別運(yùn)用決策樹(shù)、隨機(jī)森林,建立水質(zhì)等級(jí)反演模型,主要結(jié)論如下:
①本文以黑龍江省6 月份、7 月份、8 月份松花江流域國(guó)控?cái)嗝鎸?shí)時(shí)更新的水質(zhì)等級(jí)數(shù)據(jù)作為研究對(duì)象,通過(guò)評(píng)估模型的泛化能力發(fā)現(xiàn),隨機(jī)森林受樣本不均衡的影響較小,具有較好的泛化能力。
②通過(guò)機(jī)器學(xué)習(xí)的方式進(jìn)行水質(zhì)等級(jí)預(yù)測(cè)中,在小樣本數(shù)據(jù)集下,相比決策樹(shù)支持向量機(jī),隨機(jī)森林反演模型的性能最佳,平均準(zhǔn)確率為66.88%,準(zhǔn)確率高達(dá)71.875%,Kappa 系數(shù)約為0.59,反演結(jié)果與官方信息基本一致。
③結(jié)果表明光譜信息與水質(zhì)等級(jí)之間具有相關(guān)性,通過(guò)GEE 結(jié)合隨機(jī)森林模型能夠較好地模擬黑龍江省松花江流域水質(zhì)變化。機(jī)器學(xué)習(xí)方法可在小樣本區(qū)域大尺度上,使用GEE 平臺(tái)和機(jī)器學(xué)習(xí)模型結(jié)合可有效用于水質(zhì)等級(jí)反演,利用實(shí)時(shí)更新水質(zhì)數(shù)據(jù)對(duì)水質(zhì)變化進(jìn)行預(yù)測(cè),可在長(zhǎng)時(shí)序動(dòng)態(tài)監(jiān)測(cè)內(nèi)陸水體上提供技術(shù)支撐。