李旭杰,史 靈,花思洋,孫 穎,黃鳳辰
(1.河海大學海洋與近海工程研究院,江蘇 南通 226300;2.河海大學計算機與信息學院,江蘇 南京 210098;3.鈦能科技股份有限公司,江蘇 南京 211806;4.江蘇開放大學信息工程學院,江蘇 南京 210017)
本文以江蘇省南京市秦淮新河為代表站進行研究。秦淮新河屬秦淮河水系,起于河定橋經(jīng)西善橋至金勝村入江口,總長16.8 km,是下游入江分洪道的一條重要通道[1]。選取2020年6月至2021年6月的水質監(jiān)測各類監(jiān)測指標數(shù)據(jù),利用Pearson相關系數(shù)對指標間進行相關性分析,得到各監(jiān)測指標間的相關系數(shù),對變量關系間的強弱進行有效度量,對影響水質的主導因素進行識別,然后采用多元線性回歸算法進一步分析水質指標間的統(tǒng)計關系[2],確定變量之間的因果關系,并對多元線性回歸算法的可信程度進行檢驗。根據(jù)符合評價標準的多元回歸方程,通過隨機森林模型用自變量指標對因變量指標做出進一步預測,若之后監(jiān)測到的水質指標值與預測值相比有較大差異,則可以說明該河段水質有較大變化,可起到預警作用[3],能夠對水質可能出現(xiàn)的問題進行有效預防,構建一個高效的水質監(jiān)測預測模型,能夠為秦淮新河的水環(huán)境保護提供科學指導依據(jù)。
傳統(tǒng)的水質監(jiān)測一般是進行人工操作,這種監(jiān)測方法不能及時、準確地獲得水質不斷變化的動態(tài)數(shù)據(jù)。而通過各類監(jiān)測水質指標的傳感器實現(xiàn)對水體中的COD、NH3-N、pH值等進行在線精確監(jiān)測,能有效提升水質監(jiān)測效率,避免手工測定的耗時費力甚至不精確的一系列缺陷,結合計算機以及通信等技術手段,可以對所采集到的數(shù)據(jù)進行分析處理,為進一步產(chǎn)生和研究數(shù)據(jù)奠定基礎。
2017年,鄭德論[4]通過監(jiān)測汕頭湖溝中上游河段水體的水質狀況,采用單因子評價方法確定該河段水體的主要污染物。2018年,湯云[5]針對閩江流域的多項水質指標監(jiān)測數(shù)據(jù),利用小波分解、遺傳算法改進的BP神經(jīng)網(wǎng)絡方法,分析閩江流域內水質時空分布特征并解析污染源,構建基于小波分解和遺傳算法改進的BP 神經(jīng)網(wǎng)絡的水質預測模型。2019年,楊娜等[6]以雄安新區(qū)白洋淀水質為研究對象,用灰色聚類分析法并結合變異系數(shù)法賦權,對其水質進行分級與評價,為白洋淀的綜合治理提供更加客觀科學依據(jù)。2020年,秦無雙等[7]對蓬溪縣主要地表水體進行水質現(xiàn)狀分析,采用主成分分析法確定了主要污染因子。2021年,國內楊志民[8]針對契爺石水庫進行水質監(jiān)測,采用綜合水質評價法和模糊綜合評價法對水庫水質進行綜合評價。
水質自動監(jiān)測在我國出現(xiàn)的時間較晚,尚處于起步階段。就現(xiàn)階段而言,我國水質監(jiān)測較國外尚存在一定的差距。目前對水質監(jiān)測數(shù)據(jù)的自動采集研究比較多,集中在對水質的在線自動監(jiān)測上,而對于水質監(jiān)測所采集到的數(shù)據(jù)進行分析處理的研究還不多,此方面研究有待拓展。本文對水質監(jiān)測數(shù)據(jù)進行分析,構建水質監(jiān)測指標預測模型,提供一定水質監(jiān)測的科學依據(jù)。
構建水質監(jiān)測指標預測模型體系,采用統(tǒng)計分析方法,包括相關性分析以及多元回歸分析,結合隨機森林模型,對水質監(jiān)測指標進行主導性因素指標的相關預測,構建預測模型見圖1。對獲取水質監(jiān)測項目監(jiān)測過程中所用的各類監(jiān)測指標數(shù)據(jù)進行清洗,剔除無效、異常數(shù)據(jù)。無效、異常數(shù)據(jù)主要指超過各類水質監(jiān)測指標傳感器的測量范圍內的異常數(shù)據(jù)。
圖1 水質監(jiān)測指標預測模型
利用相關系數(shù)對各類水質監(jiān)測指標進行相關性分析,常見的相關系數(shù)主要有Pearson 相關系數(shù)、Spearman 相關系數(shù)以及Kendall 秩相關系數(shù),其中Pearson相關系數(shù)適用于衡量線性相關關系,針對其適用性,本文采用Pearson相關系數(shù)來對6類水質監(jiān)測指標進行相關程度強弱的度量,定義其公式為
式中:n為樣本量;xi和yi分別為2個監(jiān)測指標的變量值;xˉ和yˉ分別為xi和yi樣本的平均值。
圖2是6類水質監(jiān)測指標間Pearson相關系數(shù)矩陣熱力圖,根據(jù)熱力圖顏色的深淺分別可以得到各監(jiān)測指標間的相關程度強弱。其中,CODcr表示化學需氧量,NH3-N 為氨氮,DO 為溶解氧,WT 為水溫,TURB為濁度。
圖2 Pearson相關系數(shù)矩陣熱力
Pearson相關系數(shù)矩陣如表1所示。其中,Pearson相關系數(shù)的絕對值結果越接近于1表示變量之間的相關性越強,結果越接近于0 表示變量之間的相關性越弱。其絕對值結果在0~0.3 之間,呈現(xiàn)弱相關性;在0.3~0.5之間,呈現(xiàn)低相關性;在0.5~0.8之間,呈現(xiàn)顯著相關性;在0.8~1之間,呈現(xiàn)高度相關性[9]。根據(jù)表1的分析結果可以得出高度相關的變量有兩對,一對是WT 和DO,2 個監(jiān)測指標間的Pearson 相關系數(shù)為-0.8965,明顯呈現(xiàn)高度負相關性;另一對是CODcr指標和NH3-N 指標,它們的相關系數(shù)為0.9478,明顯呈現(xiàn)高度正相關性。
表1 Pearson相關系數(shù)矩陣
然后,采用顯著性檢驗的方法對Pearson相關系數(shù)進行檢驗,驗證各監(jiān)測指標間的相關性非偶然因素引起,所得結果能夠代表總體指標數(shù)據(jù)上的相關程度。在本文中,顯著性檢驗的P值均小于選定的顯著性水平0.05,故變量之間的相關性都通過顯著性檢驗,顯著性檢驗結果P值列于表2。
表2 Pearson相關系數(shù)顯著性檢驗結果P值
相關性分析是回歸分析的基礎和前提,而回歸分析則是認識變量間相關程度的具體形式。采用構建多元線性回歸方程的方法可進一步得到監(jiān)測指標間相關程度的具體形式。本文通過回歸方程的形式,進一步分析水質指標間的統(tǒng)計關系。
利用多元回歸算法,設因變量為y,k個自變量分別為x1,x2,…,xk,描述因變量y如何依賴自變量x1,x2,…,xk和誤差項ε的方程。多元線性回歸方程可表示如下:
式中:β0,β1,β2,…,βk是模型的參數(shù),ε為誤差項,式(2)表明y是x1,x2,…,xk的線性函數(shù)加上誤差項ε。誤差項反映了除x1,x2,…,xk與y的線性關系之外的隨機因素對y的影響,是不能由x1,x2,…,xk與y之間的線性關系所解釋的變異性[10]。
對得到的多元線性回歸方程,剔除回歸系數(shù)異常以及不顯著的自變量,此時的多元線性回歸方程可得以成立?;貧w系數(shù)反映的是回歸方程中表示自變量x對因變量y影響大小的參數(shù),異常回歸系數(shù)為回歸系數(shù)的正負號與Pearson 相關系數(shù)相反的數(shù)值,不顯著的回歸系數(shù)是指不符合回歸系數(shù)檢驗的數(shù)值。根據(jù)高度相關的變量對可得到2個多元線性回歸方程為
構建多元線性回歸方程后,對整個數(shù)據(jù)集進行拆分,得到訓練集和測試集:訓練集用于訓練隨機森林回歸模型,測試集用于模型預測效果的評估。在本文中,取測試集樣本數(shù)為數(shù)據(jù)集總樣本數(shù)的25%。建立隨機森林回歸模型,采用5 折交叉驗證方法利用訓練集對模型進行訓練。相關參數(shù)設置隨機值random_state=0,通過5折交叉驗證尋找到模型的最佳參數(shù),不重復抽樣將原始數(shù)據(jù)隨機分成5份;每次挑選其中1 份作為測試集,剩余4 份作為訓練集用作模型訓練;重復該步驟5 次,使得每個子集擁有一次作為測試集的機會,其余機會作為訓練集;計算5組測試結果的平均值作為模型的準確率[11-12]。
基于上述方法,針對CODcr指標的預測模型可得到?jīng)Q策樹的數(shù)量n_estimators=50,樹的最大深度max_depth=7;針對DO 指標的預測模型得到?jīng)Q策樹的數(shù)量n_estimators=150,樹的最大深度max_depth=6。然后,利用測試集對隨機森林回歸模型進行預測效果評價,可求得該隨機森林回歸模型的3 種評價指標的值分別為:均方根誤差RMSE=0.2883、平均絕對誤差MAE= 0.1813、確定系數(shù)R2=0.9831。當隨機森林回歸模型的確定系數(shù)R2已經(jīng)達到最接近于1,則停止對隨機森林回歸模型的參數(shù)繼續(xù)調整。根據(jù)訓練得到的最佳隨機森林回歸模型,利用水質監(jiān)測指標中自變量監(jiān)測指標對因變量指標進行預測。
根據(jù)隨機森林模型,得到根據(jù)水質監(jiān)測指標中的自變量指標對因變量指標的預測,由水質監(jiān)測指標的相關性分析以及通過構建多元線性回歸方程,得到高度相關的變量對及其因果關系。由訓練結果得到相應的隨機森林回歸模型預測值與水質監(jiān)測指標中的因變量指標實際值對比圖。其中,化學需氧量監(jiān)測指標實際值與預測值的對比圖,見圖3,溶解氧監(jiān)測指標實際值與預測值的對比圖,見圖4。圖3~4 中因變量水質監(jiān)測指標的實際值為藍色線,因變量水質監(jiān)測指標的預測值為黃色線。從圖3~4中明顯可見因變量水質監(jiān)測指標的預測值和實際值幾乎重合,有效說明本文提出的基于隨機森林回歸模型的水質監(jiān)測指標預測方法能夠實現(xiàn)因變量水質監(jiān)測指標的準確預測。
圖3 COD監(jiān)測指標對比
圖4 DO監(jiān)測指標對比
近年來我國水質監(jiān)測發(fā)展迅速,對水質狀況進行監(jiān)測時往往監(jiān)測的指標種類眾多,監(jiān)測成本較高且信息量巨大,難以從中提取有效信息,對數(shù)據(jù)進行有效分析勢在必行。為有效降低監(jiān)測成本,對監(jiān)測指標項目進行合理降維,利用Pearson相關系數(shù)對指標間進行相關性分析,對變量關系間的強弱進行有效度量,但由于并未對變量之間的關系進行固化形成模型,無法利用這種關系對數(shù)據(jù)進行預測,需要進一步進行回歸分析,在實際應用中一個參數(shù)指標往往受到多個參數(shù)指標的影響,多元線性回歸算法易于實施,具有較大的應用前景。
在水質監(jiān)測對各類指標進行監(jiān)測的實踐中,利用多元線性回歸得到高度相關的監(jiān)測指標間統(tǒng)計方程,可以準確得知自變量指標和因變量指標之間的關系,對因變量指標進行有效預測可減低監(jiān)測成本。利用隨機森林模型中的回歸模型對監(jiān)測指標進行預測,相對于其他模型而言,隨機森林回歸模型具有預測準確度高、泛化能力強的優(yōu)勢。實驗結果也能夠有效表明隨機森林回歸模型可利用因變量水質監(jiān)測指標實現(xiàn)對自變量水質監(jiān)測指標的準確預測,隨機森林回歸模型在水質監(jiān)測指標分析預測的應用研究具有重要意義。