孫天一,王晨越,劉宏偉,王 斌
(東北農(nóng)業(yè)大學 水利與土木工程學院,哈爾濱 150030)
水資源是基礎性的自然資源和戰(zhàn)略性的經(jīng)濟資源,是人類生存和經(jīng)濟社會發(fā)展不可替代的基本要素,良好的水質(zhì)對于實現(xiàn)國家和社會的可持續(xù)發(fā)展具有重要意義。當前,中國水資源面臨的形勢仍十分嚴峻,水資源短缺、水利用效率低、水生態(tài)環(huán)境惡化等問題正日益突出,已成為制約中國經(jīng)濟社會可持續(xù)發(fā)展的主要瓶頸,掌握河流、湖泊等水體的水質(zhì)狀況并對其進行合理評估顯得尤為重要。近年來,隨著研究方法的不斷創(chuàng)新,涌現(xiàn)出了多種水質(zhì)評價方法。其中常被采用的是單因子評價法,即將實測水質(zhì)指標數(shù)據(jù)與《地表水環(huán)境質(zhì)量標準(GB 3838-2002)》中的基本項目標準限值進行對比,從而選取單個指標評價最差的類別作為水質(zhì)最終評價結(jié)果,目前,中國環(huán)境監(jiān)測總站即采用這種方法評價全國主要流域重點斷面水質(zhì)狀況。單因子評價法簡便快捷,評價結(jié)果直觀,當監(jiān)測數(shù)據(jù)有保障時,能夠快速對水質(zhì)情況做出實時判斷。然而,這種利用多個指標進行評判、最后只選取一項指標對應類別的評價方式過于片面,沒有兼顧各個評價指標的權重,夸大了單項指標對水質(zhì)的影響,且忽略了各等級間存在的界限模糊性,在應用中可能會產(chǎn)生與現(xiàn)實不符的水質(zhì)評價結(jié)果。
投影尋蹤(Projection Pursuit,PP)的基本思想是將高維數(shù)據(jù)投影到低維(通常為1-3維)的子空間上,從而尋找能夠反映原高維數(shù)據(jù)的結(jié)構(gòu)或特征的投影,以達到研究高維數(shù)據(jù)的目的[1]。引入投影尋蹤方法不但可以解決水質(zhì)評價的多指標綜合評判問題,還可以對各種水質(zhì)指標對水質(zhì)評價的影響程度進行合理分析,這對于制定及校核水質(zhì)等級標準具有現(xiàn)實意義。構(gòu)造與優(yōu)化投影指標函數(shù)是應用投影尋蹤方法的關鍵,這項工作較復雜,也在一定程度上限制了投影尋蹤方法的廣泛應用。在采用投影尋蹤方法評價水質(zhì)時,以往學者采用過遺傳算法、蟻群算法、粒子群算法、蛙跳算法、狼群算法、蜂群算法、差分進化算法、螢火蟲算法等優(yōu)化投影指標函數(shù)[2-9]。自由搜索(Free Search,F(xiàn)S)是KalinPenev等提出的一種基于群體的優(yōu)化算法,具有參數(shù)少、編程實現(xiàn)簡便、尋優(yōu)能力高等優(yōu)點[10],文章在傳統(tǒng)投影尋蹤方法基礎上,建立基于自由搜索的投影尋蹤水質(zhì)評價模型(Projection Pursuit Model for Assessment of Water Quality based on Free Search,PPFS模型),將水質(zhì)評價的多指標問題綜合成單一指標形式,繼而建立一個簡單的、可與水質(zhì)實時評價對接的回歸模型,以期為我國主要流域重點斷面水質(zhì)評價工作提供參考和借鑒。
設水質(zhì)標準等級值及各水質(zhì)指標的樣本集分別為y和X=(x1,x2,……,xn)=(xki)q×n,其中q為水質(zhì)指標的樣本數(shù)目,k=1,…2,…,q,以下同;n為水質(zhì)評價指標數(shù)目,i=1,2,……,n,以下同。由于各水質(zhì)評價指標的量綱及指標值的變化范圍都不盡相同,為保證評價結(jié)果的可靠性和精度,采用下式對數(shù)據(jù)進行標準化處理:
(1)
式中:xi為水質(zhì)指標樣本中第i個指標的均值;si為si水質(zhì)指標樣本中第i個指標的標準差。
(2)
式中:z為投影值;a(i)為投影方向分量。
為了保證投影值對因變量具有很好的解釋性,可令z的標準差Sz盡可能大,同時使z與y相關系數(shù)的絕對值|Rzy|也盡可能大,據(jù)此,投影指標函數(shù)可構(gòu)造為maxF(a)=Sz|Rzy|。
設FS中動物個體每步探查行走的位置為投影方向,采用下面的數(shù)組進行編碼:
(3)
式中:T為限制步伐數(shù),t=1,2,……,T;n為搜索空間維數(shù),i=1,2,……,n;A為第j個動物T步探查時的位置矩陣;at為第j個動物第t步探查時的位置;m為動物群體大小,j=1,2,……,m;atij為第j個動物第t步探查時第i維的位置分量。
1.3.1 算法初始化
采用隨機化初始策略:
atij=aimin+aimax-aiminrandomij(0,1)
(4)
式中:aimin、aimax為第i維搜索空間的邊界;randomij(0,1)為介于[0,1]之間的隨機數(shù),以下同。
1.3.2 探查
通過下式探查行走,更新動物個體位置:
atij=a0ij-atij+2?atijrandomij(0,1)
(5)
式中:atij=Rij(aimax-aimin)randomtij(0,1),Rij∈[Rmin,Rmax]。
在探查行走過程中,動物個體的行為可以表示為:
Ftj=F(atij),
Fj=max(Ftj)
(6)
信息素Pj按下式更新:
Pj=Fj/max(Fj)
(7)
敏感性Sj按下式更新:
Sj=Smin+Sj
(8)
式中:Sj=(Smax-Smin)randomj(0,1),Smin=Pmin,Smax=Pmax。
最后,選擇和決策下1次探查行走的開始位置:
(9)
式中:l=1,2,……,m。
1.3.3 算法終止
算法判斷是否滿足設定的終止條件,如果滿足說明已經(jīng)搜索到可以接受的最優(yōu)解,則輸出尋優(yōu)結(jié)果,不滿足則繼續(xù)探查搜索。
將尋優(yōu)得到的最佳投影方向的估計值a*代入式(2),得到各樣本投影值z,根據(jù)z與y的散點圖可建立相應的數(shù)學模型。
中國環(huán)境監(jiān)測總站對全國主要水系(松花江、遼河、海河、淮河、黃河、長江、珠江、海南島內(nèi)河流、浙閩河流、西南諸河、內(nèi)陸河流、太湖、巢湖、滇池、其它大型湖泊等)的約100-150個重點斷面進行了水質(zhì)自動監(jiān)測,監(jiān)測指標包括酸堿度(pH)、溶解氧(DO)、高錳酸鹽指數(shù)(CODMn)和氨氮(NH3-N)4項,并將水質(zhì)評價結(jié)果以周報等形式發(fā)布。由于中國環(huán)境監(jiān)測總站采用單因子法對水質(zhì)進行分級,水質(zhì)評價結(jié)果為評價時段內(nèi)某單個指標所處的最高等級。文章選取2018年第52周(12月24日-12月30日))的水質(zhì)監(jiān)測數(shù)據(jù)進行建模與分析,由于儀器故障、河流斷流等原因,存在未監(jiān)測斷面和2個缺少CODMn、NH3-N指標數(shù)據(jù)的斷面,因此,最后選取143個斷面的水質(zhì)監(jiān)測數(shù)據(jù),運用PPFS模型評價水質(zhì)等級。
根據(jù)《地表水環(huán)境質(zhì)量標準GB3838-2002》,選擇pH、DO、CODMn、NH3-N4個水質(zhì)指標的等級劃分標準,全國主要流域重點斷面水質(zhì)指標的等級劃分標準,見表1。
表1 全國主要流域重點斷面水質(zhì)指標的等級劃分標準
將表1每個等級區(qū)間的邊界值作為一個樣本值,在各等級區(qū)間內(nèi)利用均勻隨機數(shù)隨機產(chǎn)生5個樣本值,構(gòu)成評價指標樣本集,與對應水質(zhì)等級值(即將Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類5個等級分別賦值為1、2、3、4和5)共組成31個樣本點,考慮到五類水質(zhì)等級劃分的pH標準均為6-9,對水質(zhì)等級的劃分結(jié)果沒有影響,因此不考慮pH的貢獻。根據(jù)PPFS建模過程前3個步驟,利用這些樣本點數(shù)據(jù)進行分析,尋優(yōu)得到的最佳投影方向a*為(-0.5337,0.5931,0.6029)。由于最佳投影方向各分量絕對值的大小實際上反映了各種水質(zhì)指標對水質(zhì)評價的影響程度,分量絕對值越大則與之對應的水質(zhì)指標的影響程度就越大,因此,最佳投影方向表明NH3-N、CODMn、DO對水質(zhì)影響程度依次減小。將a*代入式(2)得到各樣本投影值的計算值z,并繪制出z與y之間的散點圖,水樣投影值z與水質(zhì)等級y的散點圖,見圖1。
圖1 水樣投影值z與水質(zhì)等級y的散點圖
根據(jù)z與y之間散點圖的分布趨勢性,采用三次曲線來描述投影值與水質(zhì)等級之間的關系,所得水質(zhì)評價的PPFS模型見下式:
y=-0.00483z3+0.0027z2+1.1144z+2.9383
(10)
將各斷面的NH3-N、CODMn、DO的實測值的投影值,將其帶入上式,即可評價個斷面的水質(zhì)等級。
經(jīng)統(tǒng)計,在所選取的143個斷面中,有63個斷面的水質(zhì)評價結(jié)果與單因子評結(jié)果相同,另有80個斷面的水質(zhì)結(jié)果與單因子評價結(jié)果不同。在相同和不同的評價結(jié)果中,分別選取15個斷面為例,制成2個表格:PPFS模型計算值與單因子評價值不同的結(jié)果對比,見表2;PPFS模型計算值與單因子評價值一致的結(jié)果對比,見表3。
表2 PPFS模型計算值與單因子評價值不同的結(jié)果對比
表3 PPFS模型計算值與單因子評價值一致的結(jié)果對比
續(xù)表3 PPFS模型計算值與單因子評價值一致的結(jié)果對比
從表2和表3結(jié)果可以看出,單因子評價方法的評價結(jié)果是離散的水質(zhì)等級,對水質(zhì)級別的分辨率較粗,即使同屬于同一級別的水質(zhì),它們對應的各水質(zhì)指標值常常相差顯著,而在現(xiàn)實的水質(zhì)評價工作中,水質(zhì)等級值一般是連續(xù)的實數(shù)值。PPFS模型的評價過程不需人為干預,所得結(jié)果僅與輸入的指標監(jiān)測數(shù)據(jù)有關,水質(zhì)評價結(jié)果是更連續(xù)的實數(shù)值,且能夠考慮DO、CODMn、NH3-N對水質(zhì)評價的綜合影響,對于制定和檢驗水質(zhì)等級劃分標準也具有參考意義。
投影尋蹤方法直接面向樣本數(shù)據(jù),并且能夠避免因高維點稀疏分布而導致的一系列問題,可以找到樣本間的內(nèi)在規(guī)律,能夠在一定的程度上解決非線性的高維問題;自由搜索算法的全局搜索能力好,收斂速度較快,尋優(yōu)精度較高,能夠快速精準地找到數(shù)據(jù)的最佳投影方向。因此,可以耦合投影尋蹤和自由搜索2種算法構(gòu)建水質(zhì)評價模型。單因子水質(zhì)評價模型的計算結(jié)果大多是一些離散的水質(zhì)等級值,分辨率較粗。文中提出PPFS模型對水質(zhì)的評價結(jié)果為連續(xù)實數(shù)值,且根據(jù)最佳投影方向各分量的絕對值的大小可進一步分析各水質(zhì)指標對水質(zhì)等級影響的程度,據(jù)此可檢驗水質(zhì)評價標準的合理性。實例的計算結(jié)果表明PPFS可用于評價全國主要流域重點斷面的水質(zhì)。