趙 靜
(江蘇省工程咨詢中心有限公司 江蘇南京 210003)
河流健康診斷的目的在于判別河流所患何種疾病及其產(chǎn)生的原因,助于有目的、有針對(duì)性的采取相關(guān)調(diào)控或管理措施,達(dá)到河流可持續(xù)發(fā)展的目標(biāo)[1]。但現(xiàn)有對(duì)河流健康的診斷大多聚焦于對(duì)河流現(xiàn)狀的評(píng)估,而對(duì)引起河流疾病的外部原因卻涉獵較少[2]。本文在河流健康評(píng)價(jià)結(jié)果分析的基礎(chǔ)上提出河流健康問(wèn)題成因判斷模型,進(jìn)一步發(fā)展完善河流健康診斷方法體系,對(duì)河流管理有著重要的現(xiàn)實(shí)意義。
根據(jù)人體健康診斷過(guò)程,如“人體感冒”既可能是天氣變化等外部自然因素導(dǎo)致,也可能是長(zhǎng)時(shí)間工作造成身體過(guò)于疲勞等人為因素導(dǎo)致,當(dāng)然一般情況下是這2 種因素共同作用的結(jié)果[3]。據(jù)此可認(rèn)為,河流康所患疾病的病因也是由自然因素和人為因素共同組成,即對(duì)外源性影響因素分析可從自然因素和人為因素2 方面進(jìn)行。影響河流健康的自然因素可分為2 大類,一類包含海嘯、火山爆發(fā)和地震等,可極大的損害河流生態(tài),但由于河流生物是與環(huán)境長(zhǎng)期協(xié)同進(jìn)化的產(chǎn)物,因而生物已經(jīng)適應(yīng)了自然環(huán)境的這個(gè)劇烈改變,多數(shù)情況下河流生態(tài)可自行得到恢復(fù);另一類包含溫度、降雨量、濕度等以及水域范圍內(nèi)的地形、地貌、植被等因素。因此,從時(shí)間尺度上看,自然因素對(duì)河流健康的影響在較長(zhǎng)時(shí)間內(nèi)才會(huì)顯現(xiàn)出來(lái),短時(shí)間內(nèi)人為因素將占主導(dǎo)作用。而損害河流健康的人為因素主要包含區(qū)域內(nèi)的人口狀況、收入指數(shù)、人口增長(zhǎng)率和經(jīng)濟(jì)發(fā)展水平,以及對(duì)河流水資源的過(guò)度開(kāi)發(fā)、灘涂圍墾、水利工程興建、河水養(yǎng)殖以及各種污廢水的超標(biāo)排放等,詳見(jiàn)圖1。
圖1 人為因素對(duì)河流生態(tài)的作用[4]
病因診斷是對(duì)相關(guān)因子作用于河流健康的影響規(guī)律的具體化,因此需科學(xué)、合理、客觀地選取對(duì)河流健康有重要影響的因子。由于河流健康的外部影響因子眾多,且與表征指標(biāo)之間存在多對(duì)多的作用關(guān)系,每個(gè)因子可同步影響一或多個(gè)表征指標(biāo),為此初步確定河流健康(具體指河流水質(zhì)狀況)病因診斷影響因子集,且各影響因子的數(shù)據(jù)可通過(guò)查閱研究區(qū)域的水文、氣象、各類統(tǒng)計(jì)年鑒、土地利用調(diào)查、遙感影像等資料獲取,也可通過(guò)實(shí)際訪談和定點(diǎn)觀測(cè)等方式獲取。
各影響因子中,人口密度為總?cè)丝诤屯恋孛娣e的比值;人均GDP、人均可支配收入、第一、二、三產(chǎn)業(yè)產(chǎn)值以萬(wàn)元計(jì);土地利用強(qiáng)度為研究區(qū)域內(nèi)已利用的土地面積與總面積的比值;水域游樂(lè)活動(dòng)功能主要以景觀美學(xué)價(jià)值的高低、水域旅游的年總收入來(lái)衡量,以萬(wàn)元計(jì);農(nóng)業(yè)灌溉用水量按每畝灌溉水量計(jì)算;化肥施用強(qiáng)度反映河流生態(tài)系統(tǒng)遭受人類活動(dòng)造成的面源污染的程度,以每年每公頃的化肥(以氮、磷、鉀含量計(jì)算的復(fù)合肥)施用量統(tǒng)計(jì);城鎮(zhèn)工業(yè)用水量、人均生活用水量分別以每萬(wàn)元產(chǎn)值用水量和每人每天用水量計(jì);生物入侵控制率可考慮用研究區(qū)域內(nèi)一種或幾種占主導(dǎo)優(yōu)勢(shì)的外來(lái)物種控制率表征;濕地保護(hù)率以研究區(qū)域內(nèi)受保護(hù)濕地的面積占濕地總面積的比例來(lái)衡量;現(xiàn)有政策、法規(guī)及其執(zhí)行力度、社區(qū)參與度和有效財(cái)政支出體現(xiàn)的是管理水平,多為定性因子,可通過(guò)實(shí)地調(diào)研、資料收集及專家咨詢獲??;科技經(jīng)費(fèi)支出指數(shù)反映的是通過(guò)科學(xué)研究手段和方法來(lái)降低河流污染,從而達(dá)到人們所期望的健康程度,以科技活動(dòng)經(jīng)費(fèi)支出占GDP 比重(%)表示;污染治理投資指數(shù)反映了社會(huì)對(duì)河流生態(tài)系統(tǒng)修復(fù)的建設(shè)程度,通過(guò)表征生態(tài)環(huán)境治理力度來(lái)反映環(huán)境得以保護(hù)和改善的趨勢(shì),以污染治理投入占GDP比重(%)表示[5][6]。由于不同的因素都會(huì)對(duì)河流健康產(chǎn)生影響,因此需根據(jù)實(shí)際情形,選取重要的因素作為病因評(píng)價(jià)因子,并非每個(gè)因素都要考慮。
病因診斷模型是根據(jù)水質(zhì)狀態(tài)與外部影響因子之間的關(guān)聯(lián)性,通過(guò)一定的數(shù)學(xué)分析方法,構(gòu)建出兩者之間的函數(shù)關(guān)系式,從眾多的影響因子中確定河流健康問(wèn)題的主要病因。解決此問(wèn)題的方法主要包括主成分分析法、偏最小二乘回歸法和灰關(guān)聯(lián)分析法等。其中,主成分分析法是將一組新的相互無(wú)關(guān)聯(lián)的綜合因素來(lái)取代初始因素,同時(shí)依據(jù)實(shí)際需求從中選取幾個(gè)關(guān)鍵因素盡可能多的映射初始因素的信息[7],但不能直接說(shuō)明單個(gè)原始變量屬性對(duì)主成分或因子的作用,不能完全有效地利用相關(guān)信息建立表征指標(biāo)和影響因素之間的定量關(guān)系。偏最小二乘回歸法是最近剛發(fā)展起來(lái)的一種新型統(tǒng)計(jì)方法,在常見(jiàn)的多影響因素對(duì)多表征指標(biāo)的統(tǒng)計(jì)建模中,相較于其他方法有諸多優(yōu)勢(shì)[8],但當(dāng)自變量太多時(shí),得到的模型結(jié)果就會(huì)顯得比較復(fù)雜,難以分析和解釋[9]?;谊P(guān)聯(lián)分析法是依據(jù)各因子間的數(shù)據(jù)列的發(fā)展態(tài)勢(shì)與行為做相異或相似程度的對(duì)比,以判斷因子的關(guān)聯(lián)與行為的趨近程度,但當(dāng)評(píng)價(jià)對(duì)象為抽象系統(tǒng)時(shí),只能對(duì)影響因素和表征指標(biāo)之間的關(guān)系做定性分析[10][11]。
綜合影響河流健康的眾多外部因子,各因子之間的多維度關(guān)聯(lián)性較為復(fù)雜,且水質(zhì)狀態(tài)與眾多的外部影響因子之間也存在較為復(fù)雜的互為影響關(guān)系。加之,上述方法在實(shí)際應(yīng)用中都各有優(yōu)缺點(diǎn),似乎選取任何一種方法都不能保證河流病因診斷結(jié)果的準(zhǔn)確性和可靠性,因而最好聯(lián)合2種及以上的方法用于河流健康病因診斷。本研究嘗試選用主成分分析法與偏最小二乘回歸法對(duì)河流病因進(jìn)行評(píng)價(jià)。
首先,需要把數(shù)據(jù)標(biāo)準(zhǔn)化;其次,對(duì)變量的數(shù)據(jù)矩陣做主成分分析,給出其特征值與特征向量;最后,將n 個(gè)變量擬合成一個(gè)表征河流健康病癥因子的綜合指標(biāo)[12~14]。
為了能與偏最小二乘回歸法結(jié)合使用,從而使結(jié)果更為直觀和精確,可用式(1)分指數(shù)公式將變量數(shù)據(jù)標(biāo)準(zhǔn)化。
式中xij—第i個(gè)樣本第j種變量值;Sj—xj的標(biāo)準(zhǔn)差;—xij的標(biāo)準(zhǔn)化值;n、m—總樣本數(shù)量、總變量數(shù)量。
將m個(gè)變量的標(biāo)準(zhǔn)化數(shù)據(jù)組成的矩陣記為X。
按式(2)求X的對(duì)稱方陣C。
式中XT—X的轉(zhuǎn)置矩陣。
用雅可比法求C的特征值與對(duì)應(yīng)的向量。由特征向量可構(gòu)成正交矩陣V,對(duì)X做變換,見(jiàn)式(3)。
使新變量y1、y2……yn互不干擾。特征值λi為yi的方差。將n個(gè)特征值按大小順序排列λ1≥λ2≥……≥λn,其對(duì)應(yīng)的n個(gè)向量組成n個(gè)新變量。方差小的變量對(duì)模型貢獻(xiàn)小,反之貢獻(xiàn)大。y1、y2……yn分別稱為第一主成分、第二主成分……第n個(gè)主成分,前面的主成分組成了樣本間最大的變異見(jiàn)式(4)。
前面p個(gè)主成分y1、y2……yp(p〈n)的方差占比,即為累計(jì)方差貢獻(xiàn)率,見(jiàn)式(5)。
若前p個(gè)主成分的累積貢獻(xiàn)率很大,通常是當(dāng)p≥0.75 時(shí),用這p個(gè)主成分代替原n 個(gè)變量就不會(huì)損失太多信息。這p個(gè)主成分就稱為公共因子。多數(shù)情況下,取前2 個(gè)主成分y1和y2作為公共因子已能滿足要求,第i個(gè)公共因子上的公共變量的荷載向量見(jiàn)式(6)。
第j 個(gè)變量在p 個(gè)公共因子上荷載的平方和稱為變量的公共屬性見(jiàn)式(7),從而有式(8)。
其值映射了變量j在公共屬性部分的重要性。比較n個(gè)變量的公共屬性,可知什么樣的變量在公共屬性方面更重要??砂炎兞康墓矊傩缘膆j視為該變量的權(quán)重,構(gòu)成一個(gè)度量河流健康病癥因子的綜合指標(biāo),即建立了以影響因子為自變量與以河流健康病癥表征因子為因變量的回歸方程,見(jiàn)式(9)。
式中xj—某樣本第j種變量的標(biāo)準(zhǔn)化值,根據(jù)式(1)給出;hj—根據(jù)式(7)給出的第j個(gè)變量的權(quán)重。
河流健康病因診斷的思路即為在分析步驟中,選擇河流一個(gè)或多個(gè)病癥作為Y,以其m個(gè)脅迫因素x1、x2……xm構(gòu)成方陣X,收集各脅迫因素的數(shù)據(jù)資料(主要包括水域自然地理?xiàng)l件、社會(huì)經(jīng)濟(jì)條件、水域資源開(kāi)采情況、土地利用情況等)作為分析基礎(chǔ),采用主成分分析法,構(gòu)建Y與X的擬合方程。根據(jù)擬合系數(shù)的計(jì)算結(jié)果,剖析方程的擬合精度,明確河流健康的各影響因素的重要性排序,進(jìn)一步提出相應(yīng)的修復(fù)與調(diào)控對(duì)策。
引入偏最小二乘回歸法中的變量投影重要性指標(biāo)(VIPj)去測(cè)度病因影響程度。如果使用主成分分析法中的前p個(gè)主成分y1、y2……yp進(jìn)行分析,并對(duì)其中的參數(shù)重新定義后得VIPj最終轉(zhuǎn)換形式,見(jiàn)式(10)、式(11)、式(12)[15~18]。
VIPj的涵義在于自變量xj(j= 1 , … , m)對(duì)Y的詮釋是經(jīng)過(guò)yh來(lái)傳達(dá)的,若yh對(duì)Y的詮釋能力很大,而xj在建立yh時(shí),又發(fā)揮了非常大的作用,則可以認(rèn)為xj對(duì)Y具有相當(dāng)大的詮釋能力。
對(duì)本文嘗試選用的主成分分析法與偏最小二乘回歸法,先按上述建模方法利用MATLAB 7.1語(yǔ)言編程計(jì)算,得到因變量水質(zhì)綜合污染指數(shù)(Y)與自變量年降雨量(x1)、人口數(shù)量(x2)、GDP(x3)、工業(yè)廢水量(x4)、農(nóng)業(yè)廢水量(x5)、生活污水量(x6)以及環(huán)保投資指數(shù)(x7)相關(guān)關(guān)系的回歸方程式(13)。
再根據(jù)公式(10)~(12)計(jì)算得各病因的VIP值,VIP1=0.7103、VIP2=1.0673、VIP3=1.087、VIP4=1.0866、VIP5=1.0469、VIP6=1.0673、VIP7=0.9314。因此,在影響水質(zhì)(Y)的7個(gè)因素中,得其重要性程度的排序?yàn)镚DP(x3)>工業(yè)廢水量(x4)>生活污水量(x6)=人口數(shù)量(x2)>農(nóng)業(yè)廢水量(x5)>環(huán)保投資指數(shù)(x7)>年降雨量(x1)。具體診斷結(jié)果見(jiàn)表1。
表1 診斷結(jié)果比較
由表2 可看出,本文提出的主成分分析法與偏最小二乘回歸的病因診斷方法與單獨(dú)使用偏最小二乘回歸的評(píng)價(jià)結(jié)果較為一致。其差別主要在于自變量GDP(x3)和工業(yè)污水排放量(x4)的排序,分析其主要原因可能在于研究區(qū)域GDP 的大小將直接影響該區(qū)域工業(yè)污水的排放量,故它們對(duì)因變量水質(zhì)綜合污染指數(shù)(Y)的影響具有同等重要性,因此二者在影響程度排序上也較為接近;同時(shí),人口數(shù)量的多少也將直接影響該區(qū)域生活污水的排放量,因此二者在影響程度排序上也較為接近。
綜上所述,本文確定主成分分析法聯(lián)合偏最小二乘回歸法來(lái)判別河流健康的主要病因,以期為河流的管理和決策提供依據(jù)。
河流病因診斷過(guò)程是通過(guò)對(duì)河流健康評(píng)價(jià)表征指標(biāo)與評(píng)價(jià)結(jié)果的分析,挖掘影響河流健康的各種原因,從而為河流水環(huán)境“對(duì)癥下藥”的治理提供合理的科學(xué)思路。本文在對(duì)河流健康的外源性影響因素分析的基礎(chǔ)上,考慮空間尺度、地形地貌等因素,確立了用于河流健康病因診斷的影響因子。進(jìn)一步,對(duì)常用的幾種可能用于河流健康病因診斷的統(tǒng)計(jì)方法進(jìn)行比較分析,針對(duì)各自的優(yōu)缺點(diǎn),提出了主成分分析法聯(lián)合偏最小二乘回歸法的河流健康病因診斷方法,并通過(guò)與傳統(tǒng)的偏最小二乘回歸法的比較,剖析了該方法的合理性,以期豐富河流健康診斷與評(píng)價(jià)方面的理論與方法體系。