劉玉邦 梁 川
(四川大學(xué)水電學(xué)院1) 成都 610041) (成都理工大學(xué)學(xué)術(shù)期刊編輯中心2) 成都 610059)
洪水的發(fā)生和發(fā)展具有很強(qiáng)的隨機(jī)性和不確定性,洪水過(guò)程受流域區(qū)的天氣變化情況、下墊面情況、人類活動(dòng)等多要素的綜合影響.因此,多指標(biāo)的綜合分類方法則成為目前進(jìn)行洪水分類研究的主要趨勢(shì)[1-5].目前用于洪水分類的方法很多,如馬寅午[6]等、盧正波[7]等的概率方法、模糊聚類方法[8],灰色聚類法[9],王順久[10]等、董前進(jìn)[11]等的投影尋蹤方法,等等.這些分類方法都在洪水分類中得到了較好的應(yīng)用,但各有其缺陷和不足.
本文對(duì)傳統(tǒng)的主成分分析方法進(jìn)行改進(jìn),即將非線性變換和主成分分析法相結(jié)合,通過(guò)擬線性化變換和降維去噪,得出多維分類指標(biāo)的一維主成分值,然后通過(guò)對(duì)每一待分類樣本的一維主成分值進(jìn)行聚類分析,最終得出洪水的自然分類結(jié)果.
設(shè)有n個(gè)樣品,每個(gè)樣品觀測(cè)p個(gè)指標(biāo)(變量)x1,x2,…,xp,令 xij(i=1,…,n;j=1,…,p)為第i個(gè)樣本的第j個(gè)指標(biāo)的值,這樣得到原始數(shù)據(jù)矩陣
用數(shù)據(jù)矩陣X的p個(gè)指標(biāo)向量X1,X2,…, XP作線性組合為
滿足上述要求的綜合指標(biāo)向量F1,F2,…,Fp就是主成分.對(duì)于原始指標(biāo)所提供的信息總量,這p個(gè)主成分從提取出的信息量用方差來(lái)度量,主成分方差的貢獻(xiàn)對(duì)應(yīng)原始指標(biāo)相關(guān)矩陣相應(yīng)的特征值λi而每個(gè)主成分的組合系數(shù)就是特征值對(duì)應(yīng)的特征向量,方差貢獻(xiàn)率為越大,說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng).
1)原始數(shù)據(jù)中心化 為了消除原始數(shù)據(jù)不同量綱、不同數(shù)量級(jí)差異對(duì)評(píng)價(jià)結(jié)果的影響,應(yīng)首先將原始數(shù)據(jù)進(jìn)行量綱一的量化處理.協(xié)方差矩陣能較好地刻畫原始數(shù)據(jù)的全部信息,即協(xié)方差矩陣的主對(duì)角元恰好為各指標(biāo)的方差,而非主對(duì)角元?jiǎng)t包含了各指標(biāo)間相關(guān)系數(shù)的信息.因此,可將“均值化”方法作為量綱一的量化新方法,即用各項(xiàng)指標(biāo)的均值去除相應(yīng)的原始數(shù)據(jù),這樣得到的新數(shù)據(jù)的協(xié)方差矩陣不僅消除了量綱和數(shù)量級(jí)的影響,還包含原始數(shù)據(jù)的全部信息.記經(jīng)過(guò)量綱一的量化處理的數(shù)據(jù)矩陣為A[12].
2)核函數(shù)變換 將上述數(shù)據(jù)矩陣A中的每一數(shù)據(jù)元素進(jìn)行核函數(shù)變換,變換函數(shù)為高斯核函數(shù)記經(jīng)過(guò)核函數(shù)的數(shù)據(jù)矩陣為U.
3)均值化 為進(jìn)一步消除數(shù)量級(jí)差異對(duì)分類評(píng)價(jià)結(jié)果的影響,可進(jìn)一步對(duì)經(jīng)過(guò)核函數(shù)變換后得到的矩陣U中的數(shù)據(jù)元素進(jìn)行“均值化”變換.記經(jīng)過(guò)均值化后的數(shù)據(jù)矩陣為B.
4)對(duì)矩陣B進(jìn)行主成分分析 依據(jù)主成分分析數(shù)學(xué)模型,先求出 B′B的特征值和特征向量,依據(jù)公式計(jì)算方差貢獻(xiàn)率,取 lr>85%的前幾個(gè)主成分的和作為原始數(shù)據(jù)矩陣的主成分,即最后代入相應(yīng)的分類樣本數(shù)據(jù),求出各分類樣本的主成分值ti.
5)對(duì)各分類樣本的主成分值進(jìn)行聚類分析
聚類方法是:(1)將每個(gè)樣本的主成分值按升序進(jìn)行重新排列,t1最小,tn最大(n為樣本個(gè)數(shù));(2)計(jì)算相鄰主成分值間的差值(i=1,2,…,n),t0=t1;(3)計(jì)算δi的累加值其中,i=1,2,…,n;(4)以累加值Y為縱坐標(biāo),樣本序號(hào)N為橫坐標(biāo)繪制散點(diǎn)圖.最后根據(jù)散點(diǎn)圖分布趨勢(shì)可對(duì)樣本進(jìn)行直觀分類.
若根據(jù)經(jīng)驗(yàn)或相關(guān)專業(yè)知識(shí),可以預(yù)先確定分類指標(biāo)標(biāo)準(zhǔn)值,可將分類指標(biāo)標(biāo)準(zhǔn)的門限值作為一組樣本值代入相應(yīng)的主成分分析模型,求解相應(yīng)的主成分值,最后將各樣本的主成分值直接與分類標(biāo)準(zhǔn)的主成分值進(jìn)行比較分類.
為便于評(píng)價(jià)結(jié)果的比較,本文選擇文獻(xiàn)[2]中的數(shù)據(jù)作為評(píng)價(jià)數(shù)據(jù),其原始數(shù)據(jù)、分類標(biāo)準(zhǔn)值見(jiàn)表1、表2.
表1 碧流河水庫(kù)的歷史洪水樣本
表2 洪水分類指標(biāo)標(biāo)準(zhǔn)值
按照相應(yīng)的計(jì)算步驟,得到經(jīng)過(guò)均值化、核函數(shù)變換和進(jìn)一步均值化后的數(shù)據(jù)矩陣
則B′B矩陣的特征值為0.033 428.其中(大于85%),所以選擇F1第一主成分為原始數(shù)據(jù)矩陣的主成分,λ1所對(duì)應(yīng)的特征向量為F1中各變量指標(biāo)的系數(shù).各樣本的第一主成分值為1.937 012,2.288 422,1.449 608,2.327 398,2. 393 906,2.582 52,2.541 853,1.254 806,2.654 418,2.537 727,2.489 044,2.383 785,1.727 012.
相應(yīng)的,分類指標(biāo)標(biāo)準(zhǔn)的第一主成分值為1.739 894,2.027 368,2.308 012,2.868 6.將各樣本的第一主成分值與分類標(biāo)準(zhǔn)第一主成分值進(jìn)行比較,可得洪水樣本的自然分類結(jié)果(見(jiàn)表3),聚類效果圖見(jiàn)圖1.
表3 洪水過(guò)程指標(biāo)符號(hào)量化及分類結(jié)果
圖1 碧流河水庫(kù)歷史洪水非線性主成分-聚類分析效果圖
依據(jù)聚類效果圖并結(jié)合主成分值的大小,碧流河13個(gè)歷史洪水樣本可分為四類,即樣本號(hào)3,8,13為特大洪水,樣本號(hào)1為大洪水,樣本號(hào)2為中洪水,樣本號(hào)4,5,6,7,9,10,11,12為小洪水.這一分類結(jié)果和應(yīng)用集對(duì)分析方法所得結(jié)果基本是一致的,滿足實(shí)際應(yīng)用需要.
從本文所用方法對(duì)歷史洪水樣本進(jìn)行自然分類的實(shí)際來(lái)看,可以得出以下幾點(diǎn)結(jié)論:(1)非線性主成分-聚類分析是一種新穎的分類評(píng)價(jià)方法,同其他分類評(píng)價(jià)方法相比,該計(jì)算方法既能揭示分類指標(biāo)空間到類型空間的非線性特征,又不需要復(fù)雜的計(jì)算機(jī)專業(yè)知識(shí)、優(yōu)化算法知識(shí)和復(fù)雜的數(shù)學(xué)知識(shí),原理清楚,計(jì)算簡(jiǎn)單可行,結(jié)果客觀有效;(2)從計(jì)算過(guò)程和計(jì)算結(jié)果來(lái)看,該方法由于采用了兩次均值化計(jì)算,所以對(duì)于所給分類指標(biāo)門限值變化范圍較小時(shí),其分類效果較弱;(3)從實(shí)例分析來(lái)看,由于分類指標(biāo)空間到類型空間的非線性特征的差異,不同的非線性變換形式對(duì)分類評(píng)價(jià)結(jié)果稍有影響,因而選擇適宜的非線性變換函數(shù)就較為關(guān)鍵.對(duì)于可以預(yù)先確定分類指標(biāo)標(biāo)準(zhǔn)值的,可將指標(biāo)標(biāo)準(zhǔn)數(shù)值判定結(jié)果和依據(jù)聚類效果圖判定的分類結(jié)果相互結(jié)合,最終得出比較符合實(shí)際的分類結(jié)果.
[1]張 靈,陳曉宏,翁 毅.人工免疫算法在洪水分類中的應(yīng)用[J].中山大學(xué)學(xué)報(bào):自然科學(xué)版,2008, 47(5):110-113.
[2]王文圣.基于集對(duì)分析的洪水分類研究[J].高原山地氣象研究,2009,29(1):51-54.
[3]康愛(ài)卿,邱 林,張 亭.基于投影尋蹤的洪水分類和識(shí)別方法研究[J].華北水利水電學(xué)報(bào),2009, 30(2):6-8.
[4]汪麗娜,陳曉宏,李粵安.基于人工魚(yú)群算法和模糊C2均值聚類的洪水分類方法[J].水利學(xué)報(bào),2009, 40(6):743-747.
[5]Ramze M,Lelieveldt B P F,Reiber H C.A new cluster validity index for the fuzzy c2mean[J].Pattern Recognition Letters,1998,19(3-4):237-246.
[6]馬寅午,周曉陽(yáng),尚金成.防洪系統(tǒng)洪水分類預(yù)測(cè)優(yōu)化調(diào)度方法[J].水利學(xué)報(bào),1997(4):1-8.
[7]盧正波,侯召成.洪水聚類有效性分析[J].南水北調(diào)與水利科技,2007,5(2):87-90.
[8]孫 倩,段春青,邱 林.基于熵權(quán)的模糊聚類模型在洪水分類中的應(yīng)用[J].華北水利水電學(xué)院學(xué)報(bào), 2007,28(5):4-6.
[9] Lu Hongjun,Chen Yinchuan.The grey clustering method of the evaluati on of flood severity[C]∥Proceedings of Internati onal Symposium on Floods and Droughts.Nanjing:HohaiUniversityPress, 1999.
[10]王順久,張欣莉,侯 玉.洪水災(zāi)情投影尋蹤評(píng)估模型[J].水文,2002,22(4):1-4.
[11]董前進(jìn),王先甲,艾學(xué)山.基于投影尋蹤和粒子群優(yōu)化算法的洪水分類研究[J].水文,2007,27(4):10-14.
[12]童心安,許 超.基于非線性主成分和聚類分析的綜合評(píng)價(jià)方法[J].統(tǒng)計(jì)與信息論壇,2008,23,(2):37-41.