金玉潔 王 超 王 潔
(南京市水利規(guī)劃設(shè)計(jì)院有限責(zé)任公司,江蘇 南京 210006)
高維數(shù)據(jù)處理的探索性數(shù)據(jù)分析方法從20世紀(jì)70年代以來不斷涌現(xiàn),投影尋蹤分類模型是其中一種新的數(shù)據(jù)分析技術(shù),它同時(shí)集合了統(tǒng)計(jì)學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué),應(yīng)用前景十分廣闊[1-3]。相對于其他數(shù)學(xué)分析模型,如熵權(quán)系數(shù)模型、主成分分析模型、灰色關(guān)聯(lián)度分析模型等,投影尋蹤模型深刻的理論背景、科學(xué)的計(jì)算依據(jù)及便捷的使用方法,使其應(yīng)用優(yōu)勢更為凸顯。目前,投影尋蹤分類模型在洪水分類[4],水資源利用效率評價(jià)[5],水質(zhì)評價(jià)[6],洪水災(zāi)情評估[7],生態(tài)環(huán)境質(zhì)量評價(jià)[8],水土資源[9],甚至在房地產(chǎn)評估[10]中都得到了很好的應(yīng)用,取得了豐碩的成果。工程方案的優(yōu)選涉及很多因素,是典型的高維數(shù)據(jù)處理問題,筆者將投影尋蹤分類模型應(yīng)用于河道清淤工程方案的優(yōu)選,以南京市江寧區(qū)橫溪街道河道清淤工程為例進(jìn)行實(shí)例分析,旨在為今后河道清淤工程方案的優(yōu)選提供理論與實(shí)踐依據(jù)。
傳統(tǒng)的分析方法是假設(shè)數(shù)據(jù)服從某種分布,在此基礎(chǔ)上先假定、后模擬,最后進(jìn)行檢驗(yàn),這種分析方法實(shí)際上是一種證實(shí)性數(shù)據(jù)分析方法[11]。投影尋蹤(projection pursuit,簡稱 PP)采用一種全新的思維,即直接審視數(shù)據(jù),模擬數(shù)據(jù)結(jié)構(gòu),最后進(jìn)行檢驗(yàn)。因此,投影尋蹤分類模型被認(rèn)為是一種用來分析和處理高維數(shù)據(jù),尤其是處理非線性、非正態(tài)分布高維數(shù)據(jù)的一種新興的、科學(xué)的、有深刻理論背景的方法[12]。其實(shí)質(zhì)是利用計(jì)算機(jī)技術(shù),通過把高維數(shù)據(jù)投影到低維子空間,尋找能夠反映原高維數(shù)據(jù)結(jié)構(gòu)或者特征的投影,在低維空間研究數(shù)據(jù)結(jié)構(gòu),從而達(dá)到研究與分析高維數(shù)據(jù)的目的[13-14]。
建模方法如下[15-16]:
(1)建立評價(jià)矩陣。設(shè)某河道清淤工程方案有n種,評價(jià)指標(biāo)數(shù)目為p,第i種方案的第j個(gè)指標(biāo)值為xij*,則所有樣本指標(biāo)數(shù)據(jù)可以用n×p列的數(shù)據(jù)矩陣X*表示:
(2)無量綱化處理。為解決各指標(biāo)值的量綱不同,對不同樣本指標(biāo)值進(jìn)行無量綱化處理:
對數(shù)值越大越優(yōu)的指標(biāo)采取如下處理:
對數(shù)值越小越優(yōu)的指標(biāo)采取如下處理:
處理后得到n×p的數(shù)據(jù)矩陣X:
式中:
(3)線性投影。投影實(shí)質(zhì)上就是從不同的角度去觀察數(shù)據(jù),尋找能夠最大程度地反映數(shù)據(jù)特征和最能夠充分挖掘數(shù)據(jù)信息的最優(yōu)投影方向,從而實(shí)現(xiàn)數(shù)據(jù)降維。筆者將高維數(shù)據(jù)投影到一維線性空間進(jìn)行研究,因此,設(shè)單位向量a為一維線性投影方向,則矩陣X投影到a上的一維投影特征值為zi。
(4)構(gòu)造投影目標(biāo)函數(shù)。綜合投影指標(biāo)值時(shí),根據(jù)分類原則,投影值的散布特征盡可能滿足如下要求:局部投影點(diǎn)盡可能密集,最好凝聚成若干點(diǎn)團(tuán);整體上投影點(diǎn)團(tuán)之間盡可能散開。即:使多元數(shù)據(jù)在一維空間散布的類間距離SZ和類內(nèi)密度DZ同時(shí)取得最大值。因此,將投影目標(biāo)函數(shù)表示為類間距離和類內(nèi)密度的乘積:
式中:
SZ—投影特征值zi的標(biāo)準(zhǔn)差,也稱類間距離;
DZ—投影特征值zi的局部密度,也稱類內(nèi)密度。
式中:
E(z)—序列{zi|i=1~n|}的平均值。
式中:
R—局部密度的窗口半徑。
i,k=1,2,3…n,表示樣本容量。
(5)優(yōu)化投影目標(biāo)函數(shù)。對于給定的樣本集指標(biāo)值,投影指標(biāo)函數(shù)Q(a)隨著投影方向a的變化而變化,能夠最大可能地反映高維數(shù)據(jù)某類結(jié)構(gòu)特征的投影方向即為最佳投影方向。因此,運(yùn)用目標(biāo)函數(shù)最大化對投影目標(biāo)函數(shù)進(jìn)行優(yōu)化:
(6)評價(jià)。按照最佳投影方向a*取值大小排列,可以得到指標(biāo)貢獻(xiàn)/敏感程度大小,按照z*(i)取值大小排列,可以得到樣本的優(yōu)劣排序。
事實(shí)上,河道清淤工程方案的優(yōu)選是多元的復(fù)雜性問題,涉及方方面面,如:環(huán)境協(xié)調(diào)性,土地增值效益,工程投資成本,工程耗時(shí),工程占地面積等,其本質(zhì)完全契合投影尋蹤分類模型的應(yīng)用要求。因此,為更好地了解投影尋蹤分類模型在河道清淤工程方案優(yōu)選中的應(yīng)用,筆者以江寧區(qū)橫溪街道河道清淤工程為例進(jìn)行實(shí)例分析,如表1所示為4種河道清淤方案的屬性,其中,環(huán)境協(xié)調(diào)性與土地增值效益為專家打分結(jié)果。
從表1中可看出,由于投資的成本、耗時(shí)及環(huán)境協(xié)調(diào)性有所不同,4種河道清淤方案有較大差異。如:方案Ⅰ,雖然其環(huán)境協(xié)調(diào)性較好,但工程投資成本太高,占地面積太大,且耗時(shí)較長;方案Ⅳ,雖然投資成本不高,耗時(shí)也較短,但環(huán)境協(xié)調(diào)性太差,且土地增值效益也不高。因此,權(quán)衡各個(gè)方面,優(yōu)選出綜合條件最優(yōu)的河道清淤工程方案極為重要。
利用投影尋蹤分類模型對表1建模,其中,環(huán)境協(xié)調(diào)性、土地增值效益為“越大越優(yōu)”指標(biāo),工程投資成本、占地及耗時(shí)為“越小越優(yōu)”指標(biāo)。采用matlab7.1建立投影尋蹤分類模型,在RAGA優(yōu)化過程中選定父代初始種群規(guī)模為n=400,交叉概率Pc=0.8,變異概率Pm=0.8,優(yōu)秀個(gè)體數(shù)目選定為20個(gè),α=0.05,加速20次,則在得到的橫溪街道河道清淤工程方案優(yōu)選中,最大投影指標(biāo)值為0.4498,最佳投影方向 a(j)*=(0.4072,0.0198,0.5437,0.3158,0.0627),Ⅰ-Ⅳ方案的投影值依次為 z(i)*=(1.0425,1.2381,0.8052,0.0989)。根據(jù)投影值越大、河道清淤方案越優(yōu)的原則,4種方案的優(yōu)劣次序從優(yōu)至劣依次為:方案Ⅱ,方案Ⅰ,方案Ⅲ,方案Ⅳ。更直觀的對比計(jì)算結(jié)果如圖1所示。
表1 南京市橫溪街道河道清淤工程方案
圖1 4種方案比較
從以上模型計(jì)算成果來看,投影尋蹤分類模型在河道清淤工程方案的優(yōu)選中得到了很好的應(yīng)用,其原理客觀科學(xué),計(jì)算簡單便捷,具有相當(dāng)?shù)耐茝V和應(yīng)用價(jià)值。對于多目標(biāo)、多指標(biāo)的決策問題,目前有兩種賦權(quán)法,即:基于功能驅(qū)動(dòng)原理的賦權(quán)法與基于差異驅(qū)動(dòng)原理的賦權(quán)法?;诠δ茯?qū)動(dòng)原理的賦權(quán)法容易受到主觀因素和決策者個(gè)人偏好的影響;基于差異驅(qū)動(dòng)原理的賦權(quán)法則容易受限于原始數(shù)據(jù)結(jié)構(gòu)從而忽略決策者的主觀信息。投影尋蹤分類模型偏向于后者,因此,筆者認(rèn)為,投影尋蹤分類模型在河道清淤工程方案優(yōu)選的研究中,一方面可考慮針對不同數(shù)據(jù)結(jié)構(gòu)進(jìn)行模型的改良,另一方面,可考慮將其制作成普適軟件,方便決策者使用。
[1]Lin W,Tian Z,Wen X.Restoring Multisource Degraded Images based on Wavelet-Domain Projection Pursuit Learning Network;proceedings of the Third International Symposium on MultispectralImage Processing and Pattern Recognition,October 20,2003-October 22,2003,Beijing,China,F(xiàn),2003[C].SPIE.
[2]Solyar G,Chang C-I,Plaza A.Endmember generation by projection pursuit;proceedings of the Algorithms and Technologies forMultispectral,Hyperspectral,and Ultraspectral Imagery XI,March28,2005-April1,2005,Orlando,F(xiàn)L,United states,F(xiàn),2005[C].SPIE.
[3]Xu Q-S,Ren F-T.On the method of choosing the type about interchange based on Projection Pursuit Cluster Model [J].BeijingGongyeDaxue Xuebao/Journal of Beijing University
of Technology,2007,33(2):193-196.
[4]董前進(jìn),王先甲,艾學(xué)山,et al.基于投影尋蹤和粒子群優(yōu)化算法的洪水分類研究[J].水文,2007(04):10-14.
[5]封志明,鄭海霞,劉寶勤.基于遺傳投影尋蹤模型的農(nóng)業(yè)水資源利用效率綜合評價(jià)[J].農(nóng)業(yè)工程學(xué)報(bào),2005(03):66-70.
[6]付強(qiáng),付紅,王立坤.基于加速遺傳算法的投影尋蹤模型在水質(zhì)評價(jià)中的應(yīng)用研究[J].地理科學(xué),2003(02):236-239.
[7]金菊良,張欣莉,丁晶.評估洪水災(zāi)情等級的投影尋蹤模型[J].系統(tǒng)工程理論與實(shí)踐,2002(02):140-144.
[8]王順久,李躍清.投影尋蹤模型在區(qū)域生態(tài)環(huán)境質(zhì)量評價(jià)中的應(yīng)用[J].生態(tài)學(xué)雜志,2006(07):869-872.
[9]趙小勇.投影尋蹤模型及其在水土資源中的應(yīng)用[D].東北農(nóng)業(yè)大學(xué),2006.
[10]張玲玲,王宗志,顧敏.房地產(chǎn)風(fēng)險(xiǎn)評價(jià)的投影尋蹤模型研究[J].水利經(jīng)濟(jì),2005(01):20-22、65.
[11]Miyoshi T,Nakao K,Ichihashi H,et al.Neuro-fuzzy projection pursuit regression;proceedings of the Proceedings of the 1995 IEEE International Conference on Neural Networks Part 1 (of 6),November 27,1995-December 1,1995,Perth,Aust,F(xiàn),1995[C].IEEE.
[12]Shao X H,Hou M M,Chen L H,etal.Evaluation ofSubsurface Drainage Design Based on Projection Pursuit[J].Energy Procedia,2012,16,Part B(0):747-752.
[13]馮靜.基于免疫克隆的投影尋蹤聚類算法及其應(yīng)用[D].西安電子科技大學(xué),2010.
[14]胡欣欣,王李進(jìn),陳平留.基于投影尋蹤模型的森林景觀評價(jià)[J].江西農(nóng)業(yè)大學(xué)學(xué)報(bào),2009,v.31;No.154(02):306-310.
[15]Zhang X L,Ding J,Wang S J.Projection pursuit method for assessing analogy basins[J].Shuikexue Jinzhan/Advances in Water Science,2001,12(3):356-360.
[16]Zhao Y,Atkeson C G.Projection pursuitlearning;proceedingsofthe International Joint Conference on Neural Networks-IJCNN-91-Seattle,July 8,1991-July 12,1991,Seattle,WA,USA,F(xiàn),1991[C].Publ by IEEE.