摘要:目的 利用北京地區(qū)雷電監(jiān)測資料,應(yīng)用投影尋蹤分類模型,對北京市雷電災(zāi)害進行風險分析,并與層次分析模型的結(jié)果進行比較。方法 以閃電密度(次·km-2·a-1)、人口密度(人·km-2)和GDP(萬元·km-2)作為主要指標,使用DPS數(shù)據(jù)處理系統(tǒng)進行投影尋蹤分析。結(jié)果 應(yīng)用投影尋蹤分類模型估算的雷電風險值與該地區(qū)實際雷電災(zāi)害發(fā)生頻次的區(qū)縣間變化趨勢大致相同。結(jié)論 基于三指標的投影尋蹤分類模型可用于雷電災(zāi)害的風險分析。
關(guān)鍵詞:投影尋蹤;雷電災(zāi)害;風險分析
雷電是我國沿海地區(qū)的一類常見自然災(zāi)害。目前主要通過構(gòu)建多指標體系的雷電災(zāi)害風險評估模型來進行相關(guān)風險分析及區(qū)域劃分。其中,從指標體系到形成風險評估模型的過程中,如何確定各個指標的權(quán)重系數(shù)是關(guān)鍵。總體上權(quán)重的確定方法包括兩類,主觀賦值法和客觀賦值法。主觀賦值法如通過專家咨詢[1],但因有人的主觀經(jīng)驗混在其中,因而在某種程度上均會影響最終結(jié)果的客觀性和準確性??陀^賦值法如層次分析法[2-4]、模糊綜合評判法[5,6]等。層次分析法可通過計算機編程不依賴于人,通過對多層次指標的權(quán)重進行層次收斂,而獲得各指標的權(quán)重。而投影尋蹤方法作為一類由樣本數(shù)據(jù)驅(qū)動的探索性分析方法,可基于原始數(shù)據(jù)的結(jié)構(gòu)特征求得每個指標的權(quán)重,因而也可以排除人為主觀判斷而帶來的干擾。
1投影尋蹤分類模型
1.1 PP發(fā)展簡史和原理 投影尋蹤(projection pursuit,PP)是一類于20世紀70年代中期發(fā)展起來的一類處理非正態(tài)高維數(shù)據(jù)的統(tǒng)計方法,其融合了統(tǒng)計學、應(yīng)用數(shù)學和計算機技術(shù),主要用來分析和處理高緯觀測數(shù)據(jù),尤其適合于分析非正態(tài)非線性高緯數(shù)據(jù)。
PP是在70年代初由Kruskal開始試驗和發(fā)展的。最開始,他通過將高緯數(shù)據(jù)投影到低維空間,獲得數(shù)據(jù)的最優(yōu)投影,用以解決數(shù)據(jù)的聚類結(jié)構(gòu)和化石分類問題。之后,由Friedman和Tukey在1974年加以改進,并正式提出了PP概念。1976年,相關(guān)計算機圖像系統(tǒng)PRIM-9發(fā)布。1979年及其后若干年內(nèi),F(xiàn)riedman等人還相繼提出了投影尋蹤分類模型(projection pursuit classification model,PPC)、投影尋蹤回歸模型(projection pursuit regression model,PPR)等方法[7]。目前,該方法已被廣泛應(yīng)用于包括氣象[8]、環(huán)境科學[9]、經(jīng)濟學[10]和災(zāi)害評價[11]等方面。
1.2 PPC原理 作為一類探索性數(shù)據(jù)分析方法,PP由樣本數(shù)據(jù)驅(qū)動,利用計算機技術(shù)將高維數(shù)據(jù)通過某種組合投影到低維子空間上。再通過采用投影指標函數(shù)分析與優(yōu)化結(jié)果,尋找到能反映原高維數(shù)據(jù)結(jié)構(gòu)或特征的投影,從而實現(xiàn)研究和分析高維數(shù)據(jù)的目的。其基本原理是通過將待評價對象的各評價指標樣本進行線性投影,按照一定的原則尋求最優(yōu)投影方向向量,即客觀權(quán)重,從而建立綜合評價指數(shù)進行評價。由于該方法對于指標和樣本量無特別要求,且分析效果更為清晰,因此是一類較為實用和穩(wěn)健的分析方法[7]。
1.3 PPC步驟 本研究應(yīng)用的PPC模型的建模過程主要包括以下5個步驟[7]
步驟1:樣本評價指標的歸一化處理。
設(shè)p個指標n個樣本集的原始數(shù)據(jù)為{x*(i,j)|i=1,2,……,p}
正向指標x(i,j)=■ (式1)
負向指標x(i,j)=■(式2)
xmax(j)、xmin(j)分別代表第j個指標值的最大和最小值。x(i,j)代表經(jīng)過歸一化處理后的指標值序列。
步驟2:構(gòu)造投影指標函數(shù)Q(a)。目的是將p維數(shù)據(jù){x*(i,j)|i=1,2,……,p}綜合成以a={a1,a2,……,ap}為投影方向的一維投影值z(i):
z(i)=■a(j)x(i,j),(i=1,2,……,n)(式3)
然后根據(jù){z(i)|i=1,2,……,n}的一維散布圖進行分類。其中,a為單位長度向量。綜合投影指標時,要求投影值 的散步特征應(yīng)符合以下要求:局部投影點盡可能密集,如凝聚成若干點團,整體投影上點團之間距離盡可能大。按此投影指標函數(shù)還可表達為以下公式:
Q(a)=SzgDz(式4)
上式中,Sz為投影值的標準差,Dz為投影值的局部密度,
Sz=■(式5)
Dz=■■(R-r(i,j)gu(R-r(i,j))(式6)
上式中,E(z)為序列{z(i)|i=1,2,……,n}的平均值。R為局部密度的窗口半徑。R的選擇原則如下:使包含在窗口內(nèi)的投影點的平均個數(shù)不太少,且不會隨著n的增大而增加太多,此外還應(yīng)避免滑動平均偏差太大。可以根據(jù)試驗來確定R的大小。
t<0為樣本間距,r(i,j)=|z(i)-z(j)|。u(t)為一單位階躍函數(shù),當t≥0時,其函數(shù)值為1,當t<0時,其函數(shù)值為0。
步驟3:投影指標函數(shù)的優(yōu)化。所謂優(yōu)化,即通過求解最大投影指標函數(shù)值獲取最佳投影方向。最大化目標函數(shù)為:Max:Q(a)=SzDz(式7)
約束條件為:s.t.■a2(j)=1(式8)
這是一個以a={a1,a2,……,ap}為優(yōu)化變量的復雜非線性優(yōu)化問題。可采用如加速遺傳算法(real coded accelerating genetic algorithm,RAGA)等優(yōu)化算法來解決高維全部尋優(yōu)問題。
步驟4:分類或排序。在以上步驟所得結(jié)果的基礎(chǔ)上,將最佳投影方向a*代入式3,可得各樣本點投影值z*(i)。投影值z*(i)可從大到小實現(xiàn)排序。如果設(shè)定標準投影值區(qū)間,則還可以進行分類和評級。
2實證研究
2.1北京地區(qū)雷電災(zāi)害風險分析 選取北京地區(qū)雷電災(zāi)害作為實例,使用上述方法建立投影尋蹤分類模型,使用文獻數(shù)據(jù)進行雷電災(zāi)害的風險評估[12]。同時與文獻采用的層次分析模型的結(jié)果進行比較。
根據(jù)文獻整理出本文構(gòu)建投影尋蹤分類模型所需要的三個指標,分別是閃電密度(次·km-2·a-1)、人口密度(人·km-2)和GDP(萬元·km-2)。北京市18個區(qū)縣的三個指標水平見表1。
使用DPS數(shù)據(jù)處理系統(tǒng),按要求錄入北京18個區(qū)縣的3個指標,使用加速遺傳算法進行投影尋蹤分類模型的構(gòu)建,計算得到各區(qū)縣的雷電災(zāi)害風險投影值。根據(jù)文獻的風險等級標準進行了各區(qū)縣風險等級劃分(風險指標在0.85~1.00間為強風險,0.50~0.8為高風險,0.25~0.50為中風險,0.00~0.25為低風險)。同時,為了與各區(qū)縣的雷電災(zāi)害實際發(fā)生頻率進行更好的對比,根據(jù)文獻公式(風險估算值=投影值*各區(qū)縣1km2范圍內(nèi)的建筑面積)對雷電災(zāi)害風險程度進行估算。結(jié)果顯示,北京18個區(qū)縣中,西城區(qū)是強風險地區(qū),高風險地區(qū)的有東城區(qū)、崇文區(qū)、宣武區(qū)等5個地區(qū),懷柔區(qū)和延慶縣未中風險地區(qū),低風險地區(qū)有10個區(qū)縣,見表2。
2.2與層次分析模型的結(jié)果比較 通過將投影尋蹤分類模型所得的投影值與層次分析模型計算結(jié)果進行比較,可發(fā)現(xiàn)兩者的分析結(jié)果存在一定差異,但所提示的各區(qū)縣風險水平分布趨勢大致相同。其中,東城區(qū)、西城區(qū)、崇文區(qū)、宣武區(qū)、平谷區(qū)、懷柔區(qū)、密云縣和延慶縣的雷電風險等級明顯高于其他10個區(qū)縣,見圖1。
圖1 投影尋蹤模型與層次分析模型風險值比較
將基于兩個模型的分析結(jié)果按公式計算的風險估算值與雷電災(zāi)害實際頻度進行比較還可發(fā)現(xiàn),投影尋蹤分類模型的分析結(jié)果與層次分析模型的分析結(jié)果均較相近。盡管西城區(qū)基于投影尋蹤分類模型的估算結(jié)果與實際雷電災(zāi)害頻度差值的絕對值水平最高,為10.956,但是投影尋蹤分類模型其他15個區(qū)縣的估算結(jié)果與實際頻度的差值絕對值水平低于2,而層次分析模型為12個區(qū)縣。且層次分析模型有6個區(qū)縣的估算結(jié)果與實際頻度差值的絕對值水平大于2,而投影尋蹤分類模型僅為3個區(qū)縣。此外,實際雷電災(zāi)害頻度最高的海淀區(qū)及實際頻度最低的門頭溝區(qū),基于投影尋蹤分類模型所計算的風險估算值與其差值的絕對值水平均低于層次分析模型分析結(jié)果,見表3。
3結(jié)論與建議
對北京雷電災(zāi)害風險進行了評價,以閃電密度(次·km-2·a-1)、人口密度(人·km-2)和GDP(萬元·km-2)作為3個主要指標,在此基礎(chǔ)上進行了投影尋蹤分類模型的構(gòu)建,獲得北京市18個區(qū)縣的投影值。并以各區(qū)縣1km2范圍內(nèi)的建筑面積為基礎(chǔ),計算了各區(qū)縣的風險估算值。通過和層次分析模型的分析結(jié)果及實際雷電災(zāi)害頻度進行比較,結(jié)論:①投影尋蹤方法客觀可靠,結(jié)果合理,可應(yīng)用于雷電災(zāi)害的風險分析;②投影值的大小結(jié)合各區(qū)縣1km2范圍內(nèi)的建筑面積所得的風險估算值能客觀反映了地區(qū)實際雷電風險水平高低;③本文使用了三個指標,18個縣區(qū)的數(shù)據(jù),利用DPS數(shù)據(jù)處理系統(tǒng),完成了投影尋蹤分類模型的構(gòu)建,說明投影尋蹤建模過程具有較高的可行性。
由模型構(gòu)建過程可知,投影尋蹤分類模型分析結(jié)果的準確性和可靠性,主要取決于選擇的投影指標,且投影值會隨著每個指標的樣本數(shù)據(jù)的變化而變化。此外,投影尋蹤分類模型的分析結(jié)果僅適合于樣本指標和數(shù)據(jù)產(chǎn)生的地區(qū)和事件。如本文所構(gòu)建的投影尋蹤分類模型僅適合于北京地區(qū)的雷電風險評估。此外,引入各區(qū)縣1km2范圍內(nèi)的建筑面積后的風險估算值較原有投影值更能準確反映實際災(zāi)害頻度,這也說明正確合理地運用投影尋蹤及層次分析模型等統(tǒng)計學方法,提高雷電災(zāi)害風險評估結(jié)果的準確性和科學性。同時,與廣東省應(yīng)用投影尋蹤模型對其雷電災(zāi)害進行風險評價的研究不同的是[13],他們選取了9個指標進行投影尋蹤模型的構(gòu)建。說明還需要進一步的實證研究以探索最佳指標組合。
參考文獻:
[1]程向陽,謝五三.雷電災(zāi)害風險區(qū)劃方法研究及其在安徽省的應(yīng)用[J].氣象科學,2012,32(1):80-85.
[2]朱傳林,王學良,賀姍.基于層次模型及權(quán)重分析的湖北省雷電災(zāi)害易損度區(qū)劃[J].中國農(nóng)學通報,2015,31(8):206-211.
[3]趙偉,楊續(xù)超,張斌.浙江省雷電災(zāi)害風險分析及區(qū)劃[J].熱帶氣象學報,2014,30(5):996-1000.
[4]劉垚,包云軒,繆啟龍,等.杭州市雷電災(zāi)害風險區(qū)劃及分析[J].西北師范大學學報:自然科學版,2014,50(3):99-105.
[5]余蜀豫,任艷,覃彬全.基于模糊數(shù)學的重慶地區(qū)雷電災(zāi)害風險評估方法研究[J].災(zāi)害學,2015,30(2):75-78.
[6]楊超.模糊綜合評判法在廈門市雷電災(zāi)害風險區(qū)劃中的應(yīng)用[J].氣候與環(huán)境研究,2011,16(6):774-778.
[7]付強,趙小勇.投影尋蹤模型原理及其應(yīng)用[M].北京:科學出版社,2008.
[8]楊再強,張婷華,黃海靜,等.北方地區(qū)日光溫室氣象災(zāi)害風險評價[J].中國農(nóng)業(yè)氣象,2013,34(3):342-349.
[9]劉衛(wèi)林.撫河水環(huán)境質(zhì)量的投影尋蹤回歸分析[J].中國農(nóng)村水利水電,2011(5):39-42.
[10]苗敬毅.基于投影尋蹤聚類模型的區(qū)域經(jīng)濟可持續(xù)發(fā)展評價--以30個省1998-2011年數(shù)據(jù)為例[J].工業(yè)技術(shù)經(jīng)濟,2013(10):77-82.
[11]張明媛,袁永博,周晶.城市自然災(zāi)害風險分析新方法[J].大連理工大學學報,2010(5):706-711.
[12]扈海波,王迎春,熊亞軍.基于層次分析模型的北京雷電災(zāi)害風險評估[J].自然災(zāi)害學報,2010(1):104-109.
[13]汪志紅,王斌會.投影尋蹤技術(shù)在突發(fā)事件風險分類評級中的應(yīng)用--以廣東省雷電災(zāi)害風險評價為例[J].災(zāi)害學,2011,26(3):78-82.
編輯/申磊