錢龍霞,張 韌,王紅瑞,侯太平
1.國防科技大學氣象海洋學院,南京211101
2.北京師范大學水科學研究院,北京100875
影響風險的因子或因素有很多,而這些因子之間又有著極其復雜的聯(lián)系,難以構(gòu)建一個能準確反映各個因子之間關(guān)系的風險評估模型[1].常用的風險評估模型包括加權(quán)綜合法[2]、模糊綜合評價法[3]、灰色關(guān)聯(lián)分析法[4].這些評估方法從本質(zhì)上來說是一種線性加權(quán)方法,需要確定指標的權(quán)重,而賦權(quán)過程中無法避免主觀性的影響[5-6].文獻[7-9]指出:由于評估受數(shù)據(jù)處理、特殊評估指標、定性評估等多種因素的影響,評估的本質(zhì)應(yīng)該是非線性的.為了彌補線性加權(quán)法的不足,一些非線性評估方法如數(shù)據(jù)包絡(luò)分析法[10]、支持向量機[11]、非正態(tài)信息擴散模型[12]逐漸應(yīng)用到風險評估中.此外,以下一些新的風險評估方法也被逐步引入:基于模糊概率的風險評估模型[13]、一種風險判別分析模型[5]、風險多重積分評估模型[6]、模糊物元模型[14]、非線性模糊綜合評價方法[7,15].這些方法豐富并發(fā)展了風險評估理論,但是大部分模型需要確定指標與風險之間復雜的數(shù)學關(guān)系式,如非線性模糊綜合評價法需要確定隸屬函數(shù)的表達式等.這些關(guān)系式往往隨研究地區(qū)或研究內(nèi)容的不同而需作相應(yīng)的改變,不但不利于推廣而且評估結(jié)果也難以進行可靠性驗證[1].
針對多維風險評估模型難以構(gòu)建的問題,文獻[16-17]先用投影尋蹤模型把高維數(shù)據(jù)投影到低維子空間上,再以該投影值和系統(tǒng)輸出值之間的散點圖建立Logistic 函數(shù)模型或三次趨勢曲線對風險進行預測和評估.投影指標函數(shù)的構(gòu)造是投影尋蹤模型的關(guān)鍵步驟[16].文獻[8]采用投影值的標準差和投影值與風險之間的相關(guān)系數(shù)的絕對值乘積作為投影指標函數(shù).只有當投影值序列的均值相等時,才能用標準差刻畫序列的變異程度,這是因為標準差不僅受隨機序列變動的影響,而且還受序列平均值的影響[18];文獻[17]綜合考慮投影向量優(yōu)化中的不確定性,建立基于最大熵原理的多準則投影指標函數(shù),以投影方向平方的熵最大為準則尋找最優(yōu)投影方向,但不能保證投影值能最大程度地提取原始數(shù)據(jù)的變異信息.不僅如此,由于很難獲取風險的經(jīng)驗值或觀測值,根據(jù)投影值與風險值之間的散點圖確定風險評估函數(shù)的形式十分困難.
基于上述討論,本文擬用投影值的信息熵作為投影指標函數(shù),基于最大熵原理求解最優(yōu)投影方向,最后根據(jù)評估函數(shù)的性質(zhì)建立一種S 型風險評估函數(shù)模型.該模型不必對指標賦權(quán)就可以避免人為干擾,且對風險觀測值或經(jīng)驗值的樣本量要求不高.
指標預處理主要包括標準化處理和無量綱化處理,其目的是保持指標的同趨勢化,以保證指標間的可比性,同時消除指標的量綱效應(yīng).指標往往分成以下類型:成本型、效益型、適度型、區(qū)間型.成本型指標是指標數(shù)值越小風險越小的指標,效益型指標是數(shù)值越大風險越大的指標,適度型指標是數(shù)值越接近某個常數(shù)風險越大的指標,區(qū)間型指標是數(shù)值越接近某個區(qū)間(包括落在該區(qū)間內(nèi))風險越大的指標.由于常規(guī)評估中以成本型和效益型指標居多,這里僅給出成本型指標和效益型指標的預處理方法.這兩類指標的預處理方法主要包括極差正規(guī)化和極大極小化.極差正規(guī)化處理可以保持數(shù)據(jù)序列的原始分布,適用于呈正態(tài)分布或非正態(tài)分布的指標,且不改變處理后數(shù)據(jù)的分布,指標值在0~1 之間[19].因此,本文采用極差正規(guī)化方法,其計算公式如下:
式中,aij表示第j個指標在i種情形下的原始指標值,bij為處理后的指標值,其中i=1,2,··· ,m,j= 1,2,··· ,n,m和n分別為樣本容量和指標數(shù)目,bij的范圍在0~1 之間.因此,指標經(jīng)過預處理后的風險隨著所有指標變量的增大而增大.
影響風險的因子或因素很多,因此定量分析風險與因子之間的函數(shù)關(guān)系非常困難,于是先將多維指標轉(zhuǎn)換成一維指標以簡化風險與因子之間的關(guān)系.文獻[20]是一種將高維數(shù)據(jù)降維的方法,其中投影指標函數(shù)的構(gòu)造是投影尋蹤模型的一個關(guān)鍵步驟.文獻[16]以投影值的標準差和投影值與因變量之間相關(guān)系數(shù)的絕對值乘積作為投影指標函數(shù),其中標準差盡可能大是為了最大限度地提取指標序列中的變異信息,相關(guān)系數(shù)的絕對值盡可能大是為了保證投影值對因變量具有合理的解釋性.最優(yōu)投影方向是從眾多投影方向中選擇的,因為不同的投影方向會有不同的投影值序列,所以只有當投影值序列的均值相等時才能使標準差刻畫序列的變異程度,而且標準差同時受到隨機序列變動的影響和序列平均值的影響[18].這意味著當投影值序列的均值不同時,標準差無法準確刻畫序列的變異程度.
鑒于此,本文定義投影值的信息熵刻畫從原始數(shù)據(jù)中提取的信息量,選擇能使投影值的熵達到最大時(即最大熵原理)對應(yīng)的投影方向作為最優(yōu)投影方向.文獻[21]認為最大熵原理符合熵增原理、第1 原理、最大多重性原理和一致性要求.不僅如此,就風險評估而言,很難獲得風險的經(jīng)驗值或觀測值,因此在投影指標函數(shù)中考慮投影值與風險經(jīng)驗值或觀測值的相關(guān)系數(shù)有時不太現(xiàn)實.基于以上討論,本文提出了基于信息熵的投影尋蹤模型,其建模步驟如下:
步驟1構(gòu)造投影指標函數(shù).設(shè)預處理后的指標數(shù)據(jù)序列為{bij|i=1~m,j=1~n},其中m、n分別為樣本容量、指標數(shù)目.首先定義投影函數(shù)[28]
根據(jù)熵定理[21],可以構(gòu)造投影指標函數(shù)(即投影值的熵)為
式中,c為正常數(shù),一般取于是投影指標函數(shù)只隨投影方向的變化而變化,不同的投影方向?qū)?yīng)不同的數(shù)據(jù)結(jié)構(gòu)特征[16].
步驟2估計最佳投影方向.根據(jù)最大熵原理可知:式(3)越大,式(2)越能反映原始數(shù)據(jù)的結(jié)構(gòu)特征,提取的變異信息也越大,于是可以通過求解以下的最大化問題來估計最佳投影方向:
為了保證式(3)中對數(shù)函數(shù)的真數(shù)始終大于0,需要增加一個條件,即>0.顯然式(4)是一個條件極值問題,可以根據(jù)拉格朗日乘數(shù)法構(gòu)建一個拉格朗日函數(shù)[21]
最佳投影方向的詳細求解過程可參考高等數(shù)學相關(guān)書籍.
1.3.1 風險評估函數(shù)的建立
將所有指標根據(jù)式(1)進行預處理,均轉(zhuǎn)化為值越大、風險越大的類型指標,即風險R隨所有指標的增大而增大.根據(jù)式(2)及復合函數(shù)理論可知,將多維指標投影成一維變量后x后,風險R也隨著x的增大而增大,風險評估函數(shù)應(yīng)該是一個增函數(shù).
文獻[8]認為:①評估函數(shù)應(yīng)該是單調(diào)遞增的;②評估函數(shù)應(yīng)該是有界的;③評價結(jié)果的增大應(yīng)是連續(xù)平穩(wěn)的.文獻[6]認為評估函數(shù)還應(yīng)該滿足性質(zhì)④:先是越來越快,到達某一拐點后越來越慢.性質(zhì)③和④的數(shù)學含義如下:導函數(shù)開始是增函數(shù),到達某一拐點后是減函數(shù),且導函數(shù)是連續(xù)函數(shù).根據(jù)上面的分析可以對風險評估函數(shù)R提出如下假設(shè):
1)R是連續(xù)函數(shù),且自變量x的定義域為(?∞,+∞).
2)R是有界函數(shù),當x ∈(?∞,a]時,R=0;當x ∈(b,+∞)時,R=M(M >0).
3)V的導函數(shù)是連續(xù)的,即V是光滑函數(shù).
4)V的導函數(shù)在[a,c]上是增函數(shù),在[c,b]上是減函數(shù),即c為V的拐點.
為了簡化問題,本文假設(shè)導函數(shù)是對稱的,即c為a和b之間的中點,而S 型函數(shù)滿足以上4 條性質(zhì).根據(jù)高等數(shù)學相關(guān)理論,S 型函數(shù)除了滿足以上4 條性質(zhì)外,還需要估計的參數(shù)比較少,只有2 個未知參數(shù).因此,S 型函數(shù)具有很大優(yōu)勢.一般來說,風險評估包括兩種結(jié)果:風險值和風險等級值.為保證評價結(jié)果的可比性,當需要風險值時,M取1;當需要風險等級值時,M取經(jīng)驗等級的最大值.因此,這兩類風險評估函數(shù)分別為
1.3.2 參數(shù)估計
如果沒有風險實驗值和風險等級經(jīng)驗值,那么可以通過如下方式估計參數(shù)a和b.設(shè)最佳投影方向為因為為預處理后的指標值,所以根據(jù)式(1)可知:對?i,j,有0≤bij≤1,即
式中,R(xi)為第i樣本的風險計算值或風險等級計算值;yi為第i樣本的風險實驗值或風險等級經(jīng)驗值;p為選取的建模樣本,且p 綜上所述,基于信息熵的投影尋蹤風險評估模型如圖1所示. 圖1 基于信息熵的投影尋蹤風險評估模型的建模流程Figure1 Modelling process of project pursuit risk assessment model based on information entropy 2.1.1 數(shù)據(jù)來源 文獻[16] 根據(jù)文獻[23] 中的河南省洪水災情等級標準隨機產(chǎn)生23 個樣本點,如表1中序號1—23 所示,數(shù)據(jù)產(chǎn)生過程詳見文獻[16].另外表2中序號1950—1984 是河南省1950—1990年中實際發(fā)生的9 次大的洪災損失資料[16]. 2.1.2 結(jié)果和分析 2.1.2.1 最佳投影方向估計 根據(jù)表1可知成災面積和直接經(jīng)濟損失為效益型指標,指標預處理公式為 式中,aij表示原始指標值,bij為處理后的指標值.將處理后的指標序列代入式(4)獲得最佳投影方向,并且比較改進投影尋蹤模型和文獻[16]提出的投影尋蹤模型所計算的投影方向.比較兩種投影指標函數(shù)的效果(最大熵和標準差),最佳投影方向如表3所示,投影值如圖2所示. 表1 河南省洪災損失資料和風險等級經(jīng)驗值模擬數(shù)據(jù)[16]Table1 Simulated data of flood losses and risk empirical level values in Henan Province 表2 河南省洪災損失資料和風險等級經(jīng)驗值[16]Table2 Flood losses and risk level empirical values in Henan Province 表3 2 種模型計算得到的最佳投影方向比較Table3 Comparison of the best projection directions by two models 圖2 2 種模型計算的投影值和風險等級經(jīng)驗值的比較Figure2 Comparison of projection values and risk empirical level values by two models 由圖2可知改進投影尋蹤模型計算的投影值和風險等級經(jīng)驗值的變化趨勢更加吻合,而投影尋蹤模型的投影值在某些點的變化比較劇烈,如第19—23 個樣本點.由表2可知:在改進投影尋蹤模型計算的最佳投影方向中,承災面積明顯大于直接經(jīng)濟損失,說明承災面積對洪災風險等級影響的程度大于直接經(jīng)濟損失指標的影響程度,而采用投影尋蹤模型算出的這兩個指標的投影方向值相近. 2.1.2.2 參數(shù)估計和模型檢驗 以表1中序號1—23 的樣本點為參數(shù)估計的樣本,將表2中1950—1990年中實際發(fā)生的9 次大的洪災損失資料作為檢驗樣本.本文提供了風險等級經(jīng)驗值,于是將這23 個樣本點的投影值和風險等級經(jīng)驗值代入式(7),其中M為4,求解最小化問題式(9)可以得到參數(shù)a和b分別為?0.55 和0.84.將表2中1950—1990年中實際發(fā)生的9 次大的洪災損失資料的投影值及參數(shù)a和b代入式(7),得出這9 次洪災風險等級的計算值如圖3所示.文獻[16]提出基于投影尋蹤的Logistic 風險評估模型,同理可以計算出Logistic 風險評估模型的參數(shù)分別為?1.29 和1.51,進而得到這9 次洪災風險等級的計算值如圖3所示.分別計算兩種模型的平均絕對誤差、平均相對誤差、均方誤差,如表4所示. 圖3 2 種模型計算的洪災風險等級值的比較Figure3 Comparison of flood risk level values by two models 表4 2 種模型誤差的比較Table4 Comparison of errors by two models 由圖3和表4可知改進投影尋蹤模型計算的風險等級值與經(jīng)驗值更加吻合,且3 種誤差值均小于投影尋蹤模型的誤差值,這表明評估效果更好.進一步觀察可以發(fā)現(xiàn)改進模型的平均誤差與均方誤差均大于0.3,這是因為經(jīng)驗等級值都是一些離散的值,如1.0、1.5、2.0、2.5、3.0、3.5、4.0,顯然精度較粗;改進模型和投影尋蹤模型均得到了連續(xù)的洪災風險等級值,分辨率較高[16],導致平均標準誤差和均方差較大,以此作為評價標準顯然不夠全面.因此,參考平均相對誤差更加合理,改進模型的相對誤差約為0.11,準確率達到89%.總的來說,與投影尋蹤模型相比,改進模型的3 種誤差值分別減少了8.8%、7.0%、8.4%,改進幅度雖然不大,但評估效果和精度優(yōu)于投影尋蹤模型. 2.2.1 數(shù)據(jù)來源 建模數(shù)據(jù)來自于文獻[12],主要任務(wù)是定量評估大氣—海洋環(huán)境對作戰(zhàn)平臺和武器裝備的影響,主要風險評估因子為風速、浪高、水平能見度、雷暴可能性、云量,如表5所示. 表5 海上聯(lián)合作戰(zhàn)大氣—海洋環(huán)境風險仿真實驗數(shù)據(jù)[12]Table5 Simulated data of atmospheric-ocean risk of marine joint operation 2.2.2 結(jié)果和分析 2.2.2.1 最佳投影方向估計 根據(jù)表5可知風速、浪高、雷暴幾率、低云量為效益型指標,指標預處理公式為 能見度為成本型指標,指標預處理公式為 式中,aij為原始指標值,bij為處理后的指標值.先將處理后的指標序列代入式(4)獲得最佳投影方向,并比較改進投影尋蹤模型和文獻[16]提出的投影尋蹤模型所計算的投影方向.投影尋蹤模型的數(shù)據(jù)預處理方法見文獻[16],最佳投影方向結(jié)果見表6,投影值結(jié)果見圖4. 表6 2 種模型計算得到的最佳投影方向比較Table6 Comparison of the best projection directions by two models 圖4 2種模型計算的投影值和風險等級經(jīng)驗值的比較Figure4 Comparison of projection value and risk empirical level by two models 改進模型和傳統(tǒng)投影尋蹤模型計算的投影值和風險實驗值的Pearson 相關(guān)系數(shù)分別為0.914 和0.839,顯著性水平均為0.01.由圖4和相關(guān)分析的結(jié)果可知:改進模型計算的投影值和風險實驗值的變化趨勢更加吻合,相關(guān)程度更高;傳統(tǒng)投影尋蹤模型的投影值在大部分點處的變化比較劇烈,相關(guān)程度一般. 由表6可知改進模型計算的最佳投影方向均為正值,而在投影尋蹤模型的計算結(jié)果中除了能見度的投影方向是負值外其他均為正值,這是因為本文利用式(11)和(12)對指標進行了預處理,消除量綱效應(yīng)的同時實現(xiàn)了指標的同趨勢化,而傳統(tǒng)模型采用標準差化[18]對指標進行無量綱化處理,無法實現(xiàn)指標的同趨勢化. 2.2.2.2 參數(shù)估計和模型檢驗 以表4中序號1—18(50%)的樣本點為參數(shù)估計的樣本,將序號19–36 的18 個樣本點資料作為檢驗樣本,同理可得參數(shù)a和b分別為?0.301 2 和1.764 7.將表4中序號19–36 的樣本點資料的投影值及參數(shù)a和b代入式(6),計算序號18—36 樣本點的風險值如圖5所示,同理可以計算文獻[16]提出的Logistic 模型的參數(shù)分別為0.498 5 和0.724 8 以及序號9—36樣本點的風險值,如圖5所示.兩種模型的平均絕對誤差、平均相對誤差、均方誤差如表7所示. 圖5 2 種模型計算的海洋環(huán)境風險值的比較Figure5 Comparison of marine environment risk values by two models 表7 2 種模型誤差的比較Table7 Comparison of errors by two models 由圖5可知改進投影尋蹤模型計算的風險等級值的變化趨勢與實驗值非常吻合,評估效果很好.投影尋蹤模型在序號20、21、23、28、29、32、33 這7 個樣本點處模擬較好,而在其余11 個樣本點處的評估效果很差.由表7可知改進模型的平均誤差、相對誤差、均方誤差分別只有0.07、0.22、0.09,相比于投影尋蹤模型,3 種誤差值分別減少了52.1%、27.1%、53.9%,改進效果非常顯著.總的來說,改進投影尋蹤模型具有很高的準確度. 與投影尋蹤模型相比,改進模型的評估效果均有一定程度的改進,主要原因如下: 1)指標的預處理方法不同.本文采用的極差正規(guī)化處理方法不僅可以保持指標的同趨勢化,而且消除了指標的量綱效應(yīng),適用于呈正態(tài)分布或非正態(tài)分布的指標[19].投影尋蹤模型[16]采用標準差化方法進行預處理,只能消除指標的量綱效應(yīng),且只適用于呈正態(tài)分布的指標[19].分別對這兩組實驗的7 個指標進行正態(tài)性檢驗,所得結(jié)果如表8所示.除了能見度、雷暴幾率、低云量的正態(tài)性檢驗的顯著性水平值大于0.05 外其余均小于0.05,說明只有能見度、雷暴幾率、低云量服從正態(tài)分布,可見對所有指標變量采用標準差化方法進行預處理是不合適的. 表8 正態(tài)性檢驗Table8 Normality test 2)投影指標函數(shù)不同.改進模型以投影值的熵表示投影指標函數(shù),投影尋蹤模型[16]以投影值的標準差表示投影指標函數(shù),而標準差只能刻畫均值相同的序列的變異程度.基于最大熵原理估計最佳投影方向符合以下4 個原理:熵增原理、第1 原理、最大多重性原理、一致性原理.從圖2和4 中可以看出最大熵原理的優(yōu)越性. 3)風險評估函數(shù)不同.S 型風險評估函數(shù)除了滿足單調(diào)性、有界性、變化的連續(xù)平穩(wěn)性外,只需指標投影值序列的最小值和最大值而不必借助風險樣本就能估計參數(shù).Logistic 風險評估函數(shù)模型需要大量風險樣本才能估計參數(shù),但有時很難獲得風險的經(jīng)驗值或觀測值,因此該模型具有一定的局限性.Logistic 風險評估函數(shù)是一個增函數(shù),當評估指標中同時具有成本型指標和效益型指標時,投影尋蹤模型采用的標準差化方法無法保持指標的同趨勢化,也就無法保證風險值和投影值之間的函數(shù)關(guān)系是遞增的,這也可以解釋基于最大熵原理的投影尋蹤模型對海洋環(huán)境風險評估的改進效果比較明顯(27.1%~53.9%),而對洪災風險等級評估的改進幅度不大(7.0%~8.8%).因為洪災風險等級評估指標均為效益型指標,而海洋環(huán)境風險評估中同時具有成本型指標和效益型指標. 需要強調(diào)的是:為比較以最大熵和標準差作為投影指標函數(shù)的差別,考慮到風險的經(jīng)驗值或觀測值很難獲取的現(xiàn)實難題,投影尋蹤模型中的投影指數(shù)函數(shù)僅考慮了投影值的標準差,而未考慮投影值和風險經(jīng)驗值的相關(guān)系數(shù)(文獻[16]中考慮了相關(guān)系數(shù)). 本文建立了基于信息熵的投影尋蹤風險評估模型,該模型能定量模擬并刻畫風險與指標之間的變化關(guān)系,主要建模步驟和目的如下:1)基于極差正規(guī)化方法對指標進行預處理,消除指標的量綱效應(yīng),保持指標的同趨勢化.2)采用投影值的熵表示投影指標函數(shù),基于最大熵原理估計最佳投影方向以便將指標降維,克服了傳統(tǒng)投影指標函數(shù)無法刻畫序列在某些情形下的變異程度.3)分別建立了風險值和風險等級值的S型風險評估函數(shù),該函數(shù)具備單調(diào)性、有界性、變化的連續(xù)平穩(wěn)性等性質(zhì). 兩類評估實驗表明:與文獻[16]中的投影尋蹤模型相比,改進投影尋蹤模型對洪災風險等級評估的改進幅度為7.0%~8.8%,對海洋環(huán)境風險評估的改進效果更加明顯,改進幅度達到27.1%~53.9%. 本文研究建立在對指標進行極差正規(guī)化處理和降維處理的基礎(chǔ)上,而在數(shù)據(jù)處理過程中難免會丟失一些信息,因此如何構(gòu)建多維風險評估模型有待于進一步研究.2 評估實驗
2.1 洪水災情風險等級評估
2.2 海洋環(huán)境風險評估
2.3 討 論
3 結(jié) 論