龔艷冰,楊舒馨,戴靚靚,劉高峰
(1.河海大學(xué) 企業(yè)管理學(xué)院,江蘇 常州 213022;2.江蘇省“世界水谷”與水生態(tài)文明協(xié)同創(chuàng)新中心,南京 211100)
洪澇災(zāi)害發(fā)生具有突發(fā)性、多樣性、難以確定性等特點(diǎn),使得人們無法迅速做出反應(yīng),難以有效的控制災(zāi)情。面對突發(fā)性自然災(zāi)害,決策者快速準(zhǔn)確的識別災(zāi)害等級,顯得尤為重要。只有在確定等級基礎(chǔ)上,采取恰當(dāng)預(yù)案措施和資源調(diào)配,才能將災(zāi)害損失降到最低。傳統(tǒng)突發(fā)事件分級的方法屬于靜態(tài)法,完全依賴專家主觀經(jīng)驗(yàn)打分,分級的標(biāo)準(zhǔn)和級數(shù)都是統(tǒng)一規(guī)定,不可更改的。但事實(shí)上突發(fā)事件爆發(fā)難以確定,具體損失復(fù)雜難以評估,靜態(tài)法不再適用,容易造成分級結(jié)果的偏差,為應(yīng)急管理和資源調(diào)配帶來不便。因此,國內(nèi)外學(xué)者開始從理論層面對災(zāi)害分級問題進(jìn)行探討。例如,張艷瓊等[1]將云模型引入分級模型中,利用云模型理論將定性概念與定量數(shù)據(jù)進(jìn)行轉(zhuǎn)化,較好解決了突發(fā)事件的模糊性與隨機(jī)性帶來的決策難點(diǎn);蔡正杰等[2]提出一種基于改進(jìn)模糊綜合評價方法的突發(fā)環(huán)境事件分級模型,將災(zāi)害數(shù)據(jù)轉(zhuǎn)化成模糊評價矩陣,此基礎(chǔ)上得到最終評價結(jié)果;商麗媛等[3]基于支持向量機(jī)算法,構(gòu)建決策函數(shù),對地震突發(fā)事件進(jìn)行了分級;吳鳳平等[4]提出一種基于三角模糊數(shù)改進(jìn)的灰色定權(quán)聚類方法,以三角模糊數(shù)作為分級指標(biāo)的判斷依據(jù);宋莎莎等[5]在使用模糊層次分析法確定旱災(zāi)分級的度量指標(biāo)基礎(chǔ)上,用聚類分級法進(jìn)行分級。
在現(xiàn)有研究的基礎(chǔ)之上,本文提出一種基于數(shù)據(jù)場理論改進(jìn)的K-means聚類算法,并將其應(yīng)用于洪澇災(zāi)害分級研究。該算法避免傳統(tǒng)聚類算法中需提前設(shè)定聚類參數(shù),聚類類別個數(shù)和聚類中心的問題,可以根據(jù)樣本間的相似性將數(shù)據(jù)集劃分成多個不同的類簇,使同一類簇的對象相似度高,不同類簇相似度低。如何確定對象之間的相似度,即緊密程度?該算法引用數(shù)據(jù)場的勢函數(shù),確定聚類個數(shù)k及初始聚類中心,既保留原本K-means算法簡潔、迅速的特點(diǎn),又彌補(bǔ)了算法本身存在的主觀性,使不確定性突發(fā)事件的分級結(jié)果更加準(zhǔn)確合理,為決策者提供科學(xué)的理論指導(dǎo)。
借鑒物理場的思想,李德毅將物質(zhì)間的相互作用引入抽象的數(shù)域空間,創(chuàng)造性提出數(shù)據(jù)場思想。在描述數(shù)據(jù)場屬性時,引入標(biāo)量函數(shù)——勢函數(shù)。勢函數(shù)反映了一個數(shù)據(jù)對象受到其他所有數(shù)據(jù)對象的影響程度,克服了傳統(tǒng)聚類算法僅考慮兩個對象之間影響關(guān)系的局限性,認(rèn)為空間中任一點(diǎn)的狀態(tài)是其他所有的對象共同作用的結(jié)果[6,7]。數(shù)據(jù)場勢函數(shù)定義如下:
定義1:空間Ω中共有n個對象{x1,x2,…,xn} 及其產(chǎn)生的數(shù)據(jù)場,空間任一點(diǎn)的勢值可表示為:
在空間中,由于數(shù)據(jù)點(diǎn)勢函數(shù)的存在,數(shù)據(jù)點(diǎn)間在無外力的作用下會發(fā)生相向運(yùn)動,但受σ的約束,σ越大,所有數(shù)據(jù)點(diǎn)的影響力越大,輻射范圍的影響也越大;σ越小,所有數(shù)據(jù)點(diǎn)的影響力越小,輻射范圍的影響也越小[8]。
數(shù)據(jù)場理論能夠較好地刻畫數(shù)據(jù)與數(shù)據(jù)之間多對一的作用關(guān)系,克服了原先聚類算法只關(guān)注一對一的相互影響,能夠獲得更加科學(xué)合理的聚類分級結(jié)果。
K-means聚類算法是一種將距離相近的樣本組成一個簇的傳統(tǒng)統(tǒng)計聚類算法。首先確定聚類個數(shù)k,再在樣本集合中找到k個初始聚類中心,計算聚類目標(biāo)函數(shù)或聚類效果判別準(zhǔn)則,采用迭代更新聚類中心的方法,使得聚類結(jié)果向目標(biāo)函數(shù)值或判別值逐漸減小的方向進(jìn)行,目標(biāo)函數(shù)值或判別值出現(xiàn)最小時便達(dá)到最佳聚類結(jié)果[9]。引入了數(shù)據(jù)場思想后,無需事先確定聚類數(shù),而是從數(shù)據(jù)樣本間相互作用出發(fā),根據(jù)式(2)計算每個樣本數(shù)據(jù)xi的勢值?(xi),勢值越大的數(shù)據(jù)對象,說明其受其他數(shù)據(jù)點(diǎn)共同作用越大,另一個側(cè)面反映該點(diǎn)周圍的數(shù)據(jù)點(diǎn)越多,該點(diǎn)極可能是簇類集合的中心。勢值越小的對象,說明受其他數(shù)據(jù)點(diǎn)共同作用越小,反映該點(diǎn)周圍的數(shù)據(jù)點(diǎn)較少,該點(diǎn)極大可能是異常值點(diǎn)。以勢值極大點(diǎn)作為聚類中心,提供K-means聚類算法所需的先驗(yàn)知識,迭代時間更短,聚類效果更好。洪澇災(zāi)害突發(fā)事件分級具體算法步驟如下:
步驟1:根據(jù)災(zāi)情事件類型,建立災(zāi)情分級指標(biāo)體系,輸入數(shù)據(jù)集D={x1,x2,…,xn} 和影響因子σ的值;
步驟2:根據(jù)公式(2)計算每個災(zāi)情數(shù)據(jù)對象xi的勢值;
步驟3:根據(jù)每個災(zāi)情數(shù)據(jù)對象的勢值?(xi),分析勢值極大值點(diǎn),確定洪澇災(zāi)害分級的聚類中心和聚類個數(shù)k;
步驟4:利用K-means聚類算法進(jìn)行洪澇災(zāi)害分級聚類,得到最終聚類結(jié)果。
根據(jù)民政部災(zāi)情評估統(tǒng)計指標(biāo),洪澇災(zāi)害災(zāi)情評估主要是統(tǒng)計人口受災(zāi)情況、房屋損壞情況、農(nóng)作物受災(zāi)情況以及經(jīng)濟(jì)損失情況四個方面[10]。本文依據(jù)民政部提供的洪澇災(zāi)害相關(guān)數(shù)據(jù),依據(jù)四個指標(biāo)選取我國2012—2016年洪澇災(zāi)害樣本數(shù)據(jù)112個。在實(shí)際操作中,房屋損壞情況實(shí)際屬于經(jīng)濟(jì)損失情況一類。因此,最終選取三個指標(biāo)建立如表1所示的洪澇災(zāi)害突發(fā)事件分級指標(biāo)體系。
表1 洪澇災(zāi)害突發(fā)事件分級指標(biāo)體系
為消除原始數(shù)據(jù)各維度量綱不一致對分級結(jié)果的影響,本文采用min-max標(biāo)準(zhǔn)化方法將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。112個樣本數(shù)據(jù)的三維分布圖如圖1所示(每一個*代表一次洪澇災(zāi)害)。
圖1 洪澇災(zāi)害數(shù)據(jù)三維屬性分布圖
依據(jù)數(shù)據(jù)場勢值計算公式(2),可得112個樣本數(shù)據(jù)的勢值分布如下頁圖2所示,這里計算勢值時,假定σ=1。將每次洪澇災(zāi)害看成一數(shù)據(jù)點(diǎn),勢值的大小表示其他數(shù)據(jù)點(diǎn)對該點(diǎn)的綜合影響。勢值越大,說明該數(shù)據(jù)點(diǎn)的影響力越大,可選取該點(diǎn)作為聚類中心。
從圖2中可以看出,數(shù)據(jù)場勢值存在三個極大值點(diǎn),根據(jù)前述理論,認(rèn)為該極大值點(diǎn)就是分級結(jié)果的三個簇中心,因此,可將112個樣本數(shù)據(jù)分成三類,分別對應(yīng)等級Ⅰ級(重大),Ⅱ級(較大),Ⅲ級(一般)。
圖2 樣本數(shù)據(jù)場勢值分布圖
根據(jù)K-means聚類分級結(jié)果如圖3所示。由圖3分析可以發(fā)現(xiàn),本文提出的數(shù)據(jù)場K-means聚類算法將112個樣本數(shù)據(jù)分成三類。第一類中含有64個樣本,這些樣本三個屬性值偏小,所以可以定義它們?yōu)楹闈碁?zāi)害突發(fā)事件的Ⅲ級(一般),此級事件的嚴(yán)重程度和影響范圍都較小。政府可以合理分配人力物力,將災(zāi)害的損失程度加以控制。第二類中有36個樣本,為洪澇災(zāi)害突發(fā)事件的Ⅱ級(較大),此級事件不論受災(zāi)情況還是經(jīng)濟(jì)損失都較第Ⅲ級嚴(yán)重。政府部門需加大投入,控制災(zāi)情的進(jìn)一步擴(kuò)散,將社會損失降到最低。最后一級有12個樣本,為Ⅰ級(重大)。政府需要高度重視Ⅰ級,調(diào)用一切資源控制災(zāi)情。Ⅰ級事件從受災(zāi)人口、經(jīng)濟(jì)損失、農(nóng)作物受災(zāi)面積看均屬于重大災(zāi)害事件,處理稍有耽誤,容易造成嚴(yán)重的社會危害,準(zhǔn)確及時科學(xué)的應(yīng)急管理刻不容緩。
圖3 洪澇災(zāi)害數(shù)據(jù)分級效果圖
同時,為了比較本文算法和傳統(tǒng)K-means算法的分級效果,將傳統(tǒng)K-means聚類算法與本文改進(jìn)算法進(jìn)行對比??紤]到K-means聚類算法隨機(jī)選取聚類中心和聚類數(shù)目,會得到不同的結(jié)果,這里選擇20次聚類結(jié)果的平均值。所得分級結(jié)果和本文算法分級結(jié)果比較如表2所示。由表2可以看出,K-means聚類算法雖然用時短,但是聚類準(zhǔn)確率低,而本文算法克服單一算法的不足,具有較高準(zhǔn)確率,給洪澇災(zāi)害提供更加科學(xué)的分級方式,使應(yīng)急決策更加具有針對性。
表2 分級算法對比結(jié)果
洪澇災(zāi)害突發(fā)事件分級受諸多不確定因素的影響,是一個動態(tài)復(fù)雜的問題。考慮突發(fā)事件的多樣性和難確定性,本文提出將數(shù)據(jù)場和K-means聚類算法融合起來應(yīng)用于洪澇災(zāi)害突發(fā)事件的分級問題,具體描述了算法的實(shí)現(xiàn)原理和分級過程,并給出了驗(yàn)證該方法可行性的洪澇災(zāi)害分級評估實(shí)例。針對災(zāi)害分類中存在的聚類個數(shù)與聚類中心不確定問題,構(gòu)建數(shù)據(jù)場改進(jìn)的K-means聚類算法,采用數(shù)據(jù)場方法確定聚類個數(shù)和聚類中心,通過對實(shí)際樣本數(shù)據(jù)的檢驗(yàn),基于數(shù)據(jù)場K-means聚類算法的洪澇災(zāi)害事件分級方法是可行且有效的,相比傳統(tǒng)的K-means聚類算法,本文方法極大的提高了災(zāi)害分級正確率,且計算簡單,有利于決策者據(jù)此采取科學(xué)有效的應(yīng)急管理措施,保障人民生命安全,維護(hù)社會安定。當(dāng)然,由于本文算法中需要預(yù)先假定輸入σ的取值,而σ的值在計算數(shù)據(jù)場勢函數(shù)中是關(guān)鍵。因此,如何確定σ的值,使算法更加客觀,這將是下一步應(yīng)該討論的問題。