盧耀健,劉合香,2,王 萌
(1.南寧師范大學 數(shù)學與統(tǒng)計科學學院,廣西 南寧 530001;2.廣西北部灣海洋災(zāi)害研究重點實驗室,廣西 欽州 535000)
華南地區(qū)(廣東、廣西和海南)位于我國南部沿海地帶,靠近西北太平洋臺風生源地,常年遭受臺風災(zāi)害的侵襲[1]。張俊香[2]等學者通過研究發(fā)現(xiàn),隨著我國經(jīng)濟的發(fā)展,臺風造成的直接經(jīng)濟損失呈上升的趨勢。因此,為了有效減少臺風災(zāi)害帶來的損失,學者們開始嘗試利用不同的方法研究臺風災(zāi)情、強度及路徑[3-6]。
熵是人們對于某種事物了解程度的度量,通常信息熵值越大,其外延越廣,不確定性就會越大[7]。目前,一些學者已經(jīng)引用熵理論來對自然災(zāi)害進行研究。例如,金菊良[8]等結(jié)合了廣義分布函數(shù)和廣義熵理論對洪水災(zāi)害系統(tǒng)中的不確定性進行描述,初步形成了洪水災(zāi)害風險管理廣義熵智能分析理論框架。魏章進[9]等利用改進的熵值法對東南沿海省份的臺風災(zāi)害進行風險評估,得到各災(zāi)情指標權(quán)重,以此來表示各災(zāi)情指標對災(zāi)情系統(tǒng)的影響程度。寧巖[10]等人利用信息熵原理,計算了深溪溝流域的41個子流域的8個評價指標的信息熵值,以此來表示每個指標對泥石流系統(tǒng)的影響程度。譚金凱[11]等建立了廣西洪澇災(zāi)害風險熵模型,探討了洪水災(zāi)害風險熵與災(zāi)情因子和致災(zāi)源因子的關(guān)系,并利用支持向量機構(gòu)建災(zāi)害風險熵的非線性回歸模型。以上研究成果表明熵理論可以有效地應(yīng)用在自然災(zāi)害研究中。同時發(fā)現(xiàn),熵理論應(yīng)用在華南臺風方面的相關(guān)研究較少,關(guān)于華南臺風的災(zāi)害風險程度、致災(zāi)因子和災(zāi)情因子分別與災(zāi)害風險熵的關(guān)系以及不確定性等方面的研究尚未出現(xiàn)報道,因此本文將建立華南臺風災(zāi)害風險熵模型,分析其與災(zāi)情因子和致災(zāi)源因子的關(guān)系,并對災(zāi)害風險熵與災(zāi)情因子和致災(zāi)源因子進行非線性回歸擬合。
根據(jù)影響因素的比重,從災(zāi)情因子中選取受災(zāi)人口X1(人)、死亡人口X2(人)、倒塌房屋數(shù)X3(間)、農(nóng)作物受災(zāi)面積X4(hm2)、直接經(jīng)濟損失X5(億元)作為災(zāi)情系統(tǒng)中的指標;從致災(zāi)因子中選取最大風速極值Y1(m/s)、降雨天數(shù)Y2(d)、降雨極值Y3(mm)作為致災(zāi)源系統(tǒng)的三項指標。由于各項指標單位不同,數(shù)據(jù)離差程度較大,因此為了達到去除量綱,縮減數(shù)據(jù)間的離差程度的目的,需要對原始數(shù)據(jù)進行預(yù)處理[11]:
(1)
(2)
式中:Xij表示災(zāi)情系統(tǒng)中第i個樣本的第j項指標的處理結(jié)果,Yij表示致災(zāi)源系統(tǒng)中的第i個樣本的第j項指標的處理結(jié)果,每個臺風樣本的災(zāi)情指數(shù)和致災(zāi)源指數(shù)計算如下:
(3)
式中:Xi表示第i個臺風災(zāi)害的災(zāi)情指數(shù),Yi表示第i個臺風災(zāi)害的致災(zāi)源指數(shù)。
熵值作為一種能夠度量事物不確定性的工具,其公式如下。
離散型:
(4)
連續(xù)型:
(5)
文獻[11]指出,在實際應(yīng)用中,隨機變量的概率分布p=(p1,…,pn)與概率密度函數(shù)f(x)在大多數(shù)情況下并不知道,而且以頻率代替概率的方法需要在大樣本的前提下才得以實現(xiàn),不適用臺風災(zāi)害過程的小樣本。所以,基于模糊聚類隸屬度思想[12],可以轉(zhuǎn)變?yōu)檠芯恳韵聫V義熵:
(6)
式中:H(x)為樣本x的廣義熵值,N表示樣本個數(shù),假設(shè)在模糊c均值聚類下的將N個樣本共分為m類,則nk表示第k類的樣本數(shù),uk表示在第k類下的隸屬度,uk也是nk/N的修正系數(shù)。通過比較式(4),實際上就是nk/N替代了pi。因此,可以轉(zhuǎn)化為以下災(zāi)害風險熵公式:
(7)
灰色關(guān)聯(lián)度[14](GreyRelationAnalysis,GRA)是一種多因素統(tǒng)計模型,由鄧聚龍教授首先提出。灰色系統(tǒng)是介于白箱系統(tǒng)和黑箱系統(tǒng)之間的系統(tǒng),即只知道部分信息,其余信息未知。在灰色系統(tǒng)中,灰色關(guān)聯(lián)度是度量某項指標受其它因素影響的強弱程度,關(guān)聯(lián)度會隨著時間的變化或者對象的不同而變化,而相對灰色關(guān)聯(lián)度是通過反映參考序列曲線與比較序列曲線相對于起始點的變化速率的接近程度來反映其關(guān)聯(lián)程度的,其計算公式如下:
(8)
(9)
(10)
式中:參考序列為X0={X0(k),k=1,2,…n},被比較序列為Xi={Xi(k),k=1,2,…n},r(X0,Xi)即為X0與Xi的灰色關(guān)聯(lián)度,通過下列公式得出:
(11)
一般認為參考序列與被比較序列的灰色關(guān)聯(lián)度大于0.5且越接近1,關(guān)聯(lián)程度就越高;小于0.5越接近0,關(guān)聯(lián)程度就越低。ρ是分辨系數(shù),取值大小在(0,1]范圍內(nèi),若ρ越小,關(guān)聯(lián)系數(shù)間差異越大。根據(jù)文獻[14]的分析結(jié)果表明,ρ值在選定為0.5時關(guān)聯(lián)度能更好的反映序列間的影響程度,因此本文選取ρ值為0.5。
極限學習機[15](Extreme Learning Machine,ELM)是一種根據(jù)BP神經(jīng)網(wǎng)絡(luò)(BP Neural Network,BPNN)改進的,基于前饋神經(jīng)網(wǎng)絡(luò)的機器學習算法,克服了傳統(tǒng)BPNN的一些缺陷,例如它能夠進行快速的訓(xùn)練和學習,在其學習過程中易于在全局極小值收斂,最大創(chuàng)新點在于輸入層和隱含層的連接權(quán)值、隱含層的閾值可以任意設(shè)置,無需再做調(diào)整;隱含層與輸出層之間的連接權(quán)值也不需要迭代調(diào)整,能夠通過解方程組的方式一次性解決,是一種單隱含層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型。具體的算法描述如下。
輸入訓(xùn)練集:A={xi,ti|xi∈Rd,ti∈Rm,i=1,…,N}。
(12)
隱含層節(jié)點輸出函數(shù)G(ai,bi,x)和隱含層節(jié)點個數(shù)L。
步驟:
Step1:隨機產(chǎn)生隱含層的節(jié)點參數(shù)(ai,bi),i=1,…L。
Step2:計算出隱含層輸出矩陣H(滿秩):
(13)
Step3:計算最優(yōu)輸出權(quán)值:
(14)
若HTH是非奇異矩陣,則H+=(HTH)-1HT;若HHT是非奇異矩陣,則H+=HT(HTH)-1。其中1/λ是正則化系數(shù),T=[t1,…,tN]M×N,一般在HTH或者HHT對角線上增加一個正則化系數(shù)1/λ來獲得更好的泛化能力。
(15)
表1 1981-2016年登陸華南的54個臺風災(zāi)害災(zāi)情指數(shù)、致災(zāi)源指數(shù)和風險熵值
選取1981-2016年華南地區(qū)54個臺風及其以上災(zāi)害樣本,其中致災(zāi)源數(shù)據(jù)來源于中國熱帶氣旋年鑒[16]和中國臺風網(wǎng)(http://typhoon.weather.com.cn/index.shtml/2017/07/14.),災(zāi)情數(shù)據(jù)來源于中國氣象災(zāi)害大典[17-19]以及廣東省、海南省和廣西壯族自治區(qū)氣候中心。
通過式(1)、式(2)、式(3)和式(7),并結(jié)合模糊c均值聚類得到54個臺風災(zāi)害的災(zāi)情指數(shù)序列X、致災(zāi)源指數(shù)序列Y和災(zāi)害風險熵序列H(x),具體結(jié)果如表1所示。
從表1中我們可以發(fā)現(xiàn),9615號臺風災(zāi)害風險熵值為0.540 5,是所有臺風樣本中最低,并且該臺風災(zāi)害過程影響較大,其致災(zāi)源系統(tǒng)中最大風速極值為50 m/s,降雨天數(shù)為3 d,降雨極值為155 mm,災(zāi)情系統(tǒng)中受災(zāi)人口為1 530萬人,死亡人口為284人,倒塌房屋數(shù)達到2 491 200間,農(nóng)作物受災(zāi)面積達到7 397 hm2,造成直接經(jīng)濟損失218.63億元,是一次極強的臺風災(zāi)害過程;而0915號臺風風險熵值為1.753 8,是所有臺風樣本中最高的。對比實況,可以發(fā)現(xiàn)0915號臺風登陸時最大風速為35 m/s,造成24.2億元直接經(jīng)濟損失,是一次強度不大的臺風災(zāi)害。另外還有編號8616、9318、0518和1409的臺風風險熵值小于1,它們的災(zāi)情指數(shù)與致災(zāi)源指數(shù)都相應(yīng)的偏高。
為了進一步探討災(zāi)害風險熵的分布情況,我們給出54個臺風災(zāi)害過程的災(zāi)害風險熵值的條形分布圖和核密度估計曲線圖(圖1)。在圖1中,縱坐標密度=頻率/組距,從圖1我們可以發(fā)現(xiàn),密度曲線圖最低點的風險熵值約為0.540 5,對應(yīng)的臺風災(zāi)害過程為9615號臺風,正是在上述提到的極強臺風,屬于發(fā)生概率極低的事件;最高點的風險熵值為1.197 8,對應(yīng)0906號臺風,是一次強度不大的臺風,造成的直接經(jīng)濟損失為5.54億元,屬于所有臺風中發(fā)生概率最高的。隨著風險熵值的增大,臺風發(fā)生概率逐漸增大,對應(yīng)的臺風強度會相應(yīng)降低,在過了最高點后,隨著風險熵值增大,臺風發(fā)生概率逐漸減小,其中低風險熵值對應(yīng)的多為破壞性強的臺風。例如,風險熵值約為0.960 5的1409號臺風,造成的直接經(jīng)濟損失高達417.6億元;風險熵值約為0.935的0518號臺風,降雨極值為613 mm,受災(zāi)人口高達802.92萬人。對風險熵進行Shapiro-wilk正態(tài)性檢驗,其顯著性概率值為0.535 8,接受原假設(shè),即說明風險熵服從正態(tài)分布。
圖1 1981-2016年登陸華南的54個臺風災(zāi)害風險熵值分布圖
在這里,我們把災(zāi)害風險熵H(x)作為參考序列,把災(zāi)情指數(shù)序列X與致災(zāi)源指數(shù)序列Y作為被比較序列。首先計算出災(zāi)害風險熵分別和致災(zāi)源指數(shù)與災(zāi)情指數(shù)的皮爾遜相關(guān)系數(shù),得到三者的皮爾遜相關(guān)系數(shù)矩陣(表2)。從表2可以看出災(zāi)情指數(shù)與致災(zāi)源指數(shù)相關(guān)系數(shù)為0.394,存在正的線性相關(guān)性,可認為在臺風災(zāi)害過程中致災(zāi)因子的影響程度越大,造成的災(zāi)情影響就越嚴重;災(zāi)害風險熵與災(zāi)情指數(shù)和致災(zāi)源指數(shù)的相關(guān)系數(shù)分別為-0.34和-0.28,存在負的線性相關(guān)性,說明當災(zāi)害風險熵值越大,對應(yīng)的臺風災(zāi)害過程災(zāi)情指數(shù)和致災(zāi)源指數(shù)就會相應(yīng)的越小。但是此相關(guān)系數(shù)較低,原因在于皮爾遜相關(guān)系數(shù)只能表示兩個指標間的線性關(guān)系,無法描述它們的非線性關(guān)系,且容易受到樣本數(shù)量的影響。
表2 災(zāi)情指數(shù)、致災(zāi)源指數(shù)和風險熵相關(guān)陣
相關(guān)研究表明,臺風災(zāi)害過程是一個灰色系統(tǒng),受單個因子影響較弱,與眾多影響因子存在復(fù)雜的非線性關(guān)系[9],而灰色關(guān)聯(lián)度能夠有效的描述每項指標與參考指標間的非線性關(guān)系,刻畫它們對參考序列的影響程度。因此我們將利用灰色關(guān)聯(lián)分析法探討災(zāi)情指數(shù)和致災(zāi)源指數(shù)分別與災(zāi)害風險熵的關(guān)聯(lián)程度。將數(shù)據(jù)代入式(8)-式(10),得到每個臺風災(zāi)害樣本的風險熵值與災(zāi)情指數(shù)和致災(zāi)源指數(shù)的相對灰色關(guān)聯(lián)度,探討災(zāi)情因子和致災(zāi)源因子分別對災(zāi)害風險熵的影響程度,得到的結(jié)果見圖2和圖3。
圖2 1981-2016年登陸華南的54個臺風災(zāi)情指數(shù)與風險熵灰色關(guān)聯(lián)度散點圖
圖3 1981-2016年登陸華南的54個臺風致災(zāi)源指數(shù)與風險熵灰色關(guān)聯(lián)度散點圖
從圖2和圖3可以發(fā)現(xiàn),大部分登陸華南的臺風災(zāi)情指數(shù)、致災(zāi)源指數(shù)與災(zāi)害風險熵的灰色關(guān)聯(lián)度大于0.5,只存在少部分臺風災(zāi)害灰色關(guān)聯(lián)度低于0.5。在圖2中,第9615號、0518號、1311號、1409號和1415號臺風樣本灰色關(guān)聯(lián)度都低于0.5,分別為0.350 6、0.478 9、0.498 5、0.461 6和0.448 2,表明這些臺風災(zāi)害風險熵值受災(zāi)情因子影響較弱;由圖3可知,第8616號、9318號、0518號、1311號和1409號臺風樣本的灰色關(guān)聯(lián)度分別為0.437 6、0.455 3、0.468 7、0.440 7和0.449 2,表明這些臺風樣本風險熵值受致災(zāi)源因子影響較弱;另外,比較圖2和圖3,存在一些臺風樣本災(zāi)情指數(shù)與災(zāi)害風險熵灰色關(guān)聯(lián)度較低,致災(zāi)源指數(shù)與災(zāi)害風險熵灰色關(guān)聯(lián)度較高,說明在該臺風災(zāi)害過程中,致災(zāi)因子對災(zāi)害風險熵的影響大于災(zāi)情因子,例如第0814號臺風樣本災(zāi)情指數(shù)與風險熵灰色關(guān)聯(lián)度為0.603 2,致災(zāi)源指數(shù)與風險熵灰色關(guān)聯(lián)度為0.933,致災(zāi)因子對風險熵的影響程度比災(zāi)情因子對風險熵的影響程度更大。接著利用公式(11)計算出災(zāi)情指數(shù)序列和致災(zāi)源指數(shù)序列分別與災(zāi)害風險熵的灰色關(guān)聯(lián)度,其值分別為0.716 2和0.794 9。
最終可以得出,在1981-2016年登陸華南的54個臺風災(zāi)害中,風險熵值受災(zāi)情指數(shù)序列和致災(zāi)源指數(shù)序列的影響較大,災(zāi)情指數(shù)與致災(zāi)源指數(shù)分別和災(zāi)害風險熵值存在負的線性相關(guān)性,當風險熵值降低時會導(dǎo)致災(zāi)情指數(shù)與致災(zāi)源指數(shù)偏高。在表1中可以發(fā)現(xiàn)風險熵值小于1的臺風樣本致災(zāi)能力較強,所造成的災(zāi)情損失更為嚴重。從熵的理論來解釋,熵值減小則可認為“負熵”增加,從而導(dǎo)致整個臺風系統(tǒng)所攜帶的信息量增多,不確定性加大,破壞性也就增強。
構(gòu)建基于極限學習機的華南臺風災(zāi)害風險熵回歸模型,以多元線性回歸(Multiple Linear Regression,MLR)模型和BP神經(jīng)網(wǎng)絡(luò)回歸模型作為對照組,探討三種不同回歸模型的回歸與預(yù)測效果。在1981-2016年登陸華南的54個臺風災(zāi)害中選取前48個臺風災(zāi)害作為訓(xùn)練樣本構(gòu)建回歸模型,第49~54個臺風災(zāi)害作為測試集。在對后6個臺風樣本進行預(yù)測前,對48個臺風災(zāi)害樣本進行回歸擬合,初步探討三種不同模型對風險熵值的回歸效果(圖4)。
圖4 MLR、BPNN和ELM對48個臺風災(zāi)害風險熵回歸效果對比
在圖4中,為了方便比較三種方法的回歸效果,將風險熵值從小到大進行排列,從中可以看出MLR與BPNN模型回歸值與真實值差距比較大,而ELM回歸結(jié)果與大多數(shù)真實值接近,存在少部分奇異點,其中MLR和BPNN模型的平均絕對誤差分別為0.176 1和0.152 5,而ELM的平均絕對誤差為0.078 7,是三者中最低;MLR和BPNN的擬合優(yōu)度分別為82.3%和83.57%,而ELM的擬合優(yōu)度為88.7%,是三者中最高。因此,從對48個臺風樣本風險熵值回歸效果來看,極限學習機模型要優(yōu)于多元線性回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型。接下來利用這三種不同的回歸模型對后6個臺風災(zāi)害做風險熵值預(yù)測,在測試過程中,首先用48個訓(xùn)練樣本構(gòu)建的回歸模型來預(yù)測第49個測試樣本的災(zāi)害風險熵值,將預(yù)測結(jié)果加入訓(xùn)練樣本中,用49個訓(xùn)練樣本構(gòu)建的回歸模型來預(yù)測第50個測試樣本的災(zāi)害風險熵值,如此反復(fù)下去,直到預(yù)測完第54個樣本。三種不同方法得到的預(yù)測結(jié)果及擬合優(yōu)度如表3所示。表3是分別用MLR、BPNN和ELM三種不同方法對后6個臺風樣本災(zāi)害風險熵進行預(yù)測的結(jié)果,從中可以發(fā)現(xiàn)MLR預(yù)測效果最不理想,擬合優(yōu)度最低,回歸方程也沒能通過顯著性檢驗;BPNN在于它本身具有非線性映射能力,對非線性預(yù)測的效果會比MLR效果要稍好;ELM與另外兩種方法相比預(yù)測效果有著顯著的提升,其中擬合優(yōu)度達到92.82%,平均絕對誤差只有0.059。ELM算法關(guān)鍵點在于隱含層神經(jīng)元個數(shù)的調(diào)整,也僅需要調(diào)整隱含層神經(jīng)元個數(shù),輸入層和隱含層的連接權(quán)值和隱含層神經(jīng)元的閥值將由該算法隨機產(chǎn)生,訓(xùn)練過程中也無需調(diào)整。隱含層神經(jīng)元個數(shù)選取將影響預(yù)測的效果,經(jīng)過多次的實驗以及效果對照,最終選取隱含層神經(jīng)元個數(shù)為29。為了比較三種方法對風險熵值預(yù)測的適用性,我們同樣給出了6個臺風災(zāi)害樣本的預(yù)測效果圖(圖5)。
表3 MLR、BPNN和ELM對后6個臺風災(zāi)害的風險熵值預(yù)測結(jié)果
圖5 MLR、BPNN和ELM對后6個臺風風險熵預(yù)測效果對照圖
從表3和圖5可以看出,ELM對后6個臺風災(zāi)害風險熵的預(yù)測值與計算結(jié)果最為接近,在對1510號、1604號和1622號臺風風險熵值的預(yù)測上,這三個臺風風險熵值分別為1.568 7、1.319 3和1.203 5,ELM對它們的預(yù)測值分別為1.583 5、1.319 1和1.202 1,與計算結(jié)果非常接近;在對1415號、1522號和1621號臺風風險熵值的預(yù)測上,這三個臺風風險熵值分別為1.622 2、1.037 8和1.176 9,ELM對它們的預(yù)測值分別為1.402 7、1.097 7和1.235 1,比MLR和BPNN的預(yù)測值更接近計算結(jié)果。由此說明,極限學習機模型在對臺風災(zāi)害風險熵值的預(yù)測上比多元線性回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型擁有更好的性能。
(1)構(gòu)建華南臺風災(zāi)害風險熵模型。選取主要的災(zāi)情因子和致災(zāi)源因子計算災(zāi)情指數(shù)序列和致災(zāi)源指數(shù)序列,并結(jié)合模糊c均值聚類和廣義模糊熵原理計算出1981-2016年54個臺風災(zāi)害風險熵值,結(jié)果發(fā)現(xiàn)風險熵值呈正態(tài)分布,低風險熵值對應(yīng)強度較大的臺風。
(2)探討災(zāi)害風險熵與災(zāi)情因子和致災(zāi)源因子關(guān)系。首先計算出風險熵值分別與災(zāi)情指數(shù)和致災(zāi)源指數(shù)的皮爾遜相關(guān)系數(shù),分別為-0.34和-0.28,呈負相關(guān),但是此相關(guān)系數(shù)較低,原因在于皮爾遜相關(guān)系數(shù)只能表示它們之間的線性關(guān)系,無法描述它們之間的非線性關(guān)系。因此利用式(8)和式(9)分別計算出災(zāi)情指數(shù)與風險熵、致災(zāi)源指數(shù)與風險熵的灰色關(guān)聯(lián)度,其結(jié)果分別為0.7162和0.794 9。表明災(zāi)情指數(shù)與致災(zāi)源指數(shù)對風險熵的影響程度較大,且與風險熵值呈負相關(guān)。
(3)進一步探討風險熵與災(zāi)情因子和致災(zāi)源因子的非線性關(guān)系。利用MLR、BPNN和ELM三種不同的回歸方法,以災(zāi)情指數(shù)和致災(zāi)源指數(shù)作為輸入變量,災(zāi)害風險熵值作為輸出變量構(gòu)建回歸模型。通過對后6個臺風測試樣本風險熵的真實值與預(yù)測值比較,ELM方法的平均絕對誤差為0.059,擬合優(yōu)度為92.82%,其結(jié)果要優(yōu)于MLR和BPNN。表明極限學習機在風險熵值的預(yù)測上具有更好的適用性。
然而在臺風災(zāi)害過程中各個災(zāi)情因子和致災(zāi)因子有著不同的影響權(quán)重,本文在構(gòu)造災(zāi)情指數(shù)序列和致災(zāi)源指數(shù)序列時沒能考慮到這一點;ELM回歸方法對風險熵的回歸效果具有普遍一般性,但是對于某些奇異點的預(yù)測偏差依然較大,極限學習機模型需要進一步優(yōu)化以解決問題。同時,本文所研究的臺風災(zāi)害風險熵-極限學習機預(yù)測模型為其它自然災(zāi)害的風險分析提供一條新的途徑。