高天宇,王慶榮,楊 妍,馬辰坤
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
應(yīng)急信息化響應(yīng)是國家應(yīng)急管理體制的發(fā)展趨勢,數(shù)據(jù)處理與分析方法作為應(yīng)急信息化響應(yīng)的基礎(chǔ),被應(yīng)用于應(yīng)急工作的各個階段。分析應(yīng)急數(shù)據(jù)的特點(diǎn)是應(yīng)急數(shù)據(jù)處理與分析的合理性保障,連續(xù)數(shù)據(jù)的離散化是數(shù)據(jù)分析與挖掘的關(guān)鍵預(yù)處理方法,其決定最終數(shù)據(jù)處理與挖掘結(jié)果的質(zhì)量。
連續(xù)數(shù)據(jù)的離散化方法包括有監(jiān)督離散化方法和無監(jiān)督離散化方法。常用的有監(jiān)督離散化方法包括信息熵[1]、粗糙集[2]以及類-屬性關(guān)聯(lián)性[3-5]等離散化方法。信息熵離散化方法是一種基于數(shù)據(jù)混亂程度的不確定性計(jì)算方法;粗糙集離散化方法能較好地處理數(shù)據(jù)邊界的不確定性;類-屬性關(guān)聯(lián)離散化方法可應(yīng)用于數(shù)據(jù)的自動離散和混合過程[6-7]。無監(jiān)督離散化方法主要包括等寬離散化、等頻離散化、近似等頻離散化[8-10]以及聚類離散化[11]等方法。等寬離散化方法能在不同區(qū)間保持原數(shù)據(jù)分布進(jìn)行離散,操作靈活簡單;等頻離散化方法是基于數(shù)據(jù)頻率分布進(jìn)行離散;聚類離散化方法是根據(jù)數(shù)據(jù)分布采用層次聚類方式進(jìn)行離散。
目前關(guān)于有監(jiān)督離散化方法的研究重點(diǎn)針對離散化方法特點(diǎn)進(jìn)行[12],對無監(jiān)督離散化方法的研究主要圍繞數(shù)據(jù)特點(diǎn)展開[13]。然而現(xiàn)有無監(jiān)督離散化方法對應(yīng)急數(shù)據(jù)特點(diǎn)考慮不足,其采用的時間序列離散化[14]方式不適用于多量級應(yīng)急數(shù)據(jù)離散。此外,在無監(jiān)督離散化方法中,當(dāng)應(yīng)急數(shù)據(jù)量小且數(shù)據(jù)間差異較大時,如果僅以離散系數(shù)為指標(biāo)進(jìn)行離散,則會出現(xiàn)大量的離散類數(shù)據(jù),導(dǎo)致離散結(jié)果失去指導(dǎo)意義。當(dāng)集中分布的數(shù)據(jù)存在多個量級差異時,現(xiàn)有無監(jiān)督離散化方法難以找到全部有效的量級變化點(diǎn)。
針對應(yīng)急數(shù)據(jù)多量級差異的特點(diǎn),本文提出一種無監(jiān)督的多量級應(yīng)急數(shù)據(jù)離散化方法。在難以獲得應(yīng)急數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)時,不考慮應(yīng)急數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)之間的關(guān)聯(lián)性,采用擬合函數(shù)結(jié)合二階導(dǎo)數(shù)計(jì)算得到數(shù)據(jù)截?cái)帱c(diǎn),移出較大數(shù)據(jù)更新待離散數(shù)據(jù)集,并重復(fù)此操作直到完成全部數(shù)據(jù)的離散。
應(yīng)急數(shù)據(jù)處理較困難的主要原因在于未針對數(shù)據(jù)特點(diǎn)分別對其進(jìn)行處理,缺少對隱藏?cái)?shù)據(jù)特點(diǎn)的深度剖析。將連續(xù)數(shù)據(jù)轉(zhuǎn)換為非連續(xù)數(shù)據(jù)是一種從數(shù)據(jù)中獲取信息的方法,稱為數(shù)據(jù)離散化。連續(xù)數(shù)據(jù)可通過離散化被處理為多個離散類數(shù)據(jù),離散后集中數(shù)據(jù)類型的個數(shù)即為數(shù)據(jù)離散類個數(shù)。離散化作為一種有效的數(shù)據(jù)預(yù)處理方法,其結(jié)果對數(shù)據(jù)分析結(jié)果有本質(zhì)影響[15],在數(shù)據(jù)處理中需根據(jù)數(shù)據(jù)特征進(jìn)行離散化[16]。在離散化時可采用靜態(tài)、分類或者動態(tài)組合等不同策略,合理的策略有助于有效挖掘數(shù)據(jù)特點(diǎn)[17]。
應(yīng)急數(shù)據(jù)是一種特點(diǎn)明顯的數(shù)據(jù),其噪聲多且在相同數(shù)據(jù)集內(nèi)數(shù)據(jù)之間差異大,對聚類邊界與離散點(diǎn)的分析較困難[18-19]。
在應(yīng)急數(shù)據(jù)離散化過程中,具有多量級差異的數(shù)據(jù)最難離散。將數(shù)據(jù)由大到小排序后,可看到數(shù)據(jù)之間差異變化存在多個數(shù)據(jù)量級跳躍,多量級數(shù)據(jù)離散化即找到這些量級跳躍的點(diǎn)。數(shù)據(jù)集中數(shù)據(jù)之間存在多個量級,其中較小數(shù)據(jù)的量級差異被隱藏,如圖1 所示(虛線框?yàn)榇x散的應(yīng)急數(shù)據(jù)集)。當(dāng)數(shù)據(jù)1 存在時,數(shù)據(jù)2 易被歸為其他離散類,若去掉數(shù)據(jù)1 后再離散,則會發(fā)現(xiàn)數(shù)據(jù)2 與其他數(shù)據(jù)并非同一個離散類。
圖1 較小隱藏?cái)?shù)據(jù)的量級差異顯現(xiàn)過程Fig.1 Process of showing the magnitude difference of hidden smaller data
量級差異在傳統(tǒng)數(shù)學(xué)中主要指以“10”為冪的數(shù)據(jù)之間的差異,然而在實(shí)際研究中量級差異并不局限于此,為更好地還原事件特征,需根據(jù)實(shí)際情況重新定義量級來保留更多數(shù)據(jù)特性[20]。應(yīng)急事件中各因素的細(xì)微變化均會造成應(yīng)急數(shù)據(jù)之間的巨大差異,其中存在多個量級變化點(diǎn),利用傳統(tǒng)方法難以找出這些變化點(diǎn)。為此,本文提出一種找出隱藏變化點(diǎn)的數(shù)據(jù)離散化方法,下文先對離散化數(shù)據(jù)截?cái)帱c(diǎn)的確定進(jìn)行介紹。
為找出數(shù)據(jù)集中各個量級的變化點(diǎn),先對數(shù)據(jù)按照大小進(jìn)行排序,再判斷數(shù)據(jù)開始突增的位置,并將該位置作為截?cái)帱c(diǎn)的截?cái)鄶?shù)據(jù)集,使截?cái)鄶?shù)據(jù)歸為一個離散類,并將剩余數(shù)據(jù)作為新數(shù)據(jù)集,然后重復(fù)上述操作直到達(dá)到所需離散量或者數(shù)據(jù)每個離散類的離散系數(shù)符合要求為止,如圖2 所示。
圖2 多量級數(shù)據(jù)的離散化過程Fig.2 Discretization process of multi-magnitudes data
在多量級數(shù)據(jù)離散化過程中,每找出一個截?cái)帱c(diǎn)就確定并去除一個離散類,然后在剩余數(shù)據(jù)中繼續(xù)尋找截?cái)帱c(diǎn),如此反復(fù)最終完成動態(tài)的離散,同時根據(jù)需要對離散系數(shù)大于閾值要求的離散類數(shù)據(jù)重新計(jì)算截?cái)帱c(diǎn)并再次進(jìn)行截?cái)唷?/p>
1)確定擬合函數(shù)的多項(xiàng)式
使用多項(xiàng)式對數(shù)據(jù)進(jìn)行擬合,計(jì)算公式如下:
其中,x、y分別為被擬合函數(shù)的自變量和因變量,α、β、γ、η、σ為待定系數(shù)。
2)確定數(shù)據(jù)截?cái)帱c(diǎn)
若將數(shù)據(jù)中突增的數(shù)據(jù)截?cái)嗖⒄业揭粋€截?cái)帱c(diǎn),則可顯示出當(dāng)前較小數(shù)據(jù)之間的量級差異。該截?cái)帱c(diǎn)為數(shù)據(jù)突增的起始點(diǎn),截?cái)帱c(diǎn)的斜率等于擬合函數(shù)最大值與最小值連接線所在直線的斜率,對多項(xiàng)式y(tǒng)求導(dǎo)如下:
截?cái)帱c(diǎn)的判定式如下:
其中,k為截?cái)帱c(diǎn)的導(dǎo)數(shù)。
對多項(xiàng)式導(dǎo)數(shù)進(jìn)行回歸計(jì)算得到截?cái)帱c(diǎn)的位置,計(jì)算公式如下:
其中,突增點(diǎn)x_j是數(shù)據(jù)離散化所需的一個截?cái)帱c(diǎn)。
3)根據(jù)步驟1 和步驟2 得到截?cái)帱c(diǎn)后,從截?cái)帱c(diǎn)進(jìn)行數(shù)據(jù)截?cái)啵⑤^大的數(shù)據(jù)歸為一個離散類,其他數(shù)據(jù)重新執(zhí)行步驟1 和步驟2 計(jì)算下一個截?cái)帱c(diǎn),在數(shù)據(jù)呈現(xiàn)均勻分布后,統(tǒng)計(jì)所有離散類作為最終離散化結(jié)果。
本文進(jìn)行多量級應(yīng)急數(shù)據(jù)離散實(shí)驗(yàn),數(shù)據(jù)源自國家地震科學(xué)數(shù)據(jù)共享中心、國家數(shù)據(jù)網(wǎng)、中國地震臺網(wǎng)、中國應(yīng)急信息網(wǎng)以及大量的相關(guān)新聞報(bào)道和論文數(shù)據(jù),通過篩查得到99 個應(yīng)急數(shù)據(jù)用于本文研究。表1 為我國不同地區(qū)地震傷亡人數(shù)相關(guān)影響因素統(tǒng)計(jì)情況。
表1 傷亡人數(shù)相關(guān)影響因素統(tǒng)計(jì)情況Table 1 Statistical situation of influencing factors related to number of casualties
2.1.1 多量級數(shù)據(jù)離散化
本文對地震案例中傷亡人數(shù)與災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)進(jìn)行離散化,所有案例的傷亡人數(shù)統(tǒng)計(jì)結(jié)果如圖3 所示。其中,橫坐標(biāo)為地震案例序號(以震發(fā)地省會名稱拼音排序,所有案例均從第0 個開始計(jì)數(shù))。可以看出,序號為6 的案例傷亡人數(shù)最多,其他大部分案例傷亡人數(shù)較少。在數(shù)據(jù)處理過程中,因?yàn)榇嬖谳^大數(shù)據(jù),所以較小數(shù)據(jù)之間的差異被隱藏。
圖3 傷亡人數(shù)Fig.3 Number of casualties
圖4 為將地震案例中傷亡人數(shù)由小到大排序的結(jié)果。為體現(xiàn)圖1 中的數(shù)據(jù)量級差異,從圖4 中隨機(jī)找一個截?cái)帱c(diǎn)68 對較大數(shù)據(jù)進(jìn)行截?cái)?,剩余?shù)據(jù)的分布如圖5 所示。由圖5 可以看出,去掉部分較大數(shù)據(jù)后,剩余數(shù)據(jù)仍呈現(xiàn)指數(shù)函數(shù)的分布特點(diǎn),說明數(shù)據(jù)中存在不止一個數(shù)據(jù)量級差異。對圖4 中按傷亡人數(shù)排序的數(shù)據(jù)進(jìn)行函數(shù)擬合,得到的擬合結(jié)果如圖6 所示。其中,離散分布的點(diǎn)表示數(shù)據(jù)值,曲線為數(shù)據(jù)點(diǎn)的擬合函數(shù)曲線。
圖4 按傷亡人數(shù)排序后的結(jié)果Fig.4 Results sorted by number of casualties
圖5 傷亡人數(shù)排序后隨機(jī)截?cái)嘟Y(jié)果Fig.5 Random truncation results after ranking of number of casualties
圖6 傷亡人數(shù)擬合結(jié)果Fig.6 Fitting result of number of casualties
由圖6 可以看出,該函數(shù)曲線在趨近末端時突然升高,這是數(shù)據(jù)的量級突然改變所致。表2 為圖6 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=4 067.95,截?cái)帱c(diǎn)x_j=87。從截?cái)帱c(diǎn)87 對數(shù)據(jù)進(jìn)行截?cái)嗤瓿傻? 次離散,得到的第1 個離散類為排序后的數(shù)據(jù)88~數(shù)據(jù)99,剩余數(shù)據(jù)為數(shù)據(jù)0~數(shù)據(jù)87。
表2 圖6 中擬合函數(shù)的參數(shù)設(shè)置Table 2 Parameter setting of fitting function in Fig.6
對第1 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖7所示??梢钥闯觯S鄶?shù)據(jù)分布差異仍較大,這是隱藏的數(shù)據(jù)量級差異所致。表3 為圖7 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=228.98,下一個截?cái)帱c(diǎn)為64。
圖7 第1 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.7 Fitting result of residual data after the first truncation
表3 圖7 中擬合函數(shù)的參數(shù)設(shè)置Table 3 Parameter setting of fitting function in Fig.7
從截?cái)帱c(diǎn)64 對數(shù)據(jù)進(jìn)行截?cái)?,得到? 個離散類,對第2 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖8 所示。表4 為圖8 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=12.86,下一個截?cái)帱c(diǎn)為39。
圖8 第2 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.8 Fitting result of residual data after the second truncation
表4 圖8 中擬合函數(shù)的參數(shù)設(shè)置Table 4 Parameter setting of fitting function in Fig.8
從截?cái)帱c(diǎn)39 對數(shù)據(jù)進(jìn)行截?cái)?,得到? 個離散類,對第3 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖9 所示。表5為圖9 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=3.775,下一個截?cái)帱c(diǎn)為22。由圖9 可以看出,數(shù)據(jù)從截?cái)帱c(diǎn)39 截?cái)嗪螅浜瘮?shù)曲線數(shù)值分布較均勻,呈現(xiàn)出主要數(shù)據(jù)的量級差異,進(jìn)而獲得第4 個離散類,截?cái)帱c(diǎn)為87、64 和39。在不斷進(jìn)行數(shù)據(jù)截?cái)嗟倪^程中,每次截掉的數(shù)據(jù)都被離散為一個離散點(diǎn),對離散點(diǎn)賦值后即完成離散。
圖9 第3 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.9 Fitting result of residual data after the third truncation
表5 圖9 中擬合函數(shù)的參數(shù)設(shè)置Table 5 Parameter setting of fitting function in Fig.9
本文將數(shù)據(jù)離散量作為判定離散完成的指標(biāo),設(shè)置傷亡人數(shù)和災(zāi)區(qū)受災(zāi)人數(shù)的離散量為4,其他數(shù)據(jù)離散量為3。在將離散系數(shù)閾值作為判定條件下,當(dāng)離散系數(shù)較低時多量級應(yīng)急數(shù)據(jù)產(chǎn)生離散量過多(見2.2 節(jié)),實(shí)驗(yàn)結(jié)果不具有實(shí)際指導(dǎo)意義。
2.1.2 突增點(diǎn)的判斷
本文離散方法在計(jì)算斜率時將導(dǎo)函數(shù)的凸函數(shù)部分作為突增點(diǎn),并以地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)的截?cái)帱c(diǎn)判斷過程為例進(jìn)行分析,結(jié)果如圖10 所示(實(shí)線為數(shù)據(jù)的擬合函數(shù)曲線)。圖10(a)和圖10(b)分別為地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)原始數(shù)據(jù)擬合結(jié)果以及第1 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果。由圖10(b)可以看出,截?cái)帱c(diǎn)在數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi)。圖10(c)為第2 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果,可以看出截?cái)嗪髷?shù)據(jù)圖像與圖10(b)的計(jì)算結(jié)果差異較大,說明截?cái)帱c(diǎn)判斷錯誤。在計(jì)算中將凸函數(shù)作為突增點(diǎn)是截?cái)帱c(diǎn)判斷錯誤的原因,若在程序判斷中加入“當(dāng)二階導(dǎo)函數(shù)大于零時:將一階導(dǎo)函數(shù)設(shè)置為10 000”,則在判斷式(4)計(jì)算結(jié)果的最小值時就無需考慮因凸函數(shù)產(chǎn)生的斜率。對數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個截?cái)帱c(diǎn),擬合結(jié)果如圖11 所示,可見截?cái)帱c(diǎn)回到數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi),函數(shù)曲線上升較平緩,未出現(xiàn)突增現(xiàn)象,截?cái)帱c(diǎn)判斷錯誤的情況消失。
圖10 地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)截?cái)帱c(diǎn)判斷過程Fig.10 Judgment process of the cut off points of number of towns in earthquake stricken areas
圖11 截?cái)帱c(diǎn)判斷錯誤消失Fig.11 Disappearance of error in judgment of truncation point
2.1.3 離散化結(jié)果分析
震發(fā)地受災(zāi)人數(shù)的離散、災(zāi)區(qū)人口密度數(shù)據(jù)的離散、震發(fā)地人均GDP 數(shù)據(jù)的離散等其他類型應(yīng)急數(shù)據(jù)的多量級離散化結(jié)果如圖12~圖17 所示。其中,圖12、圖14 和圖16 為各類數(shù)據(jù)未離散時的數(shù)據(jù)排序,圖13、圖15 和圖17 為各類數(shù)據(jù)離散后各離散類的數(shù)據(jù)分布??梢钥闯觯捎帽疚姆椒x散后的數(shù)據(jù)在各離散類數(shù)量區(qū)間中分布較均勻,無較大的量級差異。為量化這種均勻性,下文從離散系數(shù)分析本文方法的必要性與合理性。
圖12 受災(zāi)人口原始數(shù)據(jù)Fig.12 Raw data of affected population
圖13 受災(zāi)人口數(shù)據(jù)的不同離散類Fig.13 Different discrete categories of affected population data
圖14 受災(zāi)人口密度原始數(shù)據(jù)Fig.14 Raw data of affected population density
圖15 受災(zāi)人口密度數(shù)據(jù)的不同離散類Fig.15 Different discrete categories of affected population density data
圖16 災(zāi)區(qū)人均GDP 原始數(shù)據(jù)Fig.16 Raw data of per capita GDP in disaster area
圖17 災(zāi)區(qū)人均GDP 數(shù)據(jù)的不同離散類Fig.17 Different discrete categories of per capita GDP data in disaster area
離散系數(shù)又稱變異系數(shù),常用于衡量數(shù)據(jù)的離散程度和變異程度,其表達(dá)式為σ/-a(σ為離散標(biāo)準(zhǔn)差,-a為離散平均值)。本文利用該系數(shù)衡量各個離散類的數(shù)據(jù)均勻分布程度,同一個數(shù)據(jù)集離散系數(shù)越低,數(shù)據(jù)分布越均勻,說明離散效果越好。
2.2.1 確定離散類個數(shù)時不同方法的離散系數(shù)
本文設(shè)定傷亡人數(shù)與受災(zāi)人數(shù)的離散類個數(shù)均為4,其他數(shù)據(jù)的離散類個數(shù)為3,計(jì)算得到不同數(shù)據(jù)集經(jīng)本文方法、層次聚類離散化方法、等頻離散化方法、等距離散化方法以及2-Flou 數(shù)離散化方法離散后的離散類平均離散系數(shù),其中2-Flou 數(shù)離散化方法是基于模糊區(qū)間與等距離散化的柔性離散化方法[21],采用不同方法得到的5 種數(shù)據(jù)集平均離散系數(shù)如表6 所示。
表6 不同方法下5 種數(shù)據(jù)集的平均離散系數(shù)Table 6 Mean values of discrete coefficients of five database with different methods
由表6 可以看出,在5 種數(shù)據(jù)集中本文方法的離散系數(shù)較其他方法有一定程度的降低,僅在災(zāi)區(qū)人均GDP 數(shù)據(jù)集中離散系數(shù)高于層次聚類離散化方法與等距離散化方法。由于層次聚類與等距離散化方法所得離散系數(shù)平均值較高,因此每個離散類包含的數(shù)據(jù)較少。綜合不同數(shù)據(jù)集的平均離散系數(shù)給出各方法的平均離散系數(shù)如表7 所示,可以看出本文方法在規(guī)定離散類個數(shù)下平均離散系數(shù)低于其他方法,其各個離散類的數(shù)據(jù)分布較均勻,證明本文方法具有一定的必要性。
表7 不同方法的平均離散系數(shù)Table 7 Average discrete coefficients of different methods
2.2.2 設(shè)定離散系數(shù)閾值后的離散類特征
從統(tǒng)計(jì)學(xué)上看,若數(shù)據(jù)集內(nèi)離散系數(shù)低于0.15,則數(shù)據(jù)集中的數(shù)據(jù)分布較均勻,否則認(rèn)為數(shù)據(jù)分布異常,可據(jù)此設(shè)定較低離散系數(shù)閾值。使用本文方法對各個大于閾值的離散類繼續(xù)離散,直到小于規(guī)定閾值,并給出兩種閾值設(shè)定方法以及數(shù)據(jù)集離散后的離散類個數(shù)、平均離散系數(shù)等離散類特征。當(dāng)閾值為0.15 和0.30 時,5 種數(shù)據(jù)集的離散類特征分布分別如表8 和表9 所示??梢钥闯?,與較高離散系數(shù)閾值下的離散結(jié)果相比,平均離散系數(shù)有所降低,最大的離散類個數(shù)達(dá)到26,大部分?jǐn)?shù)據(jù)離散后的離散類個數(shù)超過10。如果99 個數(shù)據(jù)離散后存在超過10 個離散類時,則在后續(xù)粗糙集等數(shù)據(jù)分析中將難以找到數(shù)據(jù)的主要特征,此類數(shù)據(jù)離散化并未降低數(shù)據(jù)間的復(fù)雜性。由于應(yīng)急數(shù)據(jù)的量級差異變化較大,離散系數(shù)高于0.15 并不表示數(shù)據(jù)之間關(guān)聯(lián)性差,因此應(yīng)急數(shù)據(jù)需通過確定離散類個數(shù)進(jìn)行離散化。由離散類數(shù)據(jù)、離散類個數(shù)與離散類離散系數(shù)分析結(jié)果可知,本文方法具有一定的合理性。
表8 閾值為0.15 時5 種數(shù)據(jù)集的離散類特征Table 8 Discrete class characteristics of five datasets at a threshold of 0.15
表9 閾值為0.30 時5 種數(shù)據(jù)集的離散類特征Table 9 Discrete class characteristics of different datasets at a threshold of 0.30
針對具有多量級差異性的應(yīng)急數(shù)據(jù),本文提出一種無監(jiān)督的數(shù)據(jù)離散化方法。將應(yīng)急數(shù)據(jù)由大到小排序,在函數(shù)擬合的基礎(chǔ)上計(jì)算量級差異變化點(diǎn)作為數(shù)據(jù)截?cái)帱c(diǎn),對數(shù)據(jù)進(jìn)行截?cái)嘁瞥鲚^大數(shù)據(jù)完成一次離散,并不斷重復(fù)此操作直到完成全部數(shù)據(jù)離散。實(shí)驗(yàn)結(jié)果表明,該方法的離散系數(shù)較等頻離散化、層次聚類離散化等傳統(tǒng)方法更低,對隱藏多量級差異的應(yīng)急數(shù)據(jù)具有良好的離散效果。后續(xù)將針對多種復(fù)合環(huán)境影響下的地震數(shù)據(jù)進(jìn)行研究,進(jìn)一步降低該方法的離散系數(shù)并提高魯棒性。