劉衛(wèi)明,李忠利,毛伊敏
(1.江西理工大學(xué)信息工程學(xué)院,江西贛州341000;2.江西理工大學(xué)資源與環(huán)境工程學(xué)院,江西贛州341000)
滑坡是世界上最具破壞性的常見(jiàn)地質(zhì)災(zāi)害之一,對(duì)人類生命安全、環(huán)境、資源和財(cái)產(chǎn)構(gòu)成很大的威脅[1]?;滦纬傻囊蛩鼐哂卸鄻有院蛷?fù)雜性,給滑坡預(yù)測(cè)分析造成了一定的困擾,其中降雨是引發(fā)區(qū)域滑坡的最重要因素之一[2]。由于降雨具有較高的隨機(jī)性和不確定性,無(wú)法對(duì)其進(jìn)行準(zhǔn)確的刻畫(huà),因此滑坡的危險(xiǎn)性預(yù)測(cè)將會(huì)面臨較大的考驗(yàn)。
聚類算法能夠根據(jù)數(shù)據(jù)對(duì)象之間的較高相似度、聚簇之間的較高分離度的特點(diǎn)實(shí)現(xiàn)數(shù)據(jù)對(duì)象的有效劃分,諸多學(xué)者借助聚類算法分析技術(shù)在滑坡危險(xiǎn)性預(yù)測(cè)中展開(kāi)了大量研究。阮云凱等[3]引入K均值粒子群優(yōu)化算法K-PSO(K-means Particle Swarm Optimization)和熵值法,建立滑坡敏感性分析模型,有效地確定8個(gè)影響因子和影響因子權(quán)重值,在旭龍水電站庫(kù)區(qū)實(shí)驗(yàn)中的滑坡敏感性預(yù)測(cè)結(jié)果與實(shí)際滑坡?tīng)顟B(tài)情況具有較好的一致性。張俊等[4]選取7個(gè)致災(zāi)因子作為滑坡易發(fā)性的評(píng)價(jià)指標(biāo),使用滑坡面積比與分級(jí)面積比曲線對(duì)指標(biāo)因子分級(jí),采用快速聚類法(K-means Cluster)對(duì)滑坡易發(fā)性評(píng)價(jià)體系進(jìn)行分級(jí),實(shí)驗(yàn)證明滑坡災(zāi)害易發(fā)性評(píng)價(jià)體系預(yù)測(cè)精度較高。桑議惠[5]從影響滑坡等災(zāi)害的敏感因子空間分布出發(fā),構(gòu)建楚雄州中小學(xué)校滑坡等災(zāi)害風(fēng)險(xiǎn)評(píng)估體系,結(jié)合層次分析法AHP(Analytic Hierarchy Process)和K-means聚類算法,確定影響因子在體系層次中的權(quán)重,建立風(fēng)險(xiǎn)評(píng)估模型,實(shí)驗(yàn)結(jié)果表明該滑坡風(fēng)險(xiǎn)評(píng)估效果較好。Chen等[6]選取四川省滑坡地區(qū)漢源縣為研究對(duì)象,建立具有遺傳算法、差分演化、滑坡空間建模的粒子群優(yōu)化自適應(yīng)神經(jīng)-模糊推理系統(tǒng)模型,通過(guò)概率確定滑坡與坡高、坡度等調(diào)節(jié)因素的關(guān)系,采用提出的系統(tǒng)模型進(jìn)行建模,通過(guò)變動(dòng)率指標(biāo)RoC(Rate of Change)曲線評(píng)估滑坡敏感性圖,實(shí)驗(yàn)結(jié)果表明該系統(tǒng)模型精度較高。
但是,傳統(tǒng)的聚類算法針對(duì)滑坡危險(xiǎn)性預(yù)測(cè)效果不是很理想,主要問(wèn)題表現(xiàn)為兩點(diǎn):一方面難以實(shí)現(xiàn)不確定數(shù)據(jù)降雨的有效刻畫(huà);另一方面?zhèn)鹘y(tǒng)聚類算法需預(yù)先確定聚類數(shù)目k,難以適應(yīng)大規(guī)模數(shù)據(jù),后期容易陷入局部最優(yōu)、聚類停滯等問(wèn)題。傳統(tǒng)聚類算法的滑坡危險(xiǎn)性預(yù)測(cè)受以上兩種因素影響,預(yù)測(cè)精度普遍不高,因此需要一種能夠有效刻畫(huà)不確定數(shù)據(jù)和提高滑坡危險(xiǎn)性預(yù)測(cè)精度的方法。
蟻群聚類算法中的新型自適應(yīng)蟻群聚類算法NAC(New Ant Clustering)[7]算法針對(duì)聚類數(shù)目 k需預(yù)先確定的問(wèn)題,簡(jiǎn)化參數(shù),自適應(yīng)確定閾值,有效地避免了聚簇?cái)?shù)目k的預(yù)先設(shè)置,提高算法聚類質(zhì)量。遺傳改進(jìn)蟻群聚類算法GIACCA(Genetic Improved Ant Colony Clustering Algorithm)[8]對(duì)遺傳算法找出蟻群聚類算法最優(yōu)參數(shù)組合,有效避開(kāi)人為設(shè)置聚類數(shù)目k,減少盲目設(shè)置參數(shù)的次數(shù),加快小規(guī)模數(shù)據(jù)算法收斂速度和聚類效果。改進(jìn)K-means蟻群聚類算法CKmACCA(Changed K-means Ant Colony Clustering Algorithm)[9]在每次迭代結(jié)束時(shí)隨機(jī)選擇信息素最小的節(jié)點(diǎn)進(jìn)行變異操作,更新變異點(diǎn)到聚類中心點(diǎn),一定程度上改善了后期停滯和早熟現(xiàn)象,然而沒(méi)有解決預(yù)先設(shè)置聚類數(shù)目k的問(wèn)題。但是,傳統(tǒng)蟻群聚類算法難以高效處理大規(guī)模數(shù)據(jù),無(wú)法有效刻畫(huà)滑坡預(yù)測(cè)中的不確定降雨。本文在分析傳統(tǒng)蟻群聚類算法優(yōu)劣勢(shì)的基礎(chǔ)上,提出一種不確定近似骨架遺傳蟻群聚類算法APPBCU(Uncertain data ant clustering algorithm based on approximate backbone),構(gòu)建一種Gauss點(diǎn)概率模型,實(shí)現(xiàn)不確定數(shù)據(jù)的有效刻畫(huà),采用改進(jìn)遺傳蟻群聚類算法,加載近似骨架理論,縮減迭代次數(shù),建立不確定近似骨架遺傳蟻群聚類算法模型,并在UCI真實(shí)數(shù)據(jù)集和延安市寶塔區(qū)滑坡實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,進(jìn)而驗(yàn)證了該算法的有效性以及其應(yīng)用到滑坡危險(xiǎn)性預(yù)測(cè)中的可行性。
處理不確定數(shù)據(jù)通常只考慮屬性不確定性,并不能有效地處理權(quán)重不確定性數(shù)據(jù),本文在基于Gauss分布函數(shù)的區(qū)間值數(shù)據(jù)處理方式和不確定數(shù)據(jù)的點(diǎn)概率模型的基礎(chǔ)上,使用面積積分法,根據(jù)Gauss分布函數(shù)區(qū)間相似度對(duì)數(shù)據(jù)對(duì)象之間距離進(jìn)行拓展,結(jié)合點(diǎn)概率相異度和距離之間的可替換關(guān)系,得到一種Gauss點(diǎn)概率不確定數(shù)據(jù)模型,該模型能夠綜合處理屬性不確定和存在不確定的數(shù)據(jù)計(jì)算。
定理1(Gauss點(diǎn)概率不確定數(shù)據(jù)距離度量)若不確定數(shù)據(jù)對(duì)象中存在兩觀測(cè)點(diǎn)a和b,則a和b間的距離DS( a ,b ) 定義為:
其中,i,j代表維度,xi是第 i維的屬性值,是 xij等特征矢量的第i維求和,存在概率p是[0,1]的隨機(jī)數(shù),k為屬性維數(shù)。
證明由d維屬性X和元組存在概率p組合而成的(X,p)的元組,其中pi為第i維屬性的存在概率,X={x1,x2,x3,…,xd} 。兩個(gè)不確定元組(xi,pi) 和 (xj,pj) 之間的相異度 dYij為:
若兩個(gè)觀測(cè)點(diǎn) a= (x11,x12,x13,…,x1d) 和b= (x21,x22,x23,…,x2d)為區(qū)間值數(shù)據(jù),a和b之間的Gauss分布函數(shù)區(qū)間值數(shù)據(jù)相似度可用S(x珋,y珋)表示,其中x珋,y珋分別代表兩個(gè)區(qū)間值數(shù)據(jù),分別表示為x珋=[x-,x+],y珋=[ y-,y+],根據(jù)文獻(xiàn)[10]得Gauss分布函數(shù)區(qū)間相似度計(jì)算方法,對(duì)距離度量進(jìn)行擴(kuò)展,按照面積計(jì)算法,每個(gè)特征矢量xjm由區(qū)間數(shù)表示,則兩個(gè)觀測(cè)點(diǎn)a和b之間的距離D( a ,b ) 可以定義為:
蟻群聚類算法容易出現(xiàn)運(yùn)算周期長(zhǎng)、過(guò)早陷入局部最優(yōu)、后期搜索速度慢等問(wèn)題[11]。針對(duì)蟻群聚類算法存在的問(wèn)題,本文采用信息素重分配方式改變局部信息素更新規(guī)則,引入自適應(yīng)動(dòng)態(tài)變量實(shí)現(xiàn)全局信息素更新,使信息素濃度的更新得到一定的優(yōu)化[12];引入遺傳算法,結(jié)合蟻群聚類算法,基于遺傳算法的快速全局搜索能力與蟻群算法的正反饋機(jī)制,初步實(shí)現(xiàn)全局最優(yōu)解的快速搜索,從而在一定程度上提高蟻群搜索最優(yōu)路徑效率,減小蟻群重復(fù)往返概率,縮短運(yùn)算周期,加快算法收斂速度。綜合上述的自適應(yīng)動(dòng)態(tài)變量和遺傳算法的優(yōu)點(diǎn),設(shè)計(jì)改進(jìn)蟻群聚類算法SGACA(Smart Genetic Ant Colony Algorithm)。
定義1(局部信息素更新標(biāo)準(zhǔn)) 在t時(shí)刻螞蟻(a+1)從對(duì)象A轉(zhuǎn)移到對(duì)象B,對(duì)一條路徑總信息素T進(jìn)行重新分配,經(jīng)過(guò)路徑的原有信息素和本次搜索信息素濃度信息求加權(quán)平均,未經(jīng)過(guò)路徑信息素保持不變,直至所有R個(gè)螞蟻迭代完成為止,更新規(guī)則為:
定義2(全局信息素更新標(biāo)準(zhǔn)) 全局信息素更新中,引入自適應(yīng)動(dòng)態(tài)變量 ε( ε∈ ( 0 ,1 ) ),控制單次迭代信息素濃度更新比重,使路徑信息素濃度實(shí)現(xiàn)最大加成,避免陷入局部最優(yōu),更新規(guī)則為:
自適應(yīng)遺傳蟻群聚類算法(SGACA)具體步驟如下所示:
算法1SGACA
輸入:R,F(xiàn),Q。
輸出:全局最優(yōu)解解集。
Step 1Co←;1←Q;R,F(xiàn)。/*初始化全局最優(yōu)解解集Co、蟻群聚類算法和遺傳算法參數(shù)、信息素總量Q,設(shè)置螞蟻數(shù)R、螞蟻之間相似度閾值F*/
Step 2n × m←divide( )R ,F(xiàn)A,B=S(A,B)。/* 將 R個(gè)螞蟻隨機(jī)分布在n×m的二維平面,生成n×m個(gè)合法編碼作為原始種群,計(jì)算種群螞蟻的對(duì)象間相似度閾值F,其中A和B為螞蟻,S(A,B)為兩螞蟻之間的距離*/
Step 3根據(jù)任意兩螞蟻對(duì)象之間相似度閾值FA,B,選擇一部分個(gè)體作為父本,采用均勻交叉方法按照交叉概率0.8進(jìn)行交叉產(chǎn)生新個(gè)體,將其與全局最優(yōu)解一同加入新種群,對(duì)新種群采用高斯變異方法按照變異概率0.2進(jìn)行變異操作,計(jì)算 FA,B,更新全局最優(yōu)解,使 FA,B接近 F。
Step 4按照式(4)和式(5)的全局和局部信息素更新規(guī)則更新信息素,對(duì)全局最優(yōu)解路徑信息素進(jìn)行累加直至信息素累加和達(dá)到1或者迭代次數(shù)TD達(dá)到最大值時(shí)停止,否則返回Step 3。
Step 5輸出全局最優(yōu)解解集,退出*/
為了解決不確定數(shù)據(jù)對(duì)聚類效果影響問(wèn)題,本文基于近似骨架理論[13],提出一種不確定近似骨架蟻群聚類算法APPBCU。該算法流程如下所示:
(1)對(duì)不確定數(shù)據(jù)集UD按照采樣比例λ實(shí)施q次采樣,得采樣數(shù)據(jù)集UDq,使用SGACA對(duì)采樣數(shù)據(jù)集UDq進(jìn)行聚簇,獲得q個(gè)局部最優(yōu)解解集 Co=(co1,co2,…,coq);
(2)采用貪心搜索集合交算法SIGS(Set Intersection algorithm by using Greedy Search)[14]對(duì) q 個(gè)局部最優(yōu)解進(jìn)行集合交運(yùn)算,生成近似骨架簇APBq近似骨架 APPBone(co1,co2,…,coq) ,使用最小生成樹(shù)的K-means層次聚類算法,根據(jù)簇簇合并條件[15]合并近似骨架簇,生成k個(gè)新簇,標(biāo)記新簇簇中心為ce1,ce2,…,ceK,得到 k個(gè)初始解生成的解集,標(biāo)記為 Cp={cp1,cp2,…,cpk};
(3)以初始解解集 Cp={cp1,cp2,…,cpk} 為聚類搜索起始點(diǎn),執(zhí)行改進(jìn)蟻群聚類算法,最終獲得聚類結(jié)果 Cc={cluster1,cluster2,…,clusterk} 。
算法2APPBCU
Step 6Cp=Cp∪cpi;/*獲得不確定數(shù)據(jù)對(duì)象的聚類初始解解集,其中cpi為選中距離第i個(gè)簇心最近的不確定數(shù)據(jù)對(duì)象i∈[1,…,k]*/
Step 7Cc←SGACACp,()k。/*再次調(diào)用改進(jìn)蟻群聚類算法SGACA得最終聚類結(jié)果*/
實(shí)驗(yàn)的操作平臺(tái)為Windows 7旗艦版,編程語(yǔ)言為Python,硬件信息:AMD四核3.0 GHz CPU,內(nèi)存8 GB,SSD存儲(chǔ)介質(zhì)。近似骨架蟻群聚類算法具有局部搜索速度快、能有效解決初始解陷入局部最優(yōu)問(wèn)題的優(yōu)點(diǎn)。為了驗(yàn)證近似骨架蟻群聚類算法的有效性,選用 Iris、Wine、Haberman、Ecoli四個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,如表1所示。
3.1.1 不確定UCI數(shù)據(jù)集生成
本文基于均勻分布理論[16],為實(shí)驗(yàn)數(shù)據(jù)集D的多維對(duì)象o構(gòu)建n個(gè)樣本點(diǎn),使數(shù)據(jù)集具備不確定性特點(diǎn),變量w表示數(shù)據(jù)集的不確定性。具體實(shí)現(xiàn)采用均勻分布生成法:基于均勻分布構(gòu)建一個(gè)超矩形U使其能表述對(duì)象的不確定性,對(duì)于任意的對(duì)象o,在滿足每個(gè)維度的區(qū)間范圍服從均勻分布的條件下,每個(gè)屬性維度從[0,w]選擇統(tǒng)一區(qū)間[a,b]j,生成其他 n -1 個(gè)樣本。
本文采用金萍等[17]提出的不確定數(shù)據(jù)集生成方式獲得UCI不確定數(shù)據(jù)集:在UCI數(shù)據(jù)集的每一維度設(shè)置擾動(dòng)區(qū)間L=0.1×max_length,其中max_length為該維度上全部對(duì)象點(diǎn)之間最大距離,使用擾動(dòng)因子控制數(shù)據(jù)對(duì)象對(duì)應(yīng)的主引導(dǎo)記錄模塊MBR(Main Boot Record)大小。在每個(gè)MBR中分別采用平均分布獲得n個(gè)不確定樣本點(diǎn)。UCI不確定數(shù)據(jù)集的產(chǎn)生主要受到以下幾個(gè)參數(shù)的影響:不確定數(shù)據(jù)對(duì)象的個(gè)數(shù)N,MBR分布數(shù)據(jù)對(duì)象個(gè)數(shù)S和擾動(dòng)因子β,初始狀態(tài)設(shè)置S=100,β =0.5 。
3.1.2 評(píng)價(jià)標(biāo)準(zhǔn)與參數(shù)設(shè)置
F測(cè)度能夠全面評(píng)價(jià)顯著性區(qū)域的檢測(cè)效果,驗(yàn)證算法的有效性[18]。F值受準(zhǔn)確率P和召回率R兩個(gè)指標(biāo)影響,三者關(guān)系為:
其中,NXY表示聚類Y中類別數(shù)X的數(shù)目,NX表示類別數(shù)X中所有的數(shù)據(jù)對(duì)象個(gè)數(shù),NY表示聚類Y中所有的數(shù)據(jù)對(duì)象個(gè)數(shù),F(xiàn)X為類別數(shù)X的F值,P、R、FX和F的值介于 [ 0 ,1]。P和R越接近1,算法聚類效果越貼近實(shí)際,F(xiàn)測(cè)度綜合衡量聚類結(jié)果的準(zhǔn)確率和召回率,其值越大,算法聚類效果越好。
參數(shù)設(shè)置:采樣參數(shù)λ越大,抽樣規(guī)模越大,算法聚類結(jié)果越好,但是時(shí)間消耗也越多,尋找平衡聚類質(zhì)量和時(shí)間消耗的采樣參數(shù)λ成為實(shí)驗(yàn)的關(guān)鍵之處。通過(guò)實(shí)驗(yàn)證明,當(dāng)λ超過(guò)0.05時(shí),F(xiàn)測(cè)度變化趨于平穩(wěn),所以文中設(shè)置λ=0.05。蟻群聚類算法的迭代次數(shù)主要受信息素?fù)]發(fā)系數(shù)ρ影響。實(shí)驗(yàn)證明,當(dāng)ρ太大時(shí),以前搜索過(guò)的路徑可能會(huì)被重新選擇,容易陷入局部最優(yōu)解,當(dāng)ρ=0.5時(shí),迭代次數(shù)趨于穩(wěn)定,全局最優(yōu)解收斂效果最好。
3.1.3 實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證近似骨架蟻群聚類算法的有效性,本文選擇 K-PSO、NAC、GIACCA、CKMACCA 和近似骨架蟻群聚類算法APPBC(certain data ant clustering algorithm based on approximate backbone)進(jìn)行對(duì)比實(shí)驗(yàn)。在 Iris、Wine、Haberman、Ecoli數(shù)據(jù)集基礎(chǔ)上,設(shè)定參數(shù)β和S不變,變化參數(shù)N,獲得不確定數(shù)據(jù)集Dataset1;設(shè)定參數(shù)N和S不變,變化參數(shù)β,獲得不確定數(shù)據(jù)集Dataset2;設(shè)定參數(shù)N和β不變,變化參數(shù)S,獲得不確定數(shù)據(jù)集Dataset3。在三個(gè)不確定數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,Dataset1表現(xiàn)的結(jié)果與 Dataset2、Dataset3不同,Dataset2和Dataset3結(jié)果相似(以Dataset3表現(xiàn)結(jié)果為例進(jìn)行說(shuō)明),F(xiàn)測(cè)度隨參數(shù)變化圖如圖1和圖2所示。
由式(6)~式(8)得:
從圖1可以發(fā)現(xiàn),在Iris數(shù)據(jù)集上實(shí)驗(yàn)時(shí),APPBC算法的F值波動(dòng)較大,無(wú)法呈現(xiàn)明顯的收斂效果,這是因?yàn)镮ris數(shù)據(jù)集非線性數(shù)據(jù)分布對(duì)APPBC算法的近似骨架發(fā)現(xiàn)過(guò)程造成了干擾。而其他三個(gè)數(shù)據(jù)集的F值具有一定的發(fā)展趨勢(shì),當(dāng)N小于100時(shí),NAC算法和K-PSO算法具有較高的F值,GIACCA算法的F值最小。因?yàn)镹AC算法簡(jiǎn)化了參數(shù)選取,能夠自適應(yīng)調(diào)整螞蟻運(yùn)動(dòng)閾值,前期收斂速度快,聚類效果較為明顯;K-PSO算法采用粒子群算法,初始化參數(shù)較少,粒子位置和速度易于確定,加快全局優(yōu)化速度,提高收斂速度。GIACCA算法需要采用遺傳算法進(jìn)行參數(shù)組合尋優(yōu),參數(shù)設(shè)置較多。當(dāng)N介于100~250時(shí),NAC變化偏緩,CKMACCA算法的F值陡然增大,因?yàn)樵诨诟倪M(jìn)K-means算法的基礎(chǔ)上,蟻群聚類算法具有較強(qiáng)的可伸縮性和高效性,能夠較快地發(fā)現(xiàn)聚類中心,實(shí)現(xiàn)聚簇效果;K-PSO算法對(duì)每個(gè)粒子對(duì)象的位置和速度進(jìn)行更新,采用K-means算法進(jìn)行聚類,加快了前期收斂速度。當(dāng)N逐漸增大達(dá)到300時(shí),CKMACCA算法F值增速減緩甚至有降低趨勢(shì),因?yàn)榫垲惤Y(jié)果容易陷入局部最優(yōu),K-PSO算法和GIACCA算法的收斂速度受迭代次數(shù)的影響減緩并逐漸趨向平緩;NAC的F值一直處于較低位置,這是因?yàn)橐陨纤姆N算法不能解決聚類結(jié)果容易陷入局部最優(yōu)的問(wèn)題;APPBC算法一直具有較高的F值,這是因?yàn)槎x了信息素重分配機(jī)制和自適應(yīng)動(dòng)態(tài)變量以及加載遺傳算法,使蟻群算法收斂速度加快,避免過(guò)早陷入局部最優(yōu),引入了近似骨架理論,縮減了迭代次數(shù),加快了后期收斂速度,提高了聚類效果。
圖2中顯示當(dāng)S小于40時(shí),NAC不再具有較快的增速,這是因?yàn)镹AC算法在數(shù)據(jù)對(duì)象個(gè)數(shù)較小時(shí),尋找最優(yōu)聚簇中心不理想,收斂效果不佳。當(dāng)S小于60時(shí),K-PSO算法收斂速度較快,聚簇效果較好,F(xiàn)值增長(zhǎng)較快,因?yàn)镵-PSO算法采用K-means均值算法重新初始化粒子群,加快了聚簇中心的形成,聚簇中心選取較為準(zhǔn)確。CKMACCA算法的F值隨著S在60~100變化時(shí),增速相對(duì)其他四個(gè)算法較快,后期值也比較高,因?yàn)镃KMACCA算法受聚簇中心選取影響,數(shù)據(jù)對(duì)象個(gè)數(shù)對(duì)聚簇的劃分產(chǎn)生了一定作用。APPBC算法因采用SGACA,對(duì)信息素重分配和動(dòng)態(tài)變化變量,避免聚類結(jié)果陷入局部最優(yōu),引入近似骨架理論,縮減了算法迭代次數(shù),從而加快收斂速度,提高了聚類精度。
為了進(jìn)一步驗(yàn)證近似骨架蟻群聚類算法的性能,設(shè)置迭代次數(shù)為50次,四個(gè)參數(shù)N=200,S=100,β =0.5,ρ=0.5 ,計(jì)算四種算法在四個(gè) UCI數(shù)據(jù)集上的運(yùn)行時(shí)間,運(yùn)行時(shí)間如表2所示。
Table 2 Running time of the four algorithms on UCI datasets表2 UCI數(shù)據(jù)集上四種算法運(yùn)行時(shí)間表 s
從表2可以看出 CKMACCA、GIACCA和 K-PSO算法的運(yùn)行時(shí)間相差不大,這是因?yàn)樗鼈兘鉀Q了聚類結(jié)果容易陷入局部最優(yōu)的問(wèn)題,提高了后期收斂速度,影響聚類效果。但是,APPBC算法的時(shí)間消耗較其它四種的時(shí)間消耗要小,ICCA算法在Ecoli數(shù)據(jù)集上的時(shí)間消耗相對(duì)要大得多,這是因?yàn)镮CCA算法容易陷入局部最優(yōu),對(duì)于多屬性和多類別的數(shù)據(jù)集聚簇準(zhǔn)確度不高,APPBC算法的近似骨架縮減了迭代次數(shù),使用改進(jìn)遺傳蟻群聚類算法使得初始解更加接近收斂結(jié)果。
3.2.1 數(shù)據(jù)來(lái)源及數(shù)據(jù)預(yù)處理
延安寶塔區(qū)滑坡災(zāi)害數(shù)據(jù)來(lái)源于陜西省地質(zhì)調(diào)查院提供的地質(zhì)災(zāi)害數(shù)據(jù)文件,文中采用ARCGIS軟件對(duì)延安寶塔區(qū)進(jìn)行柵格化,網(wǎng)格大小設(shè)置為5 m×5 m,劃分網(wǎng)格單元5 672 922個(gè),采用毛伊敏等[19]提出的各屬性數(shù)據(jù)提取方式,選取坡型、坡度、坡高、坡向、植被分布、巖土體類型以及降雨作為評(píng)價(jià)因素,以滑坡危險(xiǎn)性等級(jí)作為最后的決策因素。
為了提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確率,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,獲得有效的記錄數(shù)據(jù)5 667 252條,每條記錄由七個(gè)評(píng)價(jià)因子組成,連續(xù)屬性坡高、坡度和坡向按連續(xù)值進(jìn)行運(yùn)算;離散屬性坡型、植被、巖土體結(jié)構(gòu)經(jīng)過(guò)賦值歸一化按連續(xù)值進(jìn)行處理[20];而降雨不確定數(shù)據(jù)是區(qū)間值數(shù)據(jù),只能確定取值的范圍,具有不確定性,無(wú)法直接按照連續(xù)值進(jìn)行計(jì)算。文中采用Gauss點(diǎn)概率不確定數(shù)據(jù)模型對(duì)降雨進(jìn)行刻畫(huà),解決不確定數(shù)據(jù)無(wú)法有效刻畫(huà)的難題。
3.2.2 滑坡危險(xiǎn)性預(yù)測(cè)模型的構(gòu)建
首先利用自適應(yīng)遺傳蟻群聚類算法將延安市寶塔區(qū)5 672 922個(gè)滑坡數(shù)據(jù)集劃分為等同大小的586個(gè)簇,初始狀態(tài)每個(gè)簇均設(shè)置為空,隨機(jī)讀取其中一個(gè)數(shù)據(jù)對(duì)象作為一個(gè)簇的中心點(diǎn),通過(guò)Gauss點(diǎn)概率不確定數(shù)據(jù)距離度量公式計(jì)算滑坡區(qū)域任意新對(duì)象與中心點(diǎn)之間的距離,選取距離較遠(yuǎn)的對(duì)象再重新劃分一個(gè)簇,直至所有的簇劃分完成,形成586個(gè)簇,每個(gè)簇都是一個(gè)局部最優(yōu)解解集;然后將每個(gè)局部最優(yōu)解解集看做一個(gè)整體,采用SIGS方法對(duì)所有局部最優(yōu)解求集合交,得到所有的近似骨架簇,對(duì)586個(gè)初始簇集進(jìn)行離群點(diǎn)檢驗(yàn),對(duì)簇簇之間符合合并條件的近似骨架簇進(jìn)行合并,形成493個(gè)初始解解集;最后再次運(yùn)行自適應(yīng)遺傳蟻群聚類算法,以所有聚類初始解解集為搜索起點(diǎn),聚簇得到493個(gè)簇。
3.2.3 危險(xiǎn)性等級(jí)的劃分
滑坡危險(xiǎn)性等級(jí)作為危險(xiǎn)性預(yù)測(cè)的決策因子,如何劃分滑坡危險(xiǎn)性等級(jí)制約著滑坡危險(xiǎn)性預(yù)測(cè)的準(zhǔn)確率。由文獻(xiàn)[21]可知,具有相似特征的滑坡也具有相似的滑坡發(fā)生趨勢(shì),延安寶塔區(qū)滑坡危險(xiǎn)性等級(jí)可以通過(guò)具有較高相似度的聚類子集的危險(xiǎn)性等級(jí)進(jìn)行預(yù)測(cè),利用含有已知降雨信息的聚類子集滑坡單元危險(xiǎn)性等級(jí)特征,使用直接搜索法[22]和專家評(píng)價(jià)法[23]對(duì)滑坡危險(xiǎn)性進(jìn)行預(yù)測(cè)。聚類子集中的評(píng)價(jià)單元若只含有一個(gè)確定的危險(xiǎn)性等級(jí)單元,則該聚類子集的危險(xiǎn)性等級(jí)為該單元的危險(xiǎn)性等級(jí);聚類子集中的評(píng)價(jià)單元含有的各危險(xiǎn)性等級(jí)單元不等同時(shí),按照少數(shù)服從多數(shù)原則評(píng)定;對(duì)于未含有確定危險(xiǎn)性等級(jí)單元和含有等同確定危險(xiǎn)性等級(jí)單元的聚類子集危險(xiǎn)性等級(jí)則由專家進(jìn)行評(píng)定,結(jié)合區(qū)域調(diào)查結(jié)果判定滑坡危險(xiǎn)性等級(jí),繼而評(píng)定其余單元的危險(xiǎn)性等級(jí)。
3.2.4 評(píng)價(jià)標(biāo)準(zhǔn)
Kappa系數(shù)是一種較為簡(jiǎn)單、準(zhǔn)確度較高的評(píng)價(jià)方法。基于誤差矩陣的Kappa系數(shù)精度評(píng)價(jià)方法能夠在統(tǒng)計(jì)意義上反映分類結(jié)果的優(yōu)越性[24],其值介于[-1,1],其值越大,預(yù)測(cè)值和觀測(cè)值的一致性越大。Kappa系數(shù)定義為:
其中,Pr()a表示觀測(cè)和預(yù)測(cè)一致的數(shù)量與總體觀測(cè)點(diǎn)的比例,Pr()e表示同等級(jí)觀測(cè)總和、預(yù)測(cè)總和占總體觀測(cè)點(diǎn)的比例之和,pii為第i類型被正確分類的數(shù)目,Pi+為第i類型所在列的數(shù)目之和,P+i為第i類型所在行的數(shù)目之和,N為總體觀測(cè)點(diǎn)數(shù)目。
3.2.5 滑坡危險(xiǎn)性預(yù)測(cè)精度評(píng)價(jià)分析
為了驗(yàn)證文中的不確定數(shù)據(jù)處理方式是否達(dá)到了提高滑坡危險(xiǎn)性預(yù)測(cè)精度的目標(biāo),采用對(duì)比傳統(tǒng)的不確定數(shù)據(jù)處理方式進(jìn)行驗(yàn)證。在傳統(tǒng)聚類算法滑坡危險(xiǎn)性預(yù)測(cè)實(shí)驗(yàn)中,降雨通常以離散值進(jìn)行處理,定量法[25]是使用最為廣泛的一種方法,直接將降雨屬性值劃分為以下幾類:小雨、中雨、大雨、暴雨、大暴雨、特大暴雨,傳統(tǒng)聚類算法使用歐氏距離公式[26]計(jì)算兩個(gè)數(shù)據(jù)對(duì)象之間的距離。延安寶塔區(qū)滑坡災(zāi)害觀測(cè)點(diǎn)有428個(gè),在數(shù)據(jù)預(yù)處理階段,所有滑坡觀測(cè)點(diǎn)被柵格化為1 367個(gè)單元,含有降雨信息觀測(cè)點(diǎn)為1 036個(gè),其余331個(gè)為不含降雨信息的穩(wěn)定單元。分別采用近似骨架蟻群聚類算法和不確定近似骨架蟻群聚類算法對(duì)延安寶塔區(qū)滑坡危險(xiǎn)性預(yù)測(cè)精度進(jìn)行預(yù)測(cè),從觀測(cè)數(shù)據(jù)中獲得危險(xiǎn)性等級(jí)劃分表,如表3所示。
Table 3 Division of landslide hazard grades of the two algorithms表3 兩種算法滑坡危險(xiǎn)性預(yù)測(cè)等級(jí)劃分表
近似骨架蟻群聚類算法和不確定近似骨架蟻群聚類算法在滿足相同的聚類條件時(shí),由式(10)~式(12)計(jì)算得到不確定近似骨架蟻群聚類算法的預(yù)測(cè)精度為93.3%,比近似骨架蟻群聚類算法高4個(gè)百分點(diǎn),Kappa系數(shù)值為0.894 3,比近似骨架蟻群聚類算法的值高0.07。實(shí)驗(yàn)結(jié)果表明,不確定近似骨架蟻群聚類算法具有較好的滑坡危險(xiǎn)性預(yù)測(cè)準(zhǔn)確性。不確定近似骨架蟻群聚類算法預(yù)測(cè)精度和Kappa系數(shù)值比近似骨架蟻群聚類算法的值高,是因?yàn)闃?gòu)建了Gauss點(diǎn)概率模型,有效實(shí)現(xiàn)了不確定屬性降雨的刻畫(huà),降低了傳統(tǒng)算法對(duì)不確定數(shù)據(jù)處理方式帶來(lái)的誤差系數(shù),提高了滑坡危險(xiǎn)性預(yù)測(cè)的準(zhǔn)確度;另外,引入了自適應(yīng)動(dòng)態(tài)變量更新信息素,引入遺傳算法加快全局最優(yōu)解搜索,加快最優(yōu)解收斂速度,加載近似骨架理論,降低了滑坡實(shí)驗(yàn)數(shù)據(jù)規(guī)模,縮減了迭代次數(shù),加快了后期聚類收斂速度,提高了算法效率。
滑坡危險(xiǎn)性預(yù)測(cè)的難點(diǎn)在于對(duì)不確定數(shù)據(jù)降雨進(jìn)行有效處理,本文提出Gauss點(diǎn)概率模型刻畫(huà)不確定數(shù)據(jù),對(duì)降雨進(jìn)行相似度度量,改進(jìn)局部和全局信息素更新規(guī)則和加載遺傳算法,避免蟻群算法過(guò)早陷入局部最優(yōu),構(gòu)建不確定近似骨架蟻群聚類算法滑坡危險(xiǎn)性預(yù)測(cè)模型,縮減算法迭代次數(shù)。在UCI真實(shí)數(shù)據(jù)集和延安寶塔區(qū)滑坡實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,不確定近似骨架遺傳蟻群聚類算法的聚類效果要好于實(shí)驗(yàn)對(duì)比的算法,對(duì)于滑坡危險(xiǎn)性預(yù)測(cè)是一種可行性較高的方法。