楊帆 許強(qiáng) 戴嵐欣
摘要:針對(duì)圍巖分類問題,提出了一種依據(jù)數(shù)據(jù)挖掘技術(shù),采用二叉樹支持向量機(jī)的智能圍巖分類方法。該方法選擇9項(xiàng)影響圍巖分類的主要指標(biāo),利用SPSS Modeler數(shù)據(jù)挖掘工具構(gòu)建SVM分類擬合模型,對(duì)圍巖數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),以實(shí)現(xiàn)快速智能化決策輸出。研究結(jié)果表明:基于數(shù)據(jù)挖掘的支持向量機(jī)圍巖分類方法可以很好地解決小樣本、非線性、高維數(shù)的問題,該方法科學(xué)可行、可視性強(qiáng)、準(zhǔn)確率高,應(yīng)用前景廣闊。
關(guān)鍵詞:圍巖;分類;支持向量機(jī);數(shù)據(jù)挖掘;二叉樹
中圖分類號(hào):U452.1+2;TV223.1 文獻(xiàn)標(biāo)志碼:A doi:10.3969/j.issn.1000-1379.2017.07.030
工程巖體的分級(jí)與分類研究是國(guó)內(nèi)外地下工程技術(shù)基礎(chǔ)研究的重要課題。在工程建設(shè)施工過程中,正確及時(shí)地對(duì)工程建設(shè)涉及到的巖體穩(wěn)定性作出評(píng)價(jià),是經(jīng)濟(jì)合理地進(jìn)行巖體開挖和加固支護(hù)設(shè)計(jì)、快速安全施工以及建筑物安全運(yùn)行必不可少的條件。
國(guó)內(nèi)外學(xué)者提出的各種圍巖分類方法中,有定性的、定量或半定量的以及單一因素的分類方法,也有考慮多因素的綜合分類方法,發(fā)展的趨勢(shì)是從定性向定性與定量相結(jié)合。目前常用的圍巖分類方法有:水電圍巖分類法(HC法)x、國(guó)標(biāo)分類法(BQ法)、巴頓巖體質(zhì)量分類法(Q分類)以及RMR法x等。但巖體是復(fù)雜的地質(zhì)體,上述方法考慮的評(píng)判指標(biāo)不夠全面,評(píng)分主觀性較大,忽略了影響巖體質(zhì)量分級(jí)的不確定性、復(fù)雜性和模糊性等因素,進(jìn)而影響對(duì)圍巖的準(zhǔn)確認(rèn)識(shí)和分類。
許傳華等采用模糊綜合評(píng)判方法,對(duì)圍巖穩(wěn)定性進(jìn)行評(píng)價(jià)。儲(chǔ)漢東等運(yùn)用灰色關(guān)聯(lián)方法構(gòu)建了基于層次分析的灰色關(guān)聯(lián)模型(GAM),從而對(duì)巖體質(zhì)量進(jìn)行評(píng)價(jià)。李天斌等將自適應(yīng)共振理論(ART)神經(jīng)網(wǎng)絡(luò)模型用于隧道圍巖分類。這些方法在圍巖分類評(píng)判中取得了許多成果,但還存在一些不足之處,如模糊理論在確定分類指標(biāo)權(quán)值時(shí)存在主觀性,灰色理論的準(zhǔn)確性和使用的簡(jiǎn)便性尚待商榷。神經(jīng)網(wǎng)絡(luò)是基于大樣本的一種分析方法,存在收斂速度慢、局部最小非全局最優(yōu)、推廣能力差等問題。支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種新的機(jī)器學(xué)習(xí)方法,具有嚴(yán)格的理論基礎(chǔ),能很好地解決小樣本、非線性、高維數(shù)和局部極小等問題x。二叉樹法的初始分類精度較高、分類速度快,筆者提出一種基于數(shù)據(jù)挖掘技術(shù)的二叉樹支持向量機(jī)圍巖分類方法,以期更加完善巖體分級(jí)方法,為施工提供更科學(xué)的指導(dǎo)。
1支持向量機(jī)方法簡(jiǎn)介
支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)是由Vapnik及其領(lǐng)導(dǎo)的貝爾實(shí)驗(yàn)室的研究小組開發(fā)的一種機(jī)器學(xué)習(xí)技術(shù),具有堅(jiān)實(shí)的理論基礎(chǔ),且在眾多領(lǐng)域表現(xiàn)出良好的推廣性能。支持向量機(jī)方法采用了核映射的思想,低維空間線性不可分情形通過非線性映射到高維特征來實(shí)現(xiàn)線性可分。與傳統(tǒng)方法相比,支持向量機(jī)方法克服了傳統(tǒng)方法的大樣本要求以及神經(jīng)網(wǎng)絡(luò)等方法的固有缺陷,解決了維數(shù)災(zāi)難及局部極小問題,并在處理非線性問題時(shí)顯示了其卓越的優(yōu)越性。
1.1支持向量機(jī)原理
支持向量機(jī)分類即尋找最優(yōu)超平面(圖1),等價(jià)于求解正反例間隔最大化的問題,最終歸結(jié)為一個(gè)二次規(guī)劃問題(圖2),用Lagrange方法來求解。
通過引入核函數(shù),避免了在高維空間上的復(fù)雜計(jì)算,非線性問題便可采用線性可分的思想解決。
1.2二叉樹分類器構(gòu)造方法
標(biāo)準(zhǔn)的支持向量機(jī)(SVM)算法是針對(duì)兩類問題,但工程實(shí)踐中常遇到多分類的問題,所以如何將支持向量機(jī)算法推廣到多分類問題上,是目前研究的一個(gè)熱點(diǎn)。訓(xùn)練算法改進(jìn)的思路是將問題分解成一系列子問題,然后通過求解子問題,來實(shí)現(xiàn)原問題的求解。
常見的多分類支持向量機(jī)方法有一對(duì)多(1-a-r)、一對(duì)一(1-a-1),但一對(duì)多和一對(duì)一方法存在推廣誤差無界、分類精度不高等問題。二叉樹分類法具有初始分類精度高、分類速度快的特征。本文采用的二叉樹分類法見圖3。
1.3二叉樹支持向量機(jī)模型
根據(jù)二叉樹分類法,利用SVM算法依次構(gòu)造分類所需的二叉樹節(jié)點(diǎn)。先以第一類樣本作為正樣本集,其余樣本為負(fù)樣本集,利用SVM訓(xùn)練算法構(gòu)造根節(jié)點(diǎn)處的SVM1子分類器,這樣就可分出第一類樣本及其余樣本;然后對(duì)其余樣本進(jìn)行第二次分類,構(gòu)建SVM2子分類器,重復(fù)以上步驟,直至將第k類樣本作為正樣本集,將第k+1,k+2,…,n類樣本作為負(fù)的樣本集,訓(xùn)練SVM后子分類器;依此類推,直到(n-1)個(gè)子分類器將第(n-1)類和第n類分開,這樣就可完成多分類問題的識(shí)別,輸出分類結(jié)果。
2數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)是20世紀(jì)中期發(fā)展起來的一門信息技術(shù),是從大量數(shù)據(jù)中挖掘隱含的、未知的和對(duì)決策、預(yù)測(cè)有潛在價(jià)值的信息。IBM SPSSModeler是一個(gè)預(yù)測(cè)性分析平臺(tái),它擁有各種高級(jí)算法和技術(shù)(包括文本分析、實(shí)體分析、決策管理與優(yōu)化),具有可視化、流程化的集成開發(fā)環(huán)境,不須編程即可根據(jù)用戶需求建立用于決策支持的模型。IBM SPSSModeler軟件特點(diǎn)為:
(1)界面友好,操作簡(jiǎn)便。
(2)功能強(qiáng)大,具有完整的數(shù)據(jù)輸入、統(tǒng)計(jì)分析、圖形制作等功能。
(3)全面的數(shù)據(jù)接口,支持多種讀取、輸入文件格式。
(4)包含豐富的數(shù)據(jù)挖掘算法,方便用戶針對(duì)不同的業(yè)務(wù)需要采用不同的算法進(jìn)行數(shù)據(jù)分析處理。
3應(yīng)用實(shí)例及結(jié)果分析
3.1判別參數(shù)的選取
根據(jù)《工程巖體分級(jí)標(biāo)準(zhǔn)》(GB 50218-94)及國(guó)內(nèi)外圍巖分類的經(jīng)驗(yàn),并參照文獻(xiàn)中“鷓鴣山圍巖分類實(shí)施方案”,本文選定工程巖組、巖層厚度、巖體結(jié)構(gòu)類型、節(jié)理發(fā)育程度、嵌合情況、Rb值、RQD值、聲波波速Vp和地下水特征共9項(xiàng)指標(biāo)作為圍巖的分類指標(biāo)。選用文獻(xiàn)中的12組數(shù)據(jù)作為圍巖分類模型的學(xué)習(xí)、預(yù)測(cè)樣本。
3.2判別模型的建立
依據(jù)二叉樹支持向量機(jī)分類模型的構(gòu)建方法,用IBM SPSS Modeler專業(yè)數(shù)據(jù)挖掘工具構(gòu)建分類模型。以現(xiàn)場(chǎng)圍巖類別為目標(biāo)變量,以工程巖組、巖石厚度、巖體結(jié)構(gòu)類型、節(jié)理發(fā)育程度、嵌合情況、Rb值、RQD值、聲波波速Vp和地下水特征共9項(xiàng)作為輸入變量。以第1類樣本為正樣本集,其余樣本為負(fù)樣本集,依據(jù)二叉樹分類原理構(gòu)建數(shù)據(jù)流(圖4)。
(1)使用文獻(xiàn)的圍巖分類實(shí)例中具有代表性的樣本作為支持向量機(jī)的學(xué)習(xí)、預(yù)測(cè)樣本。
(2)按照二叉樹算法,訓(xùn)練5個(gè)二值分類器作為二叉樹分類節(jié)點(diǎn),用來分開Ⅰ類與Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類、Ⅵ類,Ⅱ類與Ⅲ類、Ⅳ類、Ⅴ類、Ⅵ類,Ⅲ類與Ⅳ類、Ⅴ類、Ⅵ類,Ⅳ類與Ⅴ類、Ⅵ類,Ⅴ類與Ⅵ類。每個(gè)分類器僅基于相應(yīng)的兩類問題進(jìn)行訓(xùn)練。
(3)應(yīng)用IBM SPSS Modeler,將源文件導(dǎo)入,增加相應(yīng)的模塊(SVM模塊),設(shè)置好核函數(shù)后,進(jìn)行預(yù)測(cè)分析。在輸出模塊中加入相應(yīng)模塊,運(yùn)行后就可以直觀看到系統(tǒng)預(yù)測(cè)的圍巖類別及其傾向得分。例如:在模型評(píng)估中選擇輸出預(yù)測(cè)變量重要性選項(xiàng),運(yùn)行后就可得到各輸入變量在預(yù)測(cè)分析現(xiàn)場(chǎng)圍巖類別判定中所占權(quán)重(表1)。
(4)根據(jù)二叉樹的分類方法建立5個(gè)SVM子分類器,即可得到多分類模型。綜合判斷后,可得系統(tǒng)推定的圍巖分類,并對(duì)比文獻(xiàn)所用的模糊推理圍巖分類判定結(jié)果,判別準(zhǔn)確率達(dá)100%。
3.3判別模型的檢驗(yàn)
利用學(xué)習(xí)好的支持向量機(jī)模型對(duì)剩下的6組樣本進(jìn)行判定,判別情況與實(shí)際情況完全相同。分類判定結(jié)果見表2(表內(nèi)各項(xiàng)為評(píng)分值)。
由判定結(jié)果可知,運(yùn)用數(shù)據(jù)挖掘技術(shù)建立的基于二叉樹支持向量機(jī)的圍巖分類模型判定結(jié)果和現(xiàn)場(chǎng)判定結(jié)果是完全吻合的,有更高的準(zhǔn)確率,是科學(xué)可行的。
4結(jié)論
(1)使用二叉樹的支持向量機(jī)分類法,通過IBMSPSS Modeler軟件構(gòu)建SVM分類擬合模型,實(shí)現(xiàn)人工智能方法尋求最優(yōu)超平面得到最優(yōu)類別劃分。該方法可以很好地解決圍巖分類問題的模糊性、復(fù)雜性和高度非線性的問題,實(shí)現(xiàn)對(duì)圍巖的類別劃分與預(yù)測(cè)。該機(jī)器學(xué)習(xí)分類方法能夠得到圍巖分類判別中各影響因素的權(quán)重指標(biāo),從而能夠?qū)φJ(rèn)識(shí)圍巖穩(wěn)定性作出更準(zhǔn)確的指導(dǎo)。
(2)經(jīng)過IBM SPSS Modeler數(shù)據(jù)挖掘工具,構(gòu)建SVM智能分類擬合模型,實(shí)現(xiàn)智能化決策輸出,形象直觀地對(duì)數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),操作簡(jiǎn)便,可視性強(qiáng),可以克服神經(jīng)網(wǎng)絡(luò)等方法推廣能力差的問題,相比模糊理論有更高的準(zhǔn)確性。實(shí)例判定結(jié)果證明,此方法對(duì)工程巖體進(jìn)行分級(jí)和分類是可行的,更為簡(jiǎn)潔,有廣闊的應(yīng)用前景。
[責(zé)任編輯 馬廣州]