亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林算法的砂土液化預測方法

        2021-01-05 09:05:44彭劉亞解惠婷馮偉棟
        物探與化探 2020年6期
        關(guān)鍵詞:砂土決策樹液化

        彭劉亞,解惠婷,馮偉棟

        (安徽省地震局 安徽省地震工程研究院,安徽 合肥 230031)

        0 引言

        砂土液化通常是指在地震作用下,飽和砂土(或粉土) 由于有效應(yīng)力減小所導致的從固態(tài)到液態(tài)的變化現(xiàn)象[1]。發(fā)生較大震級的地震時,砂土液化容易引起地基承載力降低,造成地面沉陷、滑坡、冒水噴砂、建筑物受損等災害[2],如1975年海城 7.3級地震、1976年唐山7.8級地震、1978 年日本Miyagiken-okij7.4級地震、1995年日本阪神7.3級地震、2008年汶川8.0級地震[3-4]中均出現(xiàn)了大面積的砂土液化現(xiàn)象。因此,研究砂土液化的影響因素,建立合理的預測模型,快速判斷是否存在砂土液化現(xiàn)象,在一定程度上能夠有效地防治砂土液化帶來的地震地質(zhì)災害。

        傳統(tǒng)液化判別和危害程度評價方法大多是基于宏觀地震災害現(xiàn)象資料,結(jié)合現(xiàn)場試驗和室內(nèi)試驗結(jié)果,通過總結(jié)分析和統(tǒng)計得出的一般規(guī)律[5]。如根據(jù)剪切波速法、標準貫入法及靜力觸探法等得出的結(jié)果與規(guī)范中給出的臨界值比較,從而判別是否液化。國內(nèi)外用于砂土液化的判別方法種類繁多,但由于砂土液化的影響因素多且復雜,因此每種方法都有一定的適用范圍和局限性。

        砂土液化問題本質(zhì)上可視為機器學習中的分類問題。近些年來,更多的國內(nèi)外學者在理論方法和實測數(shù)據(jù)的基礎(chǔ)上,綜合多個砂土液化的影響因子,采用不同的分類算法研究砂土液化判別問題。如人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機[7]、距離判別法[8]、Fisher判別模型[9]等方法都被應(yīng)用到砂土液化預測中。但由于地震作用的隨機性、土層參數(shù)的多樣性,以及沒有足夠多的樣本數(shù)據(jù)支撐,使得這些算法均存在一定程度上的局限性,如容易陷入局部極小值,或存在過擬合現(xiàn)象。筆者整理了唐山大地震的砂土液化現(xiàn)場資料,選取了其中的72個場地的實際數(shù)據(jù),采用機器學習中的隨機森林分類算法,并通過數(shù)據(jù)留出集與交叉驗證的測試方式降低模型的過度學習能力,防止出現(xiàn)過擬合現(xiàn)象,一定程度上提高了模型預測的穩(wěn)定性。

        1 隨機森林算法的基本原理

        隨機森林算法是機器學習當中比較常用的分類算法,包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定[10]。因此,有必要簡單地介紹下決策樹的分類算法和原理。

        1.1 決策樹分類原理

        決策樹(decision tree,DT)是一種常用的分類方法,它通過將大量無規(guī)則無次序的數(shù)據(jù)集進行分類、聚類和預測建模,構(gòu)造樹狀結(jié)構(gòu)的分類規(guī)則,從而對樣本進行分類或預測[11]。圖1為單個決策樹二分類模型的示意,圖中最頂端的為根節(jié)點,包含了所有樣本數(shù)據(jù),根據(jù)該根節(jié)點的某一個屬性將數(shù)據(jù)分成中間層的子節(jié)點;以此類推,自上而下,從而劃分數(shù)據(jù)的所屬類別,即葉子節(jié)點。因此,構(gòu)造決策樹的關(guān)鍵在于在當前狀態(tài)下選取合適的屬性作為劃分數(shù)據(jù)類別的節(jié)點,按照一定的目標函數(shù)(如信息熵、Gini系數(shù)等)下降最快的方式到達葉子結(jié)點,從而對數(shù)據(jù)類別進行最終判斷。

        圖1 決策樹分類模型示意Fig.1 Decision tree classification model sketch

        常見的決策樹算法主要有基于信息熵的ID3算法、基于信息增益比的C4.5算法和基于Gini系數(shù)的CART算法。其中C4.5算法在ID3算法基礎(chǔ)之上,用信息增益比替代了信息增益,改善了ID3算法由于信息增益在可取數(shù)值數(shù)目較多的屬性上存在的傾向性問題。

        本文采用的是二叉樹CART算法,該算法主要以Gini系數(shù)作為分裂標準,選擇具有最小Gini系數(shù)的屬性作為節(jié)點,節(jié)點處的Gini系數(shù)值越小,說明該節(jié)點數(shù)據(jù)類別越少,數(shù)據(jù)集不純度越低,越有利于劃分類別。因此構(gòu)造CART決策樹的過程實質(zhì)上就是層層遞歸直到某節(jié)點Gini系數(shù)最低,即認為該節(jié)點可視為葉子節(jié)點,從而對樣本數(shù)據(jù)集進行分類。

        假設(shè)數(shù)據(jù)集D(X,Y)包含m個類別的樣本,樣本數(shù)量為K,則數(shù)據(jù)集D的Gini系數(shù)值定義為[10]:

        (1)

        式中,p(i|t)表示節(jié)點t處當前數(shù)據(jù)集中類別i的概率。Gini值直觀地反映了從數(shù)據(jù)集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此,該值越小,則表示數(shù)據(jù)集D的純度越高。而CART算法將數(shù)據(jù)集D按照某個特征A劃分為兩個子數(shù)據(jù)集D1和D2,則此時在特征A條件下,數(shù)據(jù)集D的Gini系數(shù)值定義如下:

        (2)

        CART算法根據(jù)某個特征取值下當前數(shù)據(jù)集的最小Gini系數(shù)將數(shù)據(jù)集劃分,生成左右兩個子節(jié)點,再分別對兩個子節(jié)點當中的數(shù)據(jù)集執(zhí)行相同操作,層層遞歸,直至葉子節(jié)點。不難發(fā)現(xiàn),當決策樹的高度無限制地生長時,必然能使得Gini系數(shù)為零,此時一定可以將訓練數(shù)據(jù)當中的每個樣本都能精確地劃分類別。因此,不可避免地帶來模型的過擬合問題,使得模型的預測能力下降或不穩(wěn)定。

        1.2 隨機森林分類原理

        隨機森林(random forest,RF)是在決策樹分類器的基礎(chǔ)之上,通過隨機有放回采樣對數(shù)據(jù)集當中的樣本以及特征進行選取,構(gòu)造多個決策樹,并由各決策樹分類結(jié)果的眾數(shù)決定最終的類別劃分,從而降低單個決策樹的過擬合風險。圖2為隨機森林的分類原理示意,主要包括了以下幾個步驟[10]:

        圖2 隨機森林分類模型示意Fig.2 Random forest classification model sketch

        1)從包含M個特征的總樣本數(shù)據(jù)集D中采用有放回采樣隨機選取k個子訓練集(D1,D2,…,Dk),用于構(gòu)造k個決策樹。

        2)對每個決策樹的每個節(jié)點,隨機選取n個特征(n應(yīng)小于M)計算當前的Gini系數(shù)作為分裂子節(jié)點的優(yōu)選特征,讓決策樹完整生長,直至Gini系數(shù)最小到達葉子節(jié)點。

        3)遍歷所有決策樹,得到每個決策樹的分類結(jié)果,采取眾數(shù)投票結(jié)果作為最終的分類模型,對未知數(shù)據(jù)進行預測。

        2 隨機森林砂土液化預測模型

        2.1 砂土液化判別指標

        2.2 數(shù)據(jù)預處理

        2.2.1 數(shù)據(jù)標準化

        由于各指標之間的量級差異比較明顯,因此需要進行標準化處理以消除量綱的影響。本次采用式(3)所示的z-score法進行標準化:

        (3)

        式中:μ和σ分別為樣本均值和標準差。標準化之后的數(shù)據(jù)無量綱,均值為0,標準差為1。

        2.2.2 數(shù)據(jù)集劃分

        為了提高模型的泛化能力,避免由于樣本量過少帶來的過擬合現(xiàn)象,本次將72個樣本劃分成訓練樣本集(64個樣本,見表1,由于篇幅限制,這里僅給出部分數(shù)據(jù))和測試樣本集(8個樣本,見表2)。其中測試樣本集不參與決策樹和隨機森林的學習訓練過程,僅作為未知樣本驗證模型的預測能力。

        2.2.3 學習過程

        對于隨機森林算法中的單棵決策樹來說,對當前數(shù)據(jù)集選擇某一種屬性特征計算Gini系數(shù)作為分裂子節(jié)點的優(yōu)選特征。圖3所示為砂土液化預測單棵6層決策樹模型。首先,選定歸一化后的標準貫入擊數(shù)N63.5(x6)作為根節(jié)點,以x6≤-0.054為判定條件計算Gini系數(shù)為 0.451,此時64個樣本被劃分為兩類,分別為22個和42個。以此為根節(jié)點,生長決策樹,產(chǎn)生第二層子節(jié)點,其中左節(jié)點以x4≤0.129為判定條件,選擇地下水位dw為優(yōu)選特征,樣本分別為5個和35個,而右節(jié)點選擇以x7≤1.473為判定條件,選擇剪應(yīng)力與有效上覆應(yīng)力比為優(yōu)選特征,樣本分別為17個和7個;兩個子節(jié)點的Gini系數(shù)分別為0.219和0.413。相對于根節(jié)點的數(shù)據(jù)集而言,不純度降低,說明決策樹的生長方向是有利于類型劃分的。以此類推,直到數(shù)據(jù)集的Gini系數(shù)為零,決策樹終止生長。不難發(fā)現(xiàn),隨著決策樹的高度增加,當前數(shù)據(jù)集的樣本量也在減少,因此需要注意的是:當不對決策樹的高度和當前節(jié)點的最小樣本量加以控制時,決策樹的規(guī)模和計算量會相應(yīng)地增加,雖然最終能夠?qū)γ恳粋€樣本進行準確地類型劃分,但不可避免地增加了過擬合的風險。因此有必要抑制決策樹的生長,對模型進行適當?shù)膬?yōu)化。而隨機森林算法在決策樹的基礎(chǔ)上增加了多個分類器模型,避免了單棵決策樹由于分類過度帶來的過擬合風險。

        表1 砂土液化訓練樣本集

        表2 砂土液化測試樣本集

        圖3 決策樹分類過程示意Fig.3 Decision tree classification process

        2.3 模型優(yōu)化

        2.3.1 剪枝處理

        雖然隨機森林相比于單個決策樹分類器來說,通過眾數(shù)投票的方式在一定程度上能夠避免過擬合問題,但如果隨機森林當中的每個決策樹不加以控制和修剪,必然會帶來總體的預測誤差及不穩(wěn)定性。因此,適當?shù)貙Q策樹的生長加以控制,能夠提高最終模型的預測穩(wěn)定性。本次采取預剪枝方法控制決策樹的高度和最大葉子節(jié)點數(shù)[11]來控制決策樹的生長,防止出現(xiàn)過擬合現(xiàn)象。

        2.3.2 交叉驗證

        在樣本量不足夠多的情況下,如果將訓練集全部參與學習訓練,必然導致學習能力過剩和模型的過擬合。因此,有必要使用留出集的方式從訓練集當中隨機選取部分數(shù)據(jù)作為驗證集,通過多次交叉驗證的方式,讓數(shù)據(jù)的每個子集既是訓練集,又是驗證集,從而更好地評估模型性能和穩(wěn)定性。圖4為五輪交叉驗證的示意。

        圖4 交叉驗證示意Fig.4 Cross-validation sketch

        2.4 預測結(jié)果

        設(shè)置隨機森林模型中決策樹的個數(shù)范圍為10~50,決策樹的最大高度范圍為1~10,利用網(wǎng)格搜索和10次交叉驗證法,獲得本次砂土液化預測模型的最優(yōu)參數(shù),其中,決策樹的個數(shù)為20,最大高度為5。圖5為本次基于隨機森林模型的砂土液化的預測結(jié)果,包括了64個訓練樣本和8個測試樣本的結(jié)果。為了更好地說明模型的優(yōu)越性,本次也加入了《建筑抗震設(shè)計規(guī)范 GB50011-2010》(2016年版)中基于標貫試驗的判別法[12]進行對比。

        圖5 模型訓練(a)及預測結(jié)果(b)Fig.5 Training results(a) and test results(b) of prediction model

        圖5中空心圓表示實測液化結(jié)果,實心圓表示不同方法的預測結(jié)果。不難發(fā)現(xiàn),抗震規(guī)范中的基于標貫試驗的計算公式誤判率較高,在訓練樣本上有13個樣本誤判,誤判率為20.3%,在預測樣本上有2個樣本誤判,誤判率為25%。而決策樹和隨機森林模型的訓練結(jié)果和預測結(jié)果明顯高于規(guī)范公式的計算結(jié)果,在預測樣本上均沒有出現(xiàn)誤判。但單個決策樹模型在訓練樣本上有5個樣本誤判,誤判率為7.8%,穩(wěn)定性明顯不如隨機森林預測模型。

        3 結(jié)論

        本文選取了8個影響砂土液化的判別指標,以唐山大地震中72個場點液化情況的實測樣本為例,探討了機器學習中的決策樹和隨機森林模型在砂土液化預測中的可行性。研究結(jié)果表明,與抗震規(guī)范中的標貫試驗判別公式相比,決策樹和隨機森林預測模型的成功率有了明顯的提高,尤其是隨機森林預測模型,在多個決策樹分類的基礎(chǔ)上降低了樣本學習的過擬合風險,提高了模型的預測穩(wěn)定性,可以在今后砂土液化判別工作中予以推廣。

        猜你喜歡
        砂土決策樹液化
        飽和砂土地層輸水管道施工降水方案設(shè)計
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        龍之中華 龍之砂土——《蟠龍壺》創(chuàng)作談
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        辨析汽化和液化
        面部液化隨意改變表情
        基于決策樹的出租車乘客出行目的識別
        煤的液化原理及應(yīng)用現(xiàn)狀
        城市淺埋隧道穿越飽和砂土復合地層時適宜的施工工法
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        国产精品久久久久一区二区三区 | 日韩高清无码中文字幕综合一二三区 | 无码国产一区二区三区四区| 久久精品无码一区二区2020| 色欧美与xxxxx| 免费国产在线精品三区| 高清在线有码日韩中文字幕| 精品一区二区三区免费视频| 国内精品久久久久久久影视麻豆| 国产做床爱无遮挡免费视频| 成人激情视频在线手机观看| 国产精品久久久久免费观看| 少妇邻居内射在线| 亚洲AV秘 无码一区二区久久| 精品嫩模福利一区二区蜜臀| 色诱视频在线观看| 久久99国产亚洲高清观看韩国| 国产精品亚洲av国产| 黄射视频在线观看免费| 日本久久高清一区二区三区毛片| 日韩免费一区二区三区在线| 久久99精品波多结衣一区| 国产一区二区三区在线观看黄| 亚洲精品无码不卡在线播he| 成人区人妻精品一熟女| AV无码最在线播放| 国产三级黄色的在线观看| 亚洲福利一区二区不卡| 99久久婷婷亚洲综合国产| 精品国产免费一区二区三区香蕉| 高中生粉嫩无套第一次| 精品久久杨幂国产杨幂| 老男人久久青草AV高清| 一本大道在线一久道一区二区| 白色白色视频在线观看| 少妇高潮av久久久久久| 欧美精品中文字幕亚洲专区| 亚洲高清无码第一| 白嫩少妇在线喷水18禁| 亚洲综合另类小说色区| 无码人妻黑人中文字幕|