文章編號(hào):1671-3559(2024)04-0496-07DOI:10.13349/j.cnki.jdxbn.20230913.001
摘要: 為了解決利用機(jī)器學(xué)習(xí)算法建立的部分砂土液化預(yù)測模型僅在特定地區(qū)實(shí)現(xiàn)高精確預(yù)測而泛化能力減弱的問題,從而擴(kuò)大砂土液化預(yù)測模型適用范圍,準(zhǔn)確預(yù)測砂土液化,以更好地防治地震災(zāi)害,基于類別型特征提升算法CatBoost并結(jié)合自動(dòng)超參數(shù)優(yōu)化框架Optuna進(jìn)行調(diào)參訓(xùn)練,建立CatBoost-Optuna砂土液化預(yù)測模型;將標(biāo)準(zhǔn)貫入試驗(yàn)的地震液化數(shù)據(jù)集劃分為訓(xùn)練集和測試集,利用5個(gè)評(píng)估指標(biāo)評(píng)估所建立模型的預(yù)測結(jié)果,與測試集中多層感知機(jī)和支持向量機(jī)砂土液化預(yù)測模型的評(píng)估結(jié)果相比較,并以地震液化案例數(shù)據(jù)作為驗(yàn)證集,對(duì)比不同預(yù)測模型的預(yù)測效果。結(jié)果表明: 與多層感知機(jī)和支持向量機(jī)砂土液化預(yù)測模型相比,所建立的模型在測試集中評(píng)估指標(biāo)較大,有更好的預(yù)測效果;在驗(yàn)證集中,所建立模型的評(píng)估指標(biāo)只有精準(zhǔn)率略微減小,其他評(píng)估指標(biāo)都保持穩(wěn)定,而對(duì)比模型的評(píng)估指標(biāo)只有召回率保持穩(wěn)定,其他評(píng)估指標(biāo)都有所減小,只有所建立模型的預(yù)測效果與在測試集中的預(yù)測效果保持一致,進(jìn)一步證明所建立模型的泛化能力較強(qiáng)。
關(guān)鍵詞: 巖土工程; 砂土液化預(yù)測; 機(jī)器學(xué)習(xí); CatBoost算法; Optuna框架; 泛化能力
中圖分類號(hào): TU441+.4
文獻(xiàn)標(biāo)志碼: A
開放科學(xué)識(shí)別碼(OSID碼):
Sand Liquefaction Prediction by Using CatBoost Algorithm
Combined with Optuna Framework
HE Jiazhi, FENG Xianda, LIU Tianqi
(School of Civil Engineering and Architecture, University of Jinan, Jinan 250022, Shandong, China)
Abstract: To solve the problem that some sand liquefaction prediction models built by using machine learning algorithms only achieved high accuracy in specific areas and had weak generalization ability, so as to expand applicability of the sand liquefaction prediction models and accurately predict sand liquefaction for better prevention and control of seismic hazards, a CatBoost-Optuna sand liquefaction prediction model was established on the basis of categorical feature boosting algorithm CatBoost combined with automatic hyper parameter optimization framework Optuna for parameter adjustment training. The seismic liquefaction dataset from the standard penetration test was divided into a training set and a test set, and prediction results of the established model were evaluated using five evaluation indexes. Evaluated results of multilayer perceptron and support vector machine sand liquefaction prediction models in the test set were compared, and the seismic liquefaction case data was used as a validation set to compare prediction effects of different prediction models. The results show that compared with multilayer perceptron and support vector machine sand liquefaction prediction models, the established model has larger evaluation indexes and better prediction effects in the test set. Inthevalidationset,onlypre-
收稿日期: 2023-04-08""""""""" 網(wǎng)絡(luò)首發(fā)時(shí)間:2023-09-14T14:19:51
基金項(xiàng)目: 國家自然科學(xué)基金項(xiàng)目(51809115); 山東省自然科學(xué)基金項(xiàng)目(ZR2019QEE003)
第一作者簡介: 何家智(1999—),男,四川涼山人。碩士研究生,研究方向?yàn)閹r土工程。E-mail: Jiazhi_He@outlook.com。
通信作者簡介: 馮現(xiàn)大(1985—),男,山東濰坊人。 副教授, 博士, 碩士生導(dǎo)師, 研究方向?yàn)樗淼罏?zāi)害預(yù)測及防治。 E-mail: cea_
fengxd@ujn.edu.cn。
網(wǎng)絡(luò)首發(fā)地址: https://link.cnki.net/urlid/37.1378.N.20230913.2005.002
cision rate among evaluation indexes of the established model slightly decreases, and other evaluation indexes remain stable, while only recall rate among evaluation indexes of the comparison models remains stable, and other evaluation indexes decrease. Only prediction effects of the established model remain consistent with those in the test set, which further demonstrates superior generalization ability of the established model.
Keywords: geotechnical engineering; sand liquefaction predication; machine learning; CatBoost algorithm; Optuna framework; generalization ability
砂土液化是飽和狀態(tài)砂土在地震或其他振動(dòng)作用下承載力突然減小乃至強(qiáng)度完全喪失而呈液態(tài)的現(xiàn)象。砂土液化引起的側(cè)向位移、 地面沉陷隆起、 噴水冒砂和地基失穩(wěn)等地質(zhì)災(zāi)害對(duì)建筑造成重大破壞。如何利用有限的巖土試驗(yàn)資料精準(zhǔn)預(yù)測砂土液化,是巖土工程領(lǐng)域中的重要課題。
砂土液化判別試驗(yàn)方法目前主要有標(biāo)準(zhǔn)貫入試驗(yàn)、 靜力觸探試驗(yàn)和剪切波速試驗(yàn)[1]。在基于試驗(yàn)數(shù)據(jù)以及砂土液化原理預(yù)測砂土液化的研究中,相對(duì)于利用數(shù)值模擬計(jì)算[2]和經(jīng)驗(yàn)公式判別[3-4],基于機(jī)器學(xué)習(xí)算法建立的預(yù)測模型的精度和效率更高。
砂土液化預(yù)測可看作二分類問題,即包含液化或非液化2種結(jié)果。通過收集、 整理歷史地震液化數(shù)據(jù)資料,從地震信息、 試驗(yàn)數(shù)據(jù)、 地層參數(shù)等多個(gè)角度選取判別特征,采用不同的算法建立預(yù)測模型。肖詩豪等[5]基于中國標(biāo)準(zhǔn)貫入試驗(yàn)的液化案例庫, 利用廣義線性模型給出了適用于砂土液化概率判別的最優(yōu)經(jīng)驗(yàn)?zāi)P汀?潘建平等[6]通過邏輯回歸分析200組場地液化實(shí)測數(shù)據(jù), 建立了關(guān)聯(lián)校正后的標(biāo)準(zhǔn)貫入次數(shù)與循環(huán)應(yīng)力比的液化概率模型。 邏輯回歸模型結(jié)構(gòu)簡明, 能高效計(jì)算液化發(fā)生概率, 但是對(duì)數(shù)據(jù)集敏感, 很難處理不平衡數(shù)據(jù)。 Chern等[7]采用模糊神經(jīng)網(wǎng)絡(luò)算法, 結(jié)合466組靜力觸探試驗(yàn)數(shù)據(jù)計(jì)算砂土液化概率。 林志紅等[8]基于貝葉斯正則化反向傳播神經(jīng)網(wǎng)絡(luò)算法, 判別福建省廈門市集美大橋新環(huán)島互通橋區(qū)的砂土液化。范珂顯[9]基于社會(huì)群體優(yōu)化算法調(diào)參的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò), 針對(duì)地震砂土液化側(cè)移問題建立預(yù)測模型。 神經(jīng)網(wǎng)絡(luò)是模仿人腦結(jié)構(gòu), 針對(duì)不完整的液化試驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練也能建立可靠模型的算法, 但是隨著數(shù)據(jù)復(fù)雜程度的增加, 過度訓(xùn)練擬合會(huì)導(dǎo)致模型泛化能力缺失。 胡記磊[10]基于貝葉斯網(wǎng)絡(luò)方法, 通過統(tǒng)計(jì)計(jì)量手段篩選地震液化的重要影響特征, 建立了地震液化的貝葉斯網(wǎng)絡(luò)預(yù)測模型。張紫昭等[11]基于貝葉斯判別分析理論, 以唐山大地震中21組典型砂土液化數(shù)據(jù)集為學(xué)習(xí)樣本, 建立了地震砂土液化預(yù)測判別模型。利用貝葉斯方法建立的預(yù)測模型有液化影響特征關(guān)系結(jié)構(gòu)圖,能深入分析各特征之間的結(jié)構(gòu)關(guān)系和對(duì)液化影響的強(qiáng)弱, 使預(yù)測結(jié)果有較高的準(zhǔn)確性和穩(wěn)健性, 但是在計(jì)算較復(fù)雜、 數(shù)據(jù)維數(shù)較高或數(shù)據(jù)量較大時(shí)效率較低。彭劉亞等[12]采用隨機(jī)森林算法, 以唐山大地震中72個(gè)場地的實(shí)測液化數(shù)據(jù)及選取的8個(gè)特征作為砂土液化的判別指標(biāo), 建立了砂土液化判別模型。 Liu等[13]基于225組歷史液化數(shù)據(jù), 將隨機(jī)森林算法用于基于剪切波速試驗(yàn)的砂土液化可能性評(píng)估。 隨機(jī)森林算法是一種集成算法,通過訓(xùn)練多個(gè)決策樹并加權(quán)組合而建立模型, 能有效降低過擬合風(fēng)險(xiǎn),但是基于特征較少的數(shù)據(jù)集的預(yù)測效果通常較差。 毛志勇等[14]采用粒子群算法調(diào)參支持向量機(jī)(support vector machine, SVM),并選用7個(gè)影響特征作為判別依據(jù),建立預(yù)測砂土地震液化模型。王帥偉等[15]以4個(gè)核心預(yù)測特征作為數(shù)據(jù)集,利用主成分分析法從核心評(píng)價(jià)指標(biāo)中提取主成分,采用遺傳算法調(diào)參SVM并訓(xùn)練數(shù)據(jù)集,建立砂土液化的預(yù)測模型。李冰瑤[16]基于歷史震后場地剪切波速試驗(yàn)資料,采用粒子群優(yōu)化算法調(diào)參的SVM進(jìn)行建模,以實(shí)現(xiàn)砂土液化預(yù)測。SVM可以很好地處理非線性、 高維數(shù)、 樣本量少等問題,但是對(duì)參數(shù)要求敏感,有時(shí)很難找到合適的核函數(shù)。
作為一種集成算法,CatBoost算法有較強(qiáng)的抗過擬合能力, 對(duì)數(shù)據(jù)有較強(qiáng)的處理能力, 并且分布式多核運(yùn)行能對(duì)特征實(shí)現(xiàn)并行處理以提高訓(xùn)練效率, 但是參數(shù)眾多會(huì)導(dǎo)致難以得到最優(yōu)參數(shù)組合。 本文中基于CatBoost算法并結(jié)合自動(dòng)超參數(shù)優(yōu)化算法框架Optuna進(jìn)行調(diào)參訓(xùn)練, 以增強(qiáng)預(yù)測泛化能力為調(diào)參目標(biāo), 在地震液化歷史數(shù)據(jù)集中訓(xùn)練, 建立CatBoost-Optuna砂土液化預(yù)測模型(簡稱本文模型),利用5個(gè)評(píng)估指標(biāo)評(píng)估本文模型的預(yù)測結(jié)果,并對(duì)比不同砂土液化預(yù)測模型的預(yù)測效果。
1" 數(shù)據(jù)集選擇
選用Cetin等[17]收集、 整理、 篩選的1944—1995年20余次地震液化數(shù)據(jù)作為原始數(shù)據(jù),如表1所示。 數(shù)據(jù)源位置主要分布在美國、 日本、 阿根廷、 中國、 菲律賓等。 在總計(jì)208個(gè)樣本中, 結(jié)果為發(fā)生液化的樣本個(gè)數(shù)為113, 未發(fā)生液化的樣本個(gè)數(shù)為95, 這些數(shù)據(jù)樣本中包含研究中廣泛采用的砂土液化影響特征。 收集的各歷史地震震級(jí)為5.6~8.0, 在收集、 整理過程中, 同樣考慮采用所有樣本結(jié)果為非液化的歷史地震, 以防止數(shù)據(jù)集欠采樣。
數(shù)據(jù)集中一部分樣本數(shù)據(jù)僅由單次標(biāo)準(zhǔn)貫入試驗(yàn)鉆孔得出,另一部分則由密集的標(biāo)準(zhǔn)貫入試驗(yàn)鉆孔得出,這將導(dǎo)致各案例樣本信息不均衡,因此把同一地點(diǎn)的鉆孔樣本數(shù)據(jù)分配至單個(gè)歷史地震,樣本可組合后共同定義地層信息,以降低單個(gè)樣本的貫入次數(shù)的不確定性。此外,由于這些液化數(shù)據(jù)的位置以及年代差異巨大,因此試驗(yàn)方法的誤差是導(dǎo)致不確定性更高的因素之一。校正后的標(biāo)準(zhǔn)貫入次數(shù)是貫入次數(shù)的加權(quán)平均,并且是有效法向應(yīng)力、 錘擊能量、 設(shè)備桿長、 設(shè)備取樣器和鉆孔直徑等試驗(yàn)變量的校正后的特征,因此在原始數(shù)據(jù)集中選擇校正后的標(biāo)準(zhǔn)貫入次數(shù)作為主要特征。
2" 算法原理
2.1" CatBoost算法
CatBoost算法是梯度提升算法發(fā)展、改進(jìn)的高性能機(jī)器學(xué)習(xí)算法[18]。梯度提升算法的數(shù)據(jù)集訓(xùn)練建模原理如圖1所示。首先在函數(shù)空間中計(jì)算
單
f1(x), f2(x), …, fl(x), …, fm(x)—各決策樹計(jì)算的預(yù)測值,l=1,2,…,m, m為預(yù)測值個(gè)數(shù); y—實(shí)際值。
個(gè)弱機(jī)器學(xué)習(xí)算法(如決策樹)的損失函數(shù),然后通過加權(quán)組合弱機(jī)器學(xué)習(xí)算法的方式減小損失函數(shù)值并不斷迭代,構(gòu)建強(qiáng)機(jī)器學(xué)習(xí)算法模型。梯度提升算法一直是訓(xùn)練具有異構(gòu)特征、 噪聲數(shù)據(jù)和解決復(fù)雜依賴關(guān)系預(yù)測問題的主要方法。
CatBoost算法在梯度提升算法基礎(chǔ)上,用預(yù)處理的方式在訓(xùn)練過程中處理分類特征,并利用排序提升策略解決梯度提升算法中存在的梯度偏差和預(yù)測偏移問題,同時(shí)選擇對(duì)稱決策樹結(jié)構(gòu)作為算法基本結(jié)構(gòu),計(jì)算并控制葉節(jié)點(diǎn)個(gè)數(shù),以加快所建模型的預(yù)測并避免過擬合。
CatBoost算法支持預(yù)處理類別特征,主要原理是有序目標(biāo)編碼,即隨機(jī)排序數(shù)據(jù)集中各樣本,然后每個(gè)類別特征使用放置在當(dāng)前樣本之前的樣本計(jì)算,將該類別特征轉(zhuǎn)換為數(shù)值特征。假設(shè)第k個(gè)樣本的第i個(gè)特征xi,k是類別特征,則轉(zhuǎn)換公式[18]為
xi,k=∑xi, j∈Dk
[xi,k=xi, j]yj+ap∑xi, j∈Dk
[xi,k=xi, j]+a ,(1)
式中: xi, j為第k個(gè)樣本之前第j個(gè)樣本的第i個(gè)類別特征; yj為第j個(gè)樣本的標(biāo)簽值; Dk為隨機(jī)排序中在第k個(gè)樣本之前的數(shù)據(jù)集; [·]為艾佛森括號(hào),當(dāng)xi,k與xi, j為同一類別,即xi,k=xi, j時(shí),[xi,k=xi, j]=1,當(dāng)xi,k與xi, j不為同一類別,即xi,k≠xi, j時(shí),[xi,k=xi, j]=0; p為添加的先驗(yàn)項(xiàng);a為通常大于0的權(quán)重系數(shù)。
類別特征的信息量對(duì)模型的運(yùn)行影響很大。CatBoost算法將數(shù)據(jù)集中每個(gè)類別特征分組排列、 存儲(chǔ),但是當(dāng)類別特征組合過多時(shí),模型的最終規(guī)模 仍急劇增長,因此類別特征的存儲(chǔ)容量取決于該特征所采用值的個(gè)數(shù)。通過在決策樹模型中劃分以減小模型的最終規(guī)模,最后考慮類別特征的潛在權(quán)重,選擇最佳劃分。在選擇如何劃分時(shí),所有劃分情況得分的計(jì)算公式[18]為
snew=sold1+uUM ,(2)
式中: snew為由類別特征或組合特征劃分的新得分; sold為特征劃分的舊得分; u為特征個(gè)數(shù); U為u的最大值,即特征所有可能組合的個(gè)數(shù); M為模型規(guī)模系數(shù)。比較不同劃分情況的得分,選擇具有最佳得分的劃分情況。
2.2" Optuna框架調(diào)參訓(xùn)練
設(shè)定算法的初始參數(shù)及變化范圍,并根據(jù)輸入的訓(xùn)練數(shù)據(jù)集調(diào)參以達(dá)到理想結(jié)果的過程稱為機(jī)器學(xué)習(xí)算法調(diào)參。本文中利用Optuna框架調(diào)參。利用Optuna框架編寫的調(diào)參過程具有很好的模塊性,可以實(shí)現(xiàn)動(dòng)態(tài)化的參數(shù)搜索。在整個(gè)模型訓(xùn)練過程中,利用Optuna框架觀察預(yù)測過程的中間結(jié)果并停止無希望的訓(xùn)練,優(yōu)化了參數(shù)選擇的效率。
3" 模型建立
3.1" 訓(xùn)練流程
本文模型的運(yùn)行環(huán)境為Python3.8,運(yùn)行的依賴代碼庫主要有Sklearn、 Numpy、 Matplotlib等。
本文中選擇具有較強(qiáng)抗過擬合風(fēng)險(xiǎn)的集成算法CatBoost,在高質(zhì)量數(shù)據(jù)集中將校正后的標(biāo)準(zhǔn)貫入次數(shù)作為主要影響特征,以曲線下面積(area under curve, AUC)為Optuna框架的調(diào)參目標(biāo),建立具有廣泛應(yīng)用潛力的本文模型。本文模型建立流程如圖2所示。首先處理原始數(shù)據(jù),利用CatBoost算法將類別特征轉(zhuǎn)化為數(shù)值特征,通過嵌入CatBoost算法中的特征重要性函數(shù),計(jì)算特征的影響因子并組合
各特征,得出最優(yōu)特征組合作為數(shù)據(jù)集, 按訓(xùn)練集與測試集樣本個(gè)數(shù)之比為7∶3隨機(jī)劃分?jǐn)?shù)據(jù)集; 然后利用Optuna框架調(diào)參CatBoost算法,并經(jīng)過交叉驗(yàn)證在訓(xùn)練集中確定最優(yōu)參數(shù)組合,從而建立本文模型,最后在測試集中預(yù)測并計(jì)算本文模型的評(píng)估指標(biāo)。
3.2" 數(shù)據(jù)處理
數(shù)據(jù)處理過程主要包括填充缺失值、 替換異常值、 去除重復(fù)值、 特征選擇等。本文中以每個(gè)特征的均值填補(bǔ)數(shù)據(jù)集中的缺失值,而數(shù)據(jù)未出現(xiàn)異常值和重復(fù)值,且未發(fā)生數(shù)據(jù)集不平衡的問題。
在特征選擇方面,有31個(gè)特征的原始數(shù)據(jù)集中有28個(gè)數(shù)值特征、 3個(gè)類別特征。 在計(jì)算相關(guān)性后, 將原始數(shù)據(jù)初次導(dǎo)入CatBoost算法, 類別特征轉(zhuǎn)換為數(shù)值特征并計(jì)算各特征的影響因子, 去除數(shù)據(jù)中相關(guān)性較強(qiáng)的冗余特征以及影響因子較小的特征。
通過組合數(shù)據(jù)集中的不同特征,利用特征重要性函數(shù)計(jì)算不同特征組合中各特征的影響因子,經(jīng)對(duì)比、 選擇,以校正后的標(biāo)準(zhǔn)貫入次數(shù)、 循環(huán)應(yīng)力比、 地震振幅、 震級(jí)、 液化臨界深度、 地下水深度、 垂直總應(yīng)力、 地震峰值加速度、 剪切波速、 中值粒徑、 細(xì)粒含量、 數(shù)據(jù)等級(jí)12個(gè)特征作為最優(yōu)特征組合。
再次使用特征重要性函數(shù)進(jìn)行計(jì)算,最優(yōu)特征組合中各特征的影響因子占影響因子之和的分?jǐn)?shù)如圖3所示。由圖可知,校正后的標(biāo)準(zhǔn)貫入次數(shù)作為主要特征對(duì)本文模型預(yù)測起關(guān)鍵作用,符合砂土液化判別基本原理。
占影響因子之和的分?jǐn)?shù)
3.3" 模型預(yù)測結(jié)果對(duì)比
采用準(zhǔn)確率、 精準(zhǔn)率、 召回率、 平衡F分?jǐn)?shù)、 AUC這5個(gè)指標(biāo)評(píng)估預(yù)測模型。 準(zhǔn)確率是測試集中預(yù)測正確的樣本個(gè)數(shù)占測試樣本總數(shù)的分?jǐn)?shù), 能反映總體預(yù)測情況; 精準(zhǔn)率是預(yù)測結(jié)果正確且發(fā)生液化的樣本個(gè)數(shù)占預(yù)測結(jié)果為發(fā)生液化的樣本個(gè)數(shù)的分?jǐn)?shù), 精準(zhǔn)率過小說明模型預(yù)測結(jié)果的誤判將造成過度設(shè)計(jì)損失; 召回率是預(yù)測結(jié)果正確且發(fā)生液化的樣本個(gè)數(shù)占真實(shí)發(fā)生液化的正樣本個(gè)數(shù)的分?jǐn)?shù), 可以確定預(yù)測模型的保守性, 以保證實(shí)際項(xiàng)目中的安全性; 平衡F分?jǐn)?shù)是精準(zhǔn)率與召回率的調(diào)和平均數(shù); 當(dāng)受試者工作特征曲線(receiveroperatingcharacteristiccurve,ROC曲線)的AUC為0.85~0.95時(shí),模型預(yù)測性能良好,根據(jù)ROC曲線能夠很容易確定任意閾值對(duì)模型泛化能力的影響。
在調(diào)參過程中,為了使模型有更強(qiáng)的泛化能力,利用Optuna框架進(jìn)行調(diào)參訓(xùn)練,以利用交叉驗(yàn)證計(jì)算得到較大AUC作為主要目標(biāo)。比較確定最優(yōu)參數(shù)組合后的本文模型與多層感知機(jī)和SVM這2個(gè)常用對(duì)比模型在測試集中的預(yù)測結(jié)果。
為了使各預(yù)測模型在測試集中的預(yù)測結(jié)果穩(wěn)定并避免訓(xùn)練過程的隨機(jī)誤差, 通過調(diào)整隨機(jī)數(shù)劃分不同訓(xùn)練集和測試集的方式進(jìn)行10次重復(fù)訓(xùn)練及測試。 測試集中不同砂土液化預(yù)測模型預(yù)測結(jié)果評(píng)估指標(biāo)的均值和標(biāo)準(zhǔn)差如表2所示。 由表可知, 在測試集中, 本文模型的預(yù)測評(píng)估指標(biāo)的均值都大于對(duì)比模型的, 而在各評(píng)估指標(biāo)中, 召回率較大, 說明本文模型在有較好預(yù)測效果的同時(shí)預(yù)測結(jié)果偏保守。
圖4所示為測試集中不同砂土液化預(yù)測模型預(yù)測結(jié)果評(píng)估指標(biāo)箱線圖, 箱體中線表示結(jié)果的中位數(shù), 箱體上下邊表示上下四分位數(shù), 上下邊緣表示上下限, 菱形點(diǎn)表示異常值。 由圖可知預(yù)測結(jié)果評(píng)估指標(biāo)的分布情況, 相比于多層感知機(jī), 本文模型和支持向量機(jī)預(yù)測結(jié)果評(píng)估指標(biāo)更穩(wěn)定。
圖5所示為不同砂土液化預(yù)測模型的ROC曲線。由圖可知,預(yù)測模型的AUC均大于0.85, 并且經(jīng)過調(diào)參的本文模型的AUC優(yōu)化到0.91,由此說明使用Optuna框架調(diào)參獲得了較理想的參數(shù)組合。
4" 案例預(yù)測
1999年9月21日,臺(tái)灣省南投縣集集鎮(zhèn)附近發(fā)生震級(jí)為7.6且震源深度為7.0 km的地震。之后當(dāng)日余震頻繁,影響最大的一次余震與主震間隔不到1 h且震級(jí)達(dá)6.8;次日上午再次發(fā)生6.8級(jí)余震。地震造成了極大的破壞,并伴隨砂土液化的現(xiàn)象。Hwang等[19]針對(duì)此次地震前后液化場地和非液化場地的地質(zhì)進(jìn)行調(diào)查并收集、 整理了相關(guān)數(shù)據(jù),本文中在數(shù)據(jù)處理后,以共計(jì)232組數(shù)據(jù)樣本作為驗(yàn)證集。
選擇與本文模型訓(xùn)練過程中相同的特征組合作為驗(yàn)證集,并換算各特征的計(jì)量單位,再利用極小值填補(bǔ)缺失值。完成數(shù)據(jù)處理后,利用本文模型以及相同訓(xùn)練條件下的對(duì)比模型進(jìn)行預(yù)測并對(duì)比預(yù)測結(jié)果的評(píng)估指標(biāo),結(jié)果如表3所示。對(duì)比表2、 3可知:本文模型只有精準(zhǔn)率略微減小,其他評(píng)估指標(biāo)都保持穩(wěn)定,而對(duì)比模型的評(píng)估指標(biāo)中只有召回率保持穩(wěn)定,其他評(píng)估指標(biāo)都有所減小,說明各預(yù)測模型的預(yù)測結(jié)果較保守,并且只有本文模型能在驗(yàn)證集中保持較好的預(yù)測效果,對(duì)比模型的預(yù)測效果均有不同程度的劣化。
5" 結(jié)語
本文中基于CatBoost算法并結(jié)合Optuna框架調(diào)參,以208個(gè)標(biāo)準(zhǔn)貫入試驗(yàn)地震液化樣本作為數(shù)據(jù)集并以實(shí)現(xiàn)強(qiáng)泛化能力為目標(biāo),建立CatBoost-Optuna砂土液化預(yù)測模型,并利用5個(gè)評(píng)估指標(biāo)與相同訓(xùn)練條件下基于2種常用機(jī)器學(xué)習(xí)算法所建預(yù)測模型的預(yù)測結(jié)果相對(duì)比。砂土液化影響特征眾多且具有多維性和非線性的復(fù)雜關(guān)系。當(dāng)預(yù)測訓(xùn)練數(shù)據(jù)集外的案例數(shù)據(jù)時(shí),基于常用機(jī)器學(xué)習(xí)算法所建對(duì)比模型預(yù)測效果明顯劣化,而本文模型的預(yù)測結(jié)果準(zhǔn)確、穩(wěn)定,表明本文模型有較強(qiáng)的泛化能力,能有效地分析實(shí)際工程項(xiàng)目,以防治地震引起的砂土液化地質(zhì)災(zāi)害,減輕建筑物的不均勻沉降。
進(jìn)一步提升砂土液化預(yù)測模型在各方面的預(yù)測效果,在建設(shè)場地中實(shí)際發(fā)揮作用,需要在收集更多砂土液化特征數(shù)據(jù)、 提高數(shù)據(jù)集的質(zhì)量等方面作出努力;此外,改進(jìn)算法并結(jié)合砂土液化原理進(jìn)行建模預(yù)測也有待進(jìn)一步研究。
參考文獻(xiàn):
[1]" 袁曉銘, 曹振中. 砂礫土液化判別的基本方法及計(jì)算公式[J]. 巖土工程學(xué)報(bào), 2011, 33(4): 509.
[2]" 葉斌, 宋思聰, 倪雪倩. 制樣方法對(duì)砂土液化力學(xué)性質(zhì)影響的離散元模擬[J]. 同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 50(7): 998.
[3]" SEED B H, TOKIMATSU K, HARDER L F, et al. Influence of SPT procedures in soil liquefaction resistance evaluations[J]. Journal of Geotechnical Engineering, 1985, 111(12): 1425.
[4]" 張思宇, 李兆焱, 袁曉銘. 基于靜力觸探試驗(yàn)的液化判別新方法[J]. 巖土力學(xué), 2022, 43(6): 1596.
[5]" 肖詩豪, 程小久, 汪華安, 等. 基于標(biāo)貫試驗(yàn)的砂土液化概率判別法[J]. 土木與環(huán)境工程學(xué)報(bào)(中英文), 2022, 44(5): 87.
[6]" 潘建平, 孔憲京, 鄒德高. 基于Logistic回歸模型的砂土液化概率評(píng)價(jià)[J]. 巖土力學(xué), 2008, 29(9): 2567.
[7]" CHERNSG,LEECY,WANG C C. CPT-based liquefaction assessment by using fuzzy-neural network[J]. Journal of Marine Science and Technology, 2008, 16(2): 139.
[8]" 林志紅, 項(xiàng)偉. 基于貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)的砂土地震液化研究[J]. 安全與環(huán)境工程,2011, 18(2): 23.
[9]" 范珂顯. 基于SGO-RBF神經(jīng)網(wǎng)絡(luò)的地震液化側(cè)移預(yù)測[D]. 武漢: 中國地震局地震研究所, 2021.
[10]" 胡記磊. 基于貝葉斯網(wǎng)絡(luò)的地震液化風(fēng)險(xiǎn)分析模型研究[D]. 大連: 大連理工大學(xué), 2016.
[11]" 張紫昭, 陳巨鵬, 陳凱, 等. 砂土地震液化預(yù)測的Bayes判別模型及其應(yīng)用[J]. 桂林理工大學(xué)學(xué)報(bào), 2014, 34(1): 63.
[12]" 彭劉亞, 解惠婷, 馮偉棟. 基于隨機(jī)森林算法的砂土液化預(yù)測方法[J]. 物探與化探, 2020, 44(6): 1429.
[13]" LIU L, ZHANG S S, YAO X F, et al. Liquefaction evaluation based on shear wave velocity using random forest[J]. Advances in Civil Engineering, 2021, 2021: 1.
[14]" 毛志勇, 黃春娟, 路世昌. 基于PSO-SVM的砂土地震液化預(yù)測模型[J]. 中國安全科學(xué)學(xué)報(bào), 2018, 28(3): 25.
[15]" 王帥偉, 于少將, 李紹康,等. 基于RS-PCA-GA-SVM的砂土液化預(yù)測方法研究[J]. 地震工程學(xué)報(bào), 2019, 41(2): 445.
[16]" 李冰瑤. 基于剪切波速和支持向量機(jī)的砂土地震液化預(yù)測研究[D]. 長春: 吉林建筑大學(xué), 2020.
[17]" CETIN K O, SEED R B, KAYEN R E, et al. SPT-based probabilistic and deterministic assessment of seismic soil liquefaction triggering hazard[J]. Soil Dynamics and Earthquake Engineering, 2018, 115:708.
[18]" PROKHORENKOVAL,GUSEVG,VOROBEVA,etal.CatBoost: unbiased boosting with categorical features[EB/OL]. (2019-01-20) [2023-01-08]. https://doi.org/10.48550/arXiv.1706.09516.
[19]" HWANG J H, YANG C W. Verification of critical cyclic strength curve by Taiwan Chi-Chi earthquake data[J]. Soil Dynamics and Earthquake Engineering, 2001, 21(3): 243-247.
(責(zé)任編輯:王" 耘)