劉 映 ,王寒梅
(上海市地質(zhì)調(diào)查研究院, 上海 200072)
上海地質(zhì)資料信息專(zhuān)業(yè)技術(shù)服務(wù)平臺(tái)通過(guò)地質(zhì)資料匯交管理機(jī)制,構(gòu)建起覆蓋全市的巖土工程勘察資料數(shù)據(jù)庫(kù),并向社會(huì)提供基礎(chǔ)地質(zhì)信息服務(wù)[1]。隨著社會(huì)經(jīng)濟(jì)發(fā)展,城市規(guī)劃設(shè)計(jì)和建設(shè)對(duì)地質(zhì)研究提出更高要求,要求更全面、更精細(xì)、更便捷的地質(zhì)信息服務(wù)。
由于地下地質(zhì)結(jié)構(gòu)的不可見(jiàn)性及復(fù)雜性,區(qū)域地質(zhì)研究除了需要開(kāi)展野外調(diào)查工作外,還需要充分利用現(xiàn)有地質(zhì)資料,準(zhǔn)確刻畫(huà)區(qū)域內(nèi)的地質(zhì)特征。如何將機(jī)器學(xué)習(xí)方法引入到地質(zhì)問(wèn)題的研究中,已成為近來(lái)地學(xué)領(lǐng)域的研究熱點(diǎn)。區(qū)域地質(zhì)分層是三維地質(zhì)建模和可視化的基礎(chǔ),在區(qū)域工程地質(zhì)研究中,傳統(tǒng)的地質(zhì)分層方法通常倚賴(lài)人工解釋和經(jīng)驗(yàn)判斷,必須進(jìn)行大量的人工交互,需經(jīng)過(guò)屢次的對(duì)比和修改,才能最終完成,而且存在諸如過(guò)程繁瑣、工作量巨大、受人為因素影響顯著等缺點(diǎn)。
近年來(lái),隨著以機(jī)器學(xué)習(xí)為核心的人工智能技術(shù)迅猛發(fā)展,機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域取得了突破性進(jìn)展,在某些方面,它們的表現(xiàn)甚至已經(jīng)超越了人類(lèi)水平,這些技術(shù)的應(yīng)用為地質(zhì)學(xué)研究帶來(lái)了全新的可能性。通過(guò)將機(jī)器學(xué)習(xí)算法應(yīng)用于地質(zhì)數(shù)據(jù),地學(xué)家們能夠識(shí)別潛在的地質(zhì)模式,并提供更精確的地質(zhì)預(yù)測(cè)。例如,利用機(jī)器學(xué)習(xí)方法進(jìn)行地層類(lèi)型序列模型和地層厚度序列模型構(gòu)建,從而建立一個(gè)用于模擬地質(zhì)地層序列的機(jī)器學(xué)習(xí)模型[2],利用深度神經(jīng)網(wǎng)絡(luò)對(duì)地震相分類(lèi)從而判斷巖層類(lèi)型[3],利用隨機(jī)森林等機(jī)器學(xué)習(xí)方法對(duì)三維地質(zhì)模型進(jìn)行地層分類(lèi)[4],都取得了一定的成果。
本文提出了基于機(jī)器學(xué)習(xí)的區(qū)域工程地質(zhì)分層思路。首先依據(jù)上海市相關(guān)規(guī)范,構(gòu)建區(qū)域分層模型,在此框架下對(duì)于靜力觸探數(shù)據(jù),將地層分層問(wèn)題轉(zhuǎn)換為序列到序列的地質(zhì)體空間單元預(yù)測(cè)任務(wù),對(duì)于取土孔數(shù)據(jù),結(jié)合野外編錄,提取土樣的分層特征后,將地層分層問(wèn)題轉(zhuǎn)換為地質(zhì)屬性特征分類(lèi)任務(wù)。本文主要?jiǎng)?chuàng)新是提出區(qū)域工程的整體分層的實(shí)現(xiàn)方法,并經(jīng)過(guò)初步實(shí)驗(yàn),證明了方法的可行性,提出對(duì)靜力觸探數(shù)據(jù)的一維卷積處理以及基于多個(gè)土工試驗(yàn)參數(shù),計(jì)算土樣力學(xué)指標(biāo)綜合值,從而有效增強(qiáng)數(shù)據(jù)特征,提升模型準(zhǔn)確度。
基于機(jī)器學(xué)習(xí)的區(qū)域工程地質(zhì)分層方法,主要運(yùn)用深度學(xué)習(xí)方法對(duì)靜力觸探試驗(yàn)的原始數(shù)據(jù)進(jìn)行地質(zhì)分層的訓(xùn)練和預(yù)測(cè)。這一方法能夠有效地從靜力觸探試驗(yàn)數(shù)據(jù)中提取分層特征,從而在分層模型基礎(chǔ)上構(gòu)建區(qū)域整體的地質(zhì)分層框架,在這個(gè)框架中,區(qū)域內(nèi)的靜力觸探試驗(yàn)孔被視為網(wǎng)格節(jié)點(diǎn)。使用取土孔的土樣試驗(yàn)數(shù)據(jù)以及鉆孔的地理坐標(biāo)作為分類(lèi)特征,并結(jié)合野外編錄的信息,通過(guò)采用分類(lèi)算法,提取取土孔的分層特征,最終納入整體分層框架,這一綜合性的方法使得區(qū)域內(nèi)的地質(zhì)分層得以實(shí)現(xiàn),技術(shù)路徑如圖1 所示。
圖1 基于機(jī)器學(xué)習(xí)的區(qū)域工程地質(zhì)分層技術(shù)路徑Fig.1 Technical path of regional engineering geological layering
本文以原始鉆孔測(cè)試試驗(yàn)數(shù)據(jù)為特征數(shù)據(jù),以區(qū)域分層作為標(biāo)簽,建立訓(xùn)練和評(píng)估所用的訓(xùn)練集、測(cè)試集和驗(yàn)證集。首先建立區(qū)域標(biāo)準(zhǔn)分層作為標(biāo)簽,其主要依據(jù)是上海市巖土工程勘察規(guī)范,并結(jié)合專(zhuān)家經(jīng)驗(yàn)而定。然后對(duì)每個(gè)單層進(jìn)行編號(hào),形成標(biāo)簽編碼,并建立鉆孔數(shù)據(jù)與標(biāo)簽的對(duì)應(yīng)關(guān)系。最后對(duì)原始鉆孔數(shù)據(jù)進(jìn)行優(yōu)化處理,原始鉆孔數(shù)據(jù)主要包括靜力探觸探試驗(yàn)數(shù)據(jù)和取土孔土工試驗(yàn)成果數(shù)據(jù),由于這兩類(lèi)數(shù)據(jù)的具有不同的數(shù)據(jù)特征,因而需要分別處理。
(1)原始數(shù)據(jù)提取與標(biāo)注
根據(jù)上海市工程建設(shè)規(guī)范“靜力觸探技術(shù)規(guī)程”,靜力探觸探試驗(yàn)數(shù)據(jù)按10 cm 間距采集。本文將靜力觸探端承阻力(Ps)取整后作為特征數(shù)據(jù),并建立與地層標(biāo)簽數(shù)據(jù)的對(duì)應(yīng)關(guān)系,如圖2 所示。
圖2 靜力觸探試驗(yàn)數(shù)據(jù)地層標(biāo)注Fig.2 Stratum annotation of static cone penetration test data
對(duì)于取土孔土樣試驗(yàn)數(shù)據(jù),依據(jù)上海市工程建設(shè)規(guī)范“巖土工程勘察規(guī)范”,提取土樣取樣深度、顏色、重要的物理力學(xué)指標(biāo)以及取土孔地理坐標(biāo)、孔口高程等,建立土樣數(shù)據(jù)與地層標(biāo)簽數(shù)據(jù)的對(duì)應(yīng)關(guān)系。
(2)數(shù)據(jù)清洗預(yù)處理
數(shù)據(jù)清洗預(yù)處理對(duì)提升數(shù)據(jù)質(zhì)量起著至關(guān)重要的作用。數(shù)據(jù)清洗預(yù)處理主要指缺失值和異常值的處理以及數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化。首先,對(duì)數(shù)據(jù)向量中各變量的重要性進(jìn)行分類(lèi),剔除重要特征如鉆孔坐標(biāo)、試驗(yàn)深度、土樣分類(lèi)指標(biāo)等缺失的向量,剔除指標(biāo)缺失率過(guò)高的向量,對(duì)于異常值或指標(biāo)數(shù)值間存在沖突時(shí),一般也予以剔除。其次,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,以降低變量間的度量的差異。
標(biāo)準(zhǔn)化計(jì)算公式為:
式中:Xs為標(biāo)準(zhǔn)化值,x為標(biāo)量,μ為該變量樣本的均值,σ為該變量樣本的標(biāo)準(zhǔn)差。
歸一化計(jì)算公式為:
式中:xnor為歸一化值,x為變量,xmas、xmin分別為變量樣本的最大值、最小值。
(3)數(shù)據(jù)優(yōu)化
優(yōu)質(zhì)數(shù)據(jù)可以顯著提升模型的性能和準(zhǔn)確度,數(shù)據(jù)優(yōu)化處理的方法有很多種,本文數(shù)據(jù)優(yōu)化處理主要使用特征工程等方法。特征工程可實(shí)現(xiàn)進(jìn)一步提取數(shù)據(jù)的特征,幫助模型從數(shù)據(jù)中捕獲基本模式。特征工程包括選擇對(duì)模型預(yù)測(cè)最有影響的特征,排除對(duì)模型貢獻(xiàn)不大的特征,以及創(chuàng)建新的特征,或者從現(xiàn)有特征中提取更有信息量的信息,以提升模型的效率和性能。
靜力觸探試驗(yàn)數(shù)據(jù)屬于序列數(shù)據(jù),具有前后鄰近數(shù)據(jù)相關(guān)性強(qiáng)的特點(diǎn)。本文對(duì)靜力觸探試驗(yàn)數(shù)據(jù)向量進(jìn)行一維卷積計(jì)算,如圖3 所示,通過(guò)改變卷積核大小多次計(jì)算提取,以獲取更多數(shù)據(jù)內(nèi)部的模式和結(jié)構(gòu),最終將提取的特征與原始數(shù)據(jù)拼接,構(gòu)成訓(xùn)練數(shù)據(jù)的輸入向量。
圖3 靜探試驗(yàn)數(shù)據(jù)向量卷積計(jì)算示意圖Fig.3 Schematic diagram of convolution calculation of CPT test data
取土孔土工試驗(yàn)數(shù)據(jù)指標(biāo)變量,除了包括取樣位置外,還包括土的物理力學(xué)性質(zhì)指標(biāo)。在物理性質(zhì)指標(biāo)部分,本文選用兩個(gè)指標(biāo)作為特征,一是綜合塑性指數(shù)及顆分試驗(yàn),根據(jù)經(jīng)驗(yàn)公式,計(jì)算其土類(lèi)定名綜合值用作特征。二是選取土樣含水量作為特征,對(duì)于缺失含水量數(shù)據(jù)的土樣,選擇適當(dāng)方法進(jìn)行插值補(bǔ)充。在力學(xué)性質(zhì)指標(biāo)部分,主要根據(jù)土的C、φ 值、壓縮系數(shù)、壓縮模型、密實(shí)度等力學(xué)指標(biāo),并參照含水量、液性指數(shù)等,根據(jù)經(jīng)驗(yàn)公式,計(jì)算土樣力學(xué)指標(biāo)綜合值,并用作特征。土樣數(shù)據(jù)特征既包括地理坐標(biāo)、深度等坐標(biāo)度量,也包括含水量、綜合值等物理力學(xué)性質(zhì)的度量,由于度量差異較大,在標(biāo)準(zhǔn)化或歸一化處理對(duì)學(xué)習(xí)效果不明顯時(shí),可利用權(quán)重向量對(duì)數(shù)據(jù)進(jìn)一步處理,以確保不同特征間權(quán)重相對(duì)均衡;也可根據(jù)鉆孔間距離的遠(yuǎn)近,劃分訓(xùn)練子集。
機(jī)器學(xué)習(xí)模型的選擇主要取決于數(shù)據(jù)和任務(wù)類(lèi)型。本文中靜力觸探試驗(yàn)數(shù)據(jù)為連續(xù)序列數(shù)據(jù),與相應(yīng)地層存在序列到序列的對(duì)應(yīng)關(guān)系,因此可以將靜力觸探試驗(yàn)孔地層分層問(wèn)題轉(zhuǎn)換為序列到序列的預(yù)測(cè)任務(wù)。對(duì)于取土孔,可以根據(jù)其土樣試驗(yàn)數(shù)據(jù),并依據(jù)業(yè)務(wù)規(guī)則確定土樣特征后,將其地層分層問(wèn)題轉(zhuǎn)換為地質(zhì)體單元屬性分類(lèi)問(wèn)題。
(1)靜力觸探試驗(yàn)數(shù)據(jù)模型算法選擇
序列到序列(Sequence-to-Sequence, Seq2Seq)模型是一種深度學(xué)習(xí)模型,用于處理輸入和輸出都是可變長(zhǎng)度序列的任務(wù)。2014 年以來(lái),Seq2Seq 模型經(jīng)歷了從基本RNN 到LSTM、GRU,再到編碼—解碼(Encoder-Decoder)結(jié)構(gòu)、注意力機(jī)制等關(guān)鍵技術(shù)的演進(jìn),最終形成了一系列高效的模型架構(gòu),在自然語(yǔ)言處理領(lǐng)域取得了顯著的成就。2017 年,隨著Transformer 模型的提出,自注意力機(jī)制在Seq2Seq 任務(wù)中得到了廣泛應(yīng)用。Transformer 的出現(xiàn)徹底改變了傳統(tǒng)的循環(huán)結(jié)構(gòu),通過(guò)并行計(jì)算顯著提升了模型的訓(xùn)練速度,同時(shí)在機(jī)器翻譯、文本生成、語(yǔ)言理解等任務(wù)上取得了前所未有的性能。目前Seq2Seq 模型一般都基于編碼—解碼結(jié)構(gòu),它由稱(chēng)為編碼器和解碼器的神經(jīng)網(wǎng)絡(luò)組成的模型。編碼器讀取一個(gè)輸入序列并輸出到解碼器一組向量,而解碼器讀取該組向量以生成一個(gè)輸出序列。不同的Seq2Seq 模型其編碼器、解碼器結(jié)構(gòu)的不同。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN),是NLP、語(yǔ)音識(shí)別等時(shí)間序列數(shù)據(jù)處理的基本網(wǎng)絡(luò)框架,如圖4 所示,可用于Seq2Seq 模型。圖4 中的 U、V、W分別為輸入層、輸出層及上次輸入的權(quán)重矩陣,輸入是原始數(shù)據(jù)序列“x1x2x3x4x5…”,通過(guò)中間的隱藏層s,最終通過(guò)計(jì)算得到輸出o。至于RNN 在訓(xùn)練中很容易發(fā)生梯度爆炸和梯度消失等問(wèn)題,本文應(yīng)用中通過(guò)設(shè)置梯度閾值及合理的初始化權(quán)重值來(lái)解決。
圖4 RNN 及前向計(jì)算過(guò)程展開(kāi)示意圖[5]Fig.4 A recurrent neural network and the unfolding in time of the computation involved in its forward computation
Transformer 則是另一種Seq2Seq 架構(gòu),其編碼器和解碼器結(jié)構(gòu)如圖5 所示。在Transformer 模型中,輸入是一個(gè)二維的矩陣,矩陣的形狀可以表示為(N,D),其中N 是序列(sequence)的長(zhǎng)度,即靜力觸探試驗(yàn)的數(shù)據(jù)長(zhǎng)度,而 D 是序列中每個(gè)數(shù)據(jù)向量的嵌入(embedding)維度。Transformer最核心的操作就是自注意力(self-attention)機(jī)制,由于靜力觸探試驗(yàn)數(shù)據(jù)前后間存在較強(qiáng)的關(guān)聯(lián)性,即存在明顯分塊特征,自注意力機(jī)制其實(shí)就是輸入向量之間進(jìn)行相互關(guān)注(attention)來(lái)學(xué)習(xí)到新特征,從而對(duì)輸入信息賦予不同的權(quán)重來(lái)聚合信息。然后利用多層感知機(jī)(MLP),對(duì)輸入序列進(jìn)行線性變換,并通過(guò)非線性激活函數(shù)進(jìn)行操作,每個(gè)層的輸出都會(huì)通過(guò)殘差連接和歸一化處理。Decoder 中的每個(gè)層除了自注意力計(jì)算外,還使用編碼器―解碼器注意力機(jī)制來(lái)關(guān)注編碼器中的信息,從而解碼器可根據(jù)編碼器的輸出,動(dòng)態(tài)地選擇要關(guān)注的部分。
圖5 Transformer 的編碼—解碼器結(jié)構(gòu)[6]Fig.5 Encoder - Decoder Structure in Transformer
其它模型如LSTM、GRU 等網(wǎng)絡(luò),則是針對(duì)RNN 梯度消失問(wèn)題,在RNN 網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)行改進(jìn)后的模型。本文選取基于序列到序列的RNN 和Transformer 模型,分別開(kāi)展靜力觸探試驗(yàn)孔分層實(shí)驗(yàn)研究。
(2)取土孔數(shù)據(jù)模型算法選擇
取土孔分層問(wèn)題則可看成地質(zhì)體空間單元的屬性分類(lèi)問(wèn)題,選擇不同的分類(lèi)器會(huì)影響建模的結(jié)果。Kotsiantis[7]等 在2007 年、Trevor Hastie 等[8]在2008 年對(duì)分類(lèi)器算法從不同側(cè)面進(jìn)行評(píng)估,Manuel Fernández-Delgado 等[9]在2014 年對(duì)17 大類(lèi)179 個(gè)分類(lèi)器進(jìn)行分類(lèi)評(píng)價(jià)。
基于上述研究,本文對(duì)常見(jiàn)的分類(lèi)算法如決策樹(shù)方法、K 最近鄰算法(K-Nearest Neighbors,KNN)、貝葉斯分類(lèi)、支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林方法和神經(jīng)網(wǎng)絡(luò)等進(jìn)行比較,最終選取KNN 算法與樸素貝葉斯(Naive Bayesian Model,NBM)方法,開(kāi)展對(duì)比實(shí)驗(yàn)研究。KNN 是一種基于實(shí)例的學(xué)習(xí)方法,它不依賴(lài)于對(duì)數(shù)據(jù)的線性假設(shè)。它的工作原理是在訓(xùn)練數(shù)據(jù)中找到與新樣本最相似的K 個(gè)鄰居,并將新樣本分配給占據(jù)多數(shù)的類(lèi)別。在線性不可分的情況下,數(shù)據(jù)可能分布得非常復(fù)雜,沒(méi)有明顯的線性邊界可以將不同類(lèi)別的樣本分開(kāi)。KNN 可以適應(yīng)這樣的數(shù)據(jù)分布,因?yàn)樗且环N基于距離的方法,不受線性分割的限制。NBM 則結(jié)合先驗(yàn)概率和后驗(yàn)概率,避免了只使用先驗(yàn)概率的主觀偏見(jiàn),也避免了單獨(dú)使用樣本信息的過(guò)擬合現(xiàn)象。貝葉斯分類(lèi)算法在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率,與KNN 一樣,NBM 算法本身也比較簡(jiǎn)單。本文中的地層屬性分類(lèi)是一個(gè)多分類(lèi)問(wèn)題,而且數(shù)據(jù)集規(guī)模不大,在此情況下,簡(jiǎn)單的模型更容易訓(xùn)練,往往會(huì)取得較好的性能。
機(jī)器學(xué)習(xí)依賴(lài)于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略從假設(shè)空間中挑選出最優(yōu)模型。其中一個(gè)重要挑戰(zhàn)是確保模型不僅在訓(xùn)練集上表現(xiàn)良好,還要在新樣本數(shù)據(jù)上有出色表現(xiàn),這就是模型的泛化能力。除了高質(zhì)量的訓(xùn)練數(shù)據(jù),掌握必要的模型訓(xùn)練技巧也至關(guān)重要。通過(guò)改進(jìn)訓(xùn)練方法、參數(shù)調(diào)優(yōu),并合理劃分?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練評(píng)估,我們能夠獲得具有最佳泛化性能的模型。
(1)模型訓(xùn)練改進(jìn)
在模型訓(xùn)練時(shí)需要引進(jìn)適當(dāng)方法改進(jìn)訓(xùn)練過(guò)程,如對(duì)于深度學(xué)習(xí),為提高訓(xùn)練速度,可設(shè)置合理的初始化權(quán)重w 和偏置b;也可以使用Adam,Adagrad 等自適應(yīng)優(yōu)化算法,實(shí)現(xiàn)學(xué)習(xí)率的自適應(yīng)調(diào)整,從而保證準(zhǔn)確率的同時(shí)加快收斂速度等。對(duì)于過(guò)擬合問(wèn)題,可利用正則化直接改變模型的架構(gòu)來(lái)解決。深度學(xué)習(xí)模型訓(xùn)練常用的正則化方法有L2 正則化和 Dropout 等。它們通過(guò)修改參數(shù)或權(quán)重的更新方式來(lái)確保模型不會(huì)過(guò)擬合。L2 正則化是在損失函數(shù)中添加L2 懲罰項(xiàng),鼓勵(lì)更小的權(quán)重并防止模型過(guò)擬合,Dropout 則是在訓(xùn)練過(guò)程中隨機(jī)禁用一部分神經(jīng)元,防止對(duì)特定神經(jīng)元的依賴(lài),提高模型的魯棒性和泛化能力。
(2)超參數(shù)調(diào)優(yōu)
超參數(shù)是指那些不會(huì)由算法自身學(xué)習(xí)得到的模型參數(shù),它們需要在訓(xùn)練之前進(jìn)行手動(dòng)設(shè)置,以控制模型的訓(xùn)練過(guò)程和性能。超參數(shù)的選擇是模型成敗的一個(gè)關(guān)鍵步驟,因?yàn)椴煌某瑓?shù)組合可以導(dǎo)致不同的模型性能和收斂行為。一般通過(guò)實(shí)驗(yàn)和經(jīng)驗(yàn)來(lái)選擇合適的超參數(shù),也可以使用自動(dòng)調(diào)參技術(shù)來(lái)搜索最佳的超參數(shù)組合。本文通過(guò)實(shí)驗(yàn)和經(jīng)驗(yàn)來(lái)選擇合適的部分超參數(shù),對(duì)另一部分超參數(shù),則應(yīng)用自動(dòng)調(diào)參技術(shù)來(lái)搜索其最佳泛化性能的配置。
(3)模型評(píng)估
模型評(píng)估主要考察模型在新樣本數(shù)據(jù)上的表現(xiàn)能力。一般可將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練數(shù)據(jù)集用來(lái)訓(xùn)練模型,驗(yàn)證數(shù)據(jù)集用來(lái)判斷哪個(gè)參數(shù)下的模型表現(xiàn)最好,最后再用測(cè)試數(shù)據(jù)集進(jìn)行評(píng)估模型性能和泛化能力。如果數(shù)據(jù)集比較小,可以采用交叉驗(yàn)證的方法來(lái)評(píng)估模型了。交叉驗(yàn)證指的是將數(shù)據(jù)集等分為k份(一般不超過(guò)10),然后用其中的k–1 份來(lái)訓(xùn)練、驗(yàn)證,剩下的1 份用來(lái)測(cè)試。每次都選取不同的1 份來(lái)測(cè)試,將這個(gè)過(guò)程重復(fù)k 次。最后可以采用混淆矩陣來(lái)評(píng)判模型表現(xiàn),據(jù)此計(jì)算模型的準(zhǔn)確率、精確度和召回率等。另外還需要考慮業(yè)務(wù)相關(guān)的指標(biāo),如計(jì)算分層Ps 值、分層各類(lèi)土工試驗(yàn)指標(biāo)等,從而綜合評(píng)估模型的性能。
本文在上述思路基礎(chǔ)上,選取上海某新城區(qū)域的工程地質(zhì)鉆孔數(shù)據(jù),開(kāi)展區(qū)域工程地質(zhì)分層實(shí)驗(yàn)研究。在Windows 11 操作系統(tǒng)下,我們利用了Python 3.8 以及Scikit-learn 和PyTorch 等開(kāi)源機(jī)器學(xué)習(xí)庫(kù)進(jìn)行了實(shí)驗(yàn)。訓(xùn)練環(huán)境配置了一塊GeForce RTX 3070 顯卡(CUDA 版本11.6.99),以提升實(shí)驗(yàn)效率。
研究區(qū)收集的靜力觸探試驗(yàn)孔3410 個(gè)( 深度49.2 ~90.0 m),取土孔2803 個(gè)(深度49.2 ~100.0 m)。參照上海市工程建設(shè)規(guī)范“巖土工程勘察規(guī)范”,研究區(qū)內(nèi)場(chǎng)地屬于屬濱海平原——湖沼相地貌類(lèi)型,100 m 以淺分為25 個(gè)主要層次及亞層。
靜力觸探試驗(yàn)數(shù)據(jù)在建立與土層標(biāo)簽的對(duì)應(yīng)關(guān)系后,采用特征工程對(duì)數(shù)據(jù)進(jìn)行優(yōu)化處理。采用一維卷積操作,卷積核分別設(shè)為[0.3, 0.4, 0.3]T、[0.1, 0.25, 0.4, 0.25, 0.1]T、[0.1, 0.12, 0.14, 0.14, 0.14.1,0.12,0.1]T,卷積計(jì)算完成后,與已有靜力觸探試驗(yàn)數(shù)據(jù)進(jìn)行拼接,形成訓(xùn)練向量數(shù)據(jù)。
取土孔土樣試驗(yàn)數(shù)據(jù)特征向量數(shù)據(jù)包括鉆孔坐標(biāo)、取土深度(標(biāo)高)、顏色、土性等。對(duì)顏色類(lèi)別進(jìn)行編碼,計(jì)算物理、力學(xué)特征的綜合值,最后提取土工試驗(yàn)數(shù)據(jù)特征向量。
本文采用RNN 和Transformer 兩種模型分別對(duì)靜力觸探試驗(yàn)數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程如圖6 所示。左圖是平均精確度曲線,該曲線表明在本文數(shù)據(jù)集下,RNN的表現(xiàn)更好,在Epoch 數(shù)為200 時(shí),達(dá)到最高精確度,此后圍繞此數(shù)值穩(wěn)定波動(dòng),右圖Loss 曲線則表明epoch取值150 ~200 最為合理。在精確度方面,Transformer表現(xiàn)比RNN 遜色,在Epoch 數(shù)為120 時(shí),達(dá)到最高精確度,Loss 曲線表明epoch 取值100 左右最為合理。
圖6 序列到序列模型訓(xùn)練過(guò)程比較Fig.6 Comparison of training process from sequence to sequence model
在算力條件允許的情況下,還可對(duì)上述模型的超參數(shù)進(jìn)一步調(diào)優(yōu),提升模型表現(xiàn)和可使用性。
本文對(duì)取土孔土工試驗(yàn)數(shù)據(jù)集,選取KNN 和樸素貝葉斯模型,進(jìn)行分類(lèi)實(shí)驗(yàn)研究。KNN 模型的表現(xiàn)主要取決于K 值的大小,如圖7 所示。實(shí)驗(yàn)將按8:2 比例將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,圖中左圖是KNN 在訓(xùn)練集上的表現(xiàn),右圖是在測(cè)試集上的表現(xiàn),不同顏色曲線表示在不同批次訓(xùn)練測(cè)試的結(jié)果,其中帶“x”的曲線為平均精確度曲線。結(jié)果顯示,KNN 模型的K 值一般可設(shè)為4 ~6,此時(shí)精確度達(dá)到峰值。
圖7 KNN 模型分類(lèi)實(shí)驗(yàn)結(jié)果Fig.7 Results of KNN model Classification Experiment
本文利用樸素Bayes 模型進(jìn)行訓(xùn)練和分類(lèi),實(shí)驗(yàn)將按8:2 比例將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,總體精度達(dá)到0.78,稍優(yōu)于KNN 模型。樸素Bayes 模型對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單,分類(lèi)準(zhǔn)確度高,速度快,具有一定的推廣應(yīng)用價(jià)值。
本文針對(duì)區(qū)域工程地質(zhì)研究中的分層問(wèn)題,提出了一種基于機(jī)器學(xué)習(xí)的地質(zhì)分層思路與方法。經(jīng)過(guò)實(shí)驗(yàn)證明,所提出的方法可行,具有一定的分類(lèi)精度。由于機(jī)器學(xué)習(xí)具備端到端的特性,所提出的框架用戶友好性強(qiáng),從而只需最少的人工干預(yù),便能在短時(shí)間內(nèi)實(shí)現(xiàn)分層功能。同時(shí),交叉驗(yàn)證方法顯示,這一成果具有推廣價(jià)值,因此在研究和實(shí)際應(yīng)用中具有積極意義。
然而,考慮到該方法是機(jī)器學(xué)習(xí)在區(qū)域地質(zhì)分層方面的初步應(yīng)用,仍然需要在以下方面進(jìn)行進(jìn)一步的研究和改進(jìn):(1) 進(jìn)一步開(kāi)展數(shù)據(jù)特征提取方法研究,更好地捕捉數(shù)據(jù)中的關(guān)鍵信息,提高模型性能,增加數(shù)據(jù)的可解釋性。(2)研究多模態(tài)學(xué)習(xí),使更多類(lèi)型的地質(zhì)勘探數(shù)據(jù)能加入到地層分類(lèi)方法中,提高分類(lèi)性能和泛化能力。(3)進(jìn)一步開(kāi)展各類(lèi)機(jī)器學(xué)習(xí)方法在地質(zhì)分層模型中適用性研究,研究超參數(shù)在分層模型構(gòu)建中的地學(xué)意義。