岳永東,渠洪杰,譚春亮,祝 強(qiáng),林廣利
(北京探礦工程研究所,北京100083)
松散沉積物主要分布于第四紀(jì)盆地內(nèi),面積廣泛,構(gòu)造變形微弱,連續(xù)的剖面出露程度差,沉積序列的建立需要借助揭露工程來(lái)實(shí)現(xiàn)。鉆探是調(diào)查盆地內(nèi)沉積地層序列最直接、最可靠和最常用方法,也是獲取地下埋藏巖層實(shí)物的唯一手段,但面對(duì)松散沉積物,鉆探施工主要存在2 個(gè)方面的問(wèn)題:一是松散的砂礫石層取心難度大,取心率低,施工成本較高;二是砂泥質(zhì)含量及粒徑組成復(fù)雜,松散易擾動(dòng),對(duì)于巖性及分層位置的判斷,常常需要依靠地質(zhì)人員的主觀經(jīng)驗(yàn)而易失真,難定量,且編錄效率低[1-2]。
測(cè)井曲線(xiàn)直接響應(yīng)的是巖性變化,是迄今為止所能獲得的分辨率最高、連續(xù)性最好的地質(zhì)數(shù)據(jù)[3]。研究人員對(duì)利用測(cè)井?dāng)?shù)據(jù)識(shí)別巖性開(kāi)展了大量工作,特別是在煤炭和石油領(lǐng)域,是目前巖性識(shí)別中較成熟的一種方法,具有分辨率高、針對(duì)性強(qiáng)、方法眾多等優(yōu)點(diǎn)。測(cè)井巖性識(shí)別方法主要包括3 類(lèi):一是傳統(tǒng)的交會(huì)圖分析;二是基于數(shù)理統(tǒng)計(jì)方法,包括層內(nèi)差異法、聚類(lèi)分析法等;三是人工智能方法,主要有神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)、支持向量機(jī)等,后兩類(lèi)方法可以實(shí)現(xiàn)對(duì)測(cè)井曲線(xiàn)的自動(dòng)分層及巖性識(shí)別,避免人為的主觀性,并在很大程度上提高工作效率[3-16]。
支持向量機(jī)(Support Vector Machine,SVM)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的一種機(jī)器學(xué)習(xí)方法,具有嚴(yán)格的理論和數(shù)學(xué)基礎(chǔ),在小樣本、非線(xiàn)性和高維模式識(shí)別等方面具有獨(dú)特優(yōu)勢(shì)[17]。本文以渾善達(dá)克沙地第四系松散沉積物為研究對(duì)象,結(jié)合巖心資料和測(cè)井?dāng)?shù)據(jù),采用支持向量機(jī)方法建立第四系巖層識(shí)別模型,為沉積序列的建立提供參考。
統(tǒng)計(jì)學(xué)習(xí)理論把機(jī)器學(xué)習(xí)的目標(biāo)從經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)風(fēng)險(xiǎn)最小化,這是統(tǒng)計(jì)學(xué)習(xí)理論與傳統(tǒng)機(jī)器學(xué)習(xí)理論根本性的區(qū)別。支持向量機(jī)方法就是基于統(tǒng)計(jì)學(xué)習(xí)理論結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則建立的,它通過(guò)確定模型學(xué)習(xí)的復(fù)雜程度和學(xué)習(xí)結(jié)果的準(zhǔn)確度之間的最佳折衷,保證模型具有更好的泛化能力即推廣能力,學(xué)習(xí)的過(guò)程最終解決的是一個(gè)凸二次規(guī)劃問(wèn)題,因此理論上可以得到全局最優(yōu)解,通過(guò)引入核函數(shù)解決非線(xiàn)性決策問(wèn)題,避免了“維數(shù)災(zāi)難”且不增加計(jì)算的復(fù)雜程度[18-20]。
支持向量機(jī)以解決二分類(lèi)問(wèn)題為出發(fā)點(diǎn),尋求一個(gè)滿(mǎn)足分類(lèi)要求的最優(yōu)超平面,使訓(xùn)練集中的點(diǎn)離分類(lèi)面的距離盡可能的大。以圖1 為例介紹支持向量機(jī)分類(lèi)原理。
對(duì) 于 給 定 的 訓(xùn) 練 集 {(xi,yi)|i=1,2,…,l},xi∈Rn,yi∈{1,? 1},yi為類(lèi)別標(biāo)簽,對(duì)應(yīng)的最優(yōu)分類(lèi)線(xiàn)為(ω?x) +b=0。由極大化間隔的思想,構(gòu)造最優(yōu)分類(lèi)線(xiàn)轉(zhuǎn)化為求解下列對(duì)變量ω和b的最優(yōu)化問(wèn)題:
圖1 支持向量機(jī)分類(lèi)原理示意Fig.1 Schematic diagram of the SVM classification principle
對(duì)于可以用線(xiàn)性劃分但存在錯(cuò)分點(diǎn)的分類(lèi)問(wèn)題,可以引進(jìn)松弛變量ξi≥0,放寬約束條件,將問(wèn)題轉(zhuǎn)化為:
式中:C——懲罰參數(shù),C越大表示對(duì)錯(cuò)誤分類(lèi)的懲罰越大。
目標(biāo)函數(shù)為凸函數(shù),約束條件為線(xiàn)性,所以這是一個(gè)凸二次規(guī)劃問(wèn)題,引入拉格朗日函數(shù)求解,滿(mǎn)足KKT 條件,并根據(jù)其極值條件得到優(yōu)化問(wèn)題的對(duì)偶形式,即:
式中:α——拉格朗日乘子。
對(duì)于非線(xiàn)性分類(lèi)的樣本,通過(guò)某個(gè)映射Φ(x)將訓(xùn)練集樣本變換到高維空間,從而在高維空間構(gòu)造線(xiàn)性分類(lèi)的超平面。通過(guò)引入核函數(shù)K(xi,xj),實(shí)現(xiàn)計(jì)算低維空間非線(xiàn)性樣本數(shù)據(jù)在高維空間的內(nèi)積值Φ(xi)?Φ(xj),無(wú)需知道Φ(x)的具體形式且不增加計(jì)算的復(fù)雜度。支持向量機(jī)中常用的核函數(shù)有線(xiàn)性核函數(shù)、多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、sigmoid 核函數(shù)等,本文選用非線(xiàn)性問(wèn)題最普遍使用的高斯徑向基(RBF)核函數(shù),其表達(dá)式為:
式中:g——核函數(shù)參數(shù)。
建立SVM 模型的關(guān)鍵問(wèn)題是找到最佳的懲罰參數(shù)C和核函數(shù)參數(shù)g,使得訓(xùn)練集和測(cè)試集的分類(lèi)準(zhǔn)確率都維持在一個(gè)較高的水平,即使得到的SVM 分類(lèi)器的學(xué)習(xí)能力和推廣能力保持一個(gè)平衡,避免過(guò)學(xué)習(xí)和欠學(xué)習(xí)狀況發(fā)生。
交叉驗(yàn)證(Cross Validation,CV)是用來(lái)驗(yàn)證SVM 分類(lèi)器性能的一種統(tǒng)計(jì)分析方法,將原始訓(xùn)練數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集兩部分,首先用訓(xùn)練集對(duì)分類(lèi)器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來(lái)測(cè)試訓(xùn)練得到的模型,以驗(yàn)證集的分類(lèi)準(zhǔn)確率作為評(píng)價(jià)分類(lèi)器的性能指標(biāo)。CV 模式下搜尋SVM 模型的最佳參數(shù),可以采用網(wǎng)格搜索法,即讓C和g在一定范圍內(nèi)依次連續(xù)取值,最終取驗(yàn)證集分類(lèi)準(zhǔn)確率最高的那組C和g作為最佳參數(shù)[21]。如果出現(xiàn)多組C和g對(duì)應(yīng)于最高的驗(yàn)證分類(lèi)準(zhǔn)確率,則取第一組C最小的參數(shù)組作為最佳參數(shù),因?yàn)镃過(guò)大會(huì)導(dǎo)致過(guò)學(xué)習(xí)狀態(tài)發(fā)生,影響分類(lèi)器的泛化能力,即訓(xùn)練集分類(lèi)準(zhǔn)確率很高而測(cè)試集分類(lèi)準(zhǔn)確率較低。
渾善達(dá)克沙地東鄰大興安嶺,南靠陰山-燕山構(gòu)造帶,保存了厚層的第四系松散沉積物,沉積類(lèi)型復(fù)雜,沉積相轉(zhuǎn)變頻繁,但因地勢(shì)平坦,水流切割作用弱,故剖面露頭差[22]。研究過(guò)程中,重點(diǎn)依靠鉆探和物探測(cè)井相結(jié)合的技術(shù)方法,揭示了該地區(qū)厚度達(dá)到280 m 左右的第四系松散沉積,初步建立了渾善達(dá)克沙地東南緣第四系沉積序列,將第四系厚層沉積分為下部河湖相砂泥層間風(fēng)成砂,中部河湖沉積與風(fēng)成相砂質(zhì)沉積互層和上部風(fēng)成砂為主間河湖相砂泥質(zhì)沉積物。
綜合考慮對(duì)巖性變化反應(yīng)敏感以及數(shù)據(jù)的易于獲取性,本次研究選擇了鉆孔的自然電位(SP)、自然伽馬(GR)、視電阻率(Rt)、聲波時(shí)差(AC)4 種物性參數(shù)。根據(jù)巖心及測(cè)井資料,不考慮各種過(guò)渡巖性,將松散沉積物按照粒度劃分為砂礫石、粗砂、中砂、細(xì)砂、泥質(zhì)細(xì)砂和粘土6 類(lèi),并總結(jié)了不同粒度沉積層在測(cè)井曲線(xiàn)上的反映特征和對(duì)應(yīng)的測(cè)井參數(shù)響應(yīng)(表1),將各維測(cè)井參數(shù)的均值歸一化處理,得出對(duì)應(yīng)的測(cè)井響應(yīng)雷達(dá)圖(圖2)。不同粒度巖性在測(cè)井響應(yīng)上存在一定的差異,但同時(shí)也存在不同程度的雜合,尤其是不同粒徑的砂層之間,測(cè)井?dāng)?shù)據(jù)與巖性之間表現(xiàn)出非線(xiàn)性的對(duì)應(yīng)關(guān)系,具備識(shí)別巖性的基本條件。
表1 渾善達(dá)克沙地東南緣第四系不同巖性平均測(cè)井響應(yīng)值Table 1 Average logging response values of different lithology in the Quaternary at the southeast edge of Hunshandake Sandy Land
采用 Libsvm 工具箱建立 SVM 模型[23],除物性參數(shù)SP、GR、Rt、AC外,考慮到鉆孔內(nèi)巖層埋藏深度與測(cè)井參數(shù)及巖性具有一定的非線(xiàn)性對(duì)應(yīng)關(guān)系,選擇將深度(MD)也作為模型的輸入?yún)?shù),即輸入?yún)?shù)為MD、SP、GR、Rt、AC五維矩陣。為避免各維輸入?yún)?shù)間數(shù)量級(jí)的差別導(dǎo)致的誤差,采用式(6)分別將各維輸入?yún)?shù)歸一化處理,統(tǒng)一到[0,1]之間。
圖2 渾善達(dá)克沙地東南緣第四系不同巖性平均測(cè)井響應(yīng)雷達(dá)圖Fig.2 Radar map of average logging response of different lithology in the Quaternary at the southeast edge of Hunshandake Sandy Land
式中:Xmax,Xmin——分別為各維輸入數(shù)據(jù)的最大值和最小值。
輸出參數(shù)對(duì)應(yīng)松散沉積物各種巖性,對(duì)其進(jìn)行標(biāo)簽處理,分別為砂礫石?1、粗砂?2、中砂?3、細(xì)砂?4、泥質(zhì)細(xì)砂?5、粘土?6。
Libsvm 工具箱采用一對(duì)一算法將支持向量機(jī)二元分類(lèi)模型推廣至多元分類(lèi)問(wèn)題,即在任意兩類(lèi)樣本之間設(shè)計(jì)一個(gè)SVM 分類(lèi)器,因此6 類(lèi)樣本共需15 個(gè)分類(lèi)器,對(duì)未知樣本分類(lèi)時(shí),將其分別輸入到15 個(gè)分類(lèi)器中進(jìn)行判別,對(duì)結(jié)果采用投票法或淘汰法完成識(shí)別。
選取“錫林郭勒盟-通遼地區(qū)基礎(chǔ)地質(zhì)調(diào)查”項(xiàng)目施工的標(biāo)準(zhǔn)孔BZK01 為研究對(duì)象,該鉆孔全孔取心及全孔裸眼測(cè)井,有準(zhǔn)確的巖性及物性參數(shù)對(duì)應(yīng)數(shù)據(jù)。根據(jù)巖心資料,該鉆孔松散沉積物厚218.3 m,包含上述6 類(lèi)巖性,測(cè)井?dāng)?shù)據(jù)采樣間隔為0.05 m,有效采樣范圍為6~218.3 m,共計(jì)得到4247 組數(shù)據(jù),并形成鉆孔測(cè)井曲線(xiàn)(見(jiàn)圖3)。由圖3 可以看出,利用測(cè)井曲線(xiàn)可以找到顯著的粘土、砂和礫石層等沉積相變界面,但對(duì)于上部砂層,存在多個(gè)不同尺度的沉積旋回,難以直觀的獲取分層信息。
圖3 BZK01 鉆孔松散沉積物測(cè)井曲線(xiàn)Fig.3 Logging curve of unconsolidated sediments in BZK01 borehole
從中隨機(jī)抽取2000 組作為訓(xùn)練集,1000 組作為測(cè)試集,建立支持向量機(jī)巖性識(shí)別模型。采用網(wǎng)格搜索法優(yōu)選模型懲罰參數(shù)C和核函數(shù)參數(shù)g,在(2-10,210)范圍內(nèi)對(duì)C和g進(jìn)行初步選擇,搜索步長(zhǎng)設(shè)為1,之后可以根據(jù)初步選擇的結(jié)果縮小搜索范圍與步長(zhǎng)進(jìn)行精細(xì)選擇(圖4),結(jié)果為C=32,g=90.5。利用最佳參數(shù)建立模型進(jìn)行訓(xùn)練和測(cè)試,結(jié)果為:訓(xùn)練集分類(lèi)準(zhǔn)確率99%,測(cè)試集分類(lèi)準(zhǔn)確率為99.5%,1000 組測(cè)試數(shù)據(jù)中僅有5 組分類(lèi)錯(cuò)誤。為對(duì)比模型效果,與機(jī)器學(xué)習(xí)最常用的BP 神經(jīng)網(wǎng)絡(luò)模型作對(duì)比,采用同樣的訓(xùn)練集與測(cè)試集,對(duì)其進(jìn)行訓(xùn)練(圖5),BP 神經(jīng)網(wǎng)絡(luò)模型測(cè)試集分類(lèi)準(zhǔn)確率為94.8%,1000 組測(cè)試數(shù)據(jù)中有52 組分類(lèi)錯(cuò)誤。兩種巖性識(shí)別模型分類(lèi)準(zhǔn)確率均較高,其中SVM模型識(shí)別效果更好,可以滿(mǎn)足實(shí)際工作中的巖性識(shí)別需求。
圖4 SVM 網(wǎng)格法尋優(yōu)準(zhǔn)確率等值線(xiàn)圖Fig.4 Contour map of accuracy of the SVM grid method
圖5 BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程Fig.5 BP neural network training process
為驗(yàn)證該方法的適應(yīng)性,選取研究區(qū)內(nèi)另外兩個(gè)標(biāo)準(zhǔn)孔BZK02、BZK03 為研究對(duì)象,測(cè)井有效采樣范圍分別為6~196 m、6.5~283.65 m,有效數(shù)據(jù)分別為3801 組及5544 組,從中隨機(jī)抽取數(shù)據(jù)作為訓(xùn)練集和測(cè)試集,分別建立SVM 巖性識(shí)別模型,具體結(jié)果如表2 所示。
表2 各鉆孔SVM 模型巖性識(shí)別結(jié)果Table 2 Lithology identification results of each borehole based on the SVM model
對(duì)于 BZK01、BZK02、BZK03 三個(gè)鉆孔,SVM模型在訓(xùn)練集與測(cè)試集中均獲得了很高的分類(lèi)準(zhǔn)確率,表明該巖性識(shí)別方法具備在工作區(qū)不同鉆孔中推廣應(yīng)用的前景。
機(jī)器學(xué)習(xí)模型中,訓(xùn)練集樣本數(shù)量及樣本的完備性是影響模型分類(lèi)效果與泛化能力的重要因素,為進(jìn)一步測(cè)試訓(xùn)練集樣本數(shù)量對(duì)模型分類(lèi)效果的影響,針對(duì)BZK01 鉆孔,隨機(jī)抽取1000 組數(shù)據(jù)作為測(cè)試集,改變訓(xùn)練集樣本數(shù)量,并建立其對(duì)應(yīng)的測(cè)試集分類(lèi)準(zhǔn)確率(表3)。由表3 可以發(fā)現(xiàn),隨著訓(xùn)練樣本的增加,測(cè)試集分類(lèi)準(zhǔn)確率逐步提高,訓(xùn)練集樣本數(shù)量達(dá)到2000 組時(shí)測(cè)試集分類(lèi)準(zhǔn)確率取得最高值,此時(shí)再增加訓(xùn)練集樣本數(shù)量對(duì)模型性能沒(méi)有太大影響,甚至?xí)驗(yàn)檫^(guò)學(xué)習(xí)導(dǎo)致測(cè)試集分類(lèi)準(zhǔn)確率降低。此外,SVM 模型分類(lèi)效果明顯優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)模型,且在訓(xùn)練集樣本數(shù)量達(dá)到200 組后測(cè)試集的分類(lèi)準(zhǔn)確率即超過(guò)90%,顯示出其在小樣本數(shù)據(jù)下良好的泛化能力。
表3 BZK01 鉆孔訓(xùn)練集樣本數(shù)量與測(cè)試集分類(lèi)準(zhǔn)確率Table 3 Training set sample number and test set classification accuracy for BZK01
SVM 模型在單個(gè)鉆孔的松散沉積物巖性識(shí)別中準(zhǔn)確率很高,能夠?qū)崿F(xiàn)粘土、泥質(zhì)細(xì)砂、細(xì)砂、中砂、粗砂及砂礫石6 種不同巖性的自動(dòng)分層,可以滿(mǎn)足利用測(cè)井?dāng)?shù)據(jù)實(shí)現(xiàn)地層劃分的地質(zhì)需求,輔助人工分層,有效降低人為因素影響,并大幅提升工作效率。
更重要的是,在滿(mǎn)足數(shù)據(jù)完備性的情況下,該方法對(duì)訓(xùn)練集樣本數(shù)量的要求較低,具有良好的泛化能力,如BZK01 鉆孔中僅需4247 組中的200 組巖性測(cè)井?dāng)?shù)據(jù),就可以實(shí)現(xiàn)90%以上的識(shí)別準(zhǔn)確率,最多僅需2000 組數(shù)據(jù),不超過(guò)整個(gè)鉆孔層數(shù)據(jù)的50%,就可以實(shí)現(xiàn)高達(dá)99.5%的識(shí)別準(zhǔn)確率,這對(duì)于第四系松散沉積物的鉆探施工具有實(shí)際的指導(dǎo)意義。
隨著人們對(duì)第四紀(jì)地質(zhì)、環(huán)境、氣候和工程勘察等研究與調(diào)查的不斷深入,定量和精細(xì)了解第四系沉積序列對(duì)鉆探揭露工程提出了較高的要求,如《1∶5 萬(wàn)覆蓋區(qū)區(qū)域地質(zhì)調(diào)查工作指南(試行)》中要求標(biāo)準(zhǔn)孔應(yīng)全孔連續(xù)取心,且覆蓋層取心率≮65%,一般應(yīng)達(dá)到85%以上。這對(duì)于鉆探施工提出了很大挑戰(zhàn),特別是松散沉積物厚度>100 m 及含有大量砂層、礫石層的鉆孔,取心護(hù)壁難度高,現(xiàn)場(chǎng)投入大量時(shí)間物力成本,但砂層及礫石層部分回次取心率仍達(dá)不到要求(圖6)。而采用SVM 巖性識(shí)別模型,可以有效地彌補(bǔ)鉆孔取心率不足的問(wèn)題,基于不同地層的少量巖心資料及對(duì)應(yīng)的測(cè)井?dāng)?shù)據(jù)訓(xùn)練SVM 模型,即可實(shí)現(xiàn)通過(guò)測(cè)井?dāng)?shù)據(jù)獲得鉆孔無(wú)巖心段高置信度的巖性識(shí)別結(jié)果,為鉆孔地層序列的建立提供支撐。
圖6 BZK01 部分松散地層取心效果Fig.6 Cores from some loose strata in BZK01
更進(jìn)一步,采用該方法還有望降低對(duì)鉆孔取心工作的要求,由連續(xù)取心變?yōu)殚g隔取心,控制好分層精度的情況下減少取心工作量,從而實(shí)現(xiàn)降低成本、提高效率、低碳環(huán)保的綠色勘查目的[24]。
本文建立的SVM 巖性識(shí)別模型在單個(gè)鉆孔內(nèi)的應(yīng)用獲得了較好的效果,但還未推廣至整個(gè)渾善達(dá)克沙地調(diào)查中,即利用訓(xùn)練好的模型對(duì)未參與訓(xùn)練的鉆孔進(jìn)行巖性識(shí)別與分層。主要是由于目前研究區(qū)內(nèi)僅施工了3 個(gè)標(biāo)準(zhǔn)孔,相比于第四紀(jì)盆地面積之廣大,沉積類(lèi)型之復(fù)雜多變,獲得的測(cè)井?dāng)?shù)據(jù)及對(duì)應(yīng)巖性樣本數(shù)量還較少,完備性欠缺,此外,不同粒徑砂層的測(cè)井?dāng)?shù)據(jù)分布過(guò)于雜合交錯(cuò),非線(xiàn)性程度較高,這些都制約了目前模型的泛化能力,還有待開(kāi)展進(jìn)一步的研究。
后續(xù)仍需選擇渾善達(dá)克沙地第四系不同構(gòu)造單元內(nèi)具有代表性、地層沉積序列較完整的地區(qū)開(kāi)展標(biāo)準(zhǔn)孔施工,以建立研究區(qū)內(nèi)盡可能完備的標(biāo)準(zhǔn)測(cè)井解釋模型及不同巖性相的測(cè)井參數(shù)數(shù)據(jù)庫(kù),進(jìn)一步優(yōu)化SVM 模型的各項(xiàng)參數(shù),推動(dòng)基于SVM 的巖性識(shí)別方法在松散沉積層地質(zhì)調(diào)查中的推廣應(yīng)用。
(1)本文基于巖心資料和測(cè)井?dāng)?shù)據(jù)建立了支持向量機(jī)巖性識(shí)別模型,該模型識(shí)別準(zhǔn)確率高、訓(xùn)練樣本需求量低。在第四系松散沉積層調(diào)查工作中,利用測(cè)井?dāng)?shù)據(jù)實(shí)現(xiàn)巖性自動(dòng)識(shí)別具有可行性,為建立松散沉積物地層序列提供了有力支撐。
(2)針對(duì)單個(gè)鉆孔,采用支持向量機(jī)模型識(shí)別無(wú)巖心井段地層的巖性,可以有效解決松散沉積層鉆探施工取心率低的問(wèn)題,一定程度上提高了鉆孔沉積序列建立的準(zhǔn)確性和完整性。
(3)該方法具備開(kāi)展進(jìn)一步研究的價(jià)值,通過(guò)提高模型的泛化能力,實(shí)現(xiàn)在第四系盆地沉積巖層精準(zhǔn)調(diào)查的推廣應(yīng)用,并可以為類(lèi)似鉆孔的施工方案設(shè)計(jì)提供支撐,合理減少取心工作量,使鉆探施工更加經(jīng)濟(jì)、高效、環(huán)保,實(shí)現(xiàn)綠色勘查。