張昭杰,方石
吉林大學(xué) 地球科學(xué)學(xué)院,長(zhǎng)春 130061
烏夏地區(qū)侏羅系地層沉積環(huán)境和地質(zhì)條件較為復(fù)雜,該地區(qū)巖性呈現(xiàn)出縱橫向變化大、成分成熟度低以及非均質(zhì)性強(qiáng)等特點(diǎn),使得各種巖性與其測(cè)井響應(yīng)特征多數(shù)為非線性關(guān)系。且該地區(qū)地層普遍含泥、含礫,屬于復(fù)雜巖性地層,對(duì)巖性識(shí)別工作產(chǎn)生了許多不利影響。同時(shí),考慮到成本因素導(dǎo)致巖芯資料缺乏,而巖屑錄井采樣間隔較大,人為干擾因素過多,因此無法完整準(zhǔn)確地恢復(fù)整套地層的真實(shí)巖性[1]。目前,常規(guī)的測(cè)井巖性識(shí)別手段包括交會(huì)圖法[2]、聚類方法[3]及人工神經(jīng)網(wǎng)絡(luò)[4]、主成分分析[5,6]等數(shù)理統(tǒng)計(jì)方法。兩參數(shù)的交會(huì)圖一般只能對(duì)測(cè)井特征明顯的巖性進(jìn)行有效識(shí)別,很難做到全井段或解釋井段的巖性識(shí)別[7];聚類分析方法在對(duì)巖性進(jìn)行識(shí)別時(shí),選擇不同數(shù)量的聚類中心對(duì)識(shí)別精度影響較大;人工神經(jīng)網(wǎng)絡(luò)方法因其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)難以確定,易陷入局部最小值等問題,導(dǎo)致巖性識(shí)別效果不佳[8];主成分分析法雖然可以有效降低測(cè)井?dāng)?shù)據(jù)維度從而提高識(shí)別精度,卻容易忽略數(shù)值較小但對(duì)巖性判定影響較大的測(cè)井屬性[9]。
支持向量機(jī)(Support Vector Machine,SVM)是Vapnik于1995年基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的一種新型機(jī)器學(xué)習(xí)分類方法[10]。本文在支持向量機(jī)方法的基礎(chǔ)上,利用遺傳算法對(duì)其核函數(shù)和懲罰因子進(jìn)行尋優(yōu),在巖芯資料有限的情況下,利用測(cè)井?dāng)?shù)據(jù)對(duì)烏夏地區(qū)復(fù)雜砂礫巖巖體進(jìn)行巖性識(shí)別,并對(duì)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果和利用遺傳算法優(yōu)化的支持向量機(jī)預(yù)測(cè)結(jié)果進(jìn)行了比較,論證了使用支持向量機(jī)模型對(duì)巖性進(jìn)行識(shí)別的高效性與可行性。
支持向量機(jī)是一種二類分類模型,是在特征空間上的間隔最大的線性分類器,并且能尋找到全局最優(yōu)解[11]。支持向量機(jī)的基本思想是求解一個(gè)能夠正確劃分?jǐn)?shù)據(jù)集的分離超平面,并且保證這個(gè)超平面的幾何間距最大化,對(duì)于線性可分的數(shù)據(jù)集,其最大幾何間隔的超平面是唯一的。其基本結(jié)構(gòu)如圖1所示。
圖1 支持向量機(jī)示意圖Fig.1 Support Vector Machine
一般來講,對(duì)于一個(gè)給定的訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},其中,實(shí)例xi屬于輸入空間,xi∈X=Rn,yi∈Y={+1,-1},i=1,2,…,N。對(duì)于線性可分?jǐn)?shù)據(jù)集,通過間隔最大化得到的分離超平面可表示為:
ω·x+b=0
(1)
式(1)中,ω為法向量,決定超平面的方向;b為位移項(xiàng),決定超平面和原點(diǎn)之間的距離,可用(ω,b)來表示。其將特征空間劃分為兩部分,法向量指向的一側(cè)為正類,另一側(cè)為負(fù)類。對(duì)于(xi,yi)∈D,若yi=+1,則有ω·x+b>0;若yi=-1,則有ω·x+b<0。令
(2)
為了讓訓(xùn)練數(shù)據(jù)集的正例和負(fù)例距離這個(gè)超平面盡量遠(yuǎn),使得分類間隔最大,即滿足:
(3)
對(duì)于非線性分類問題,對(duì)原始樣本進(jìn)行劃分是無法通過建立最優(yōu)超平面來完成的。對(duì)于這樣的問題,可以在支持向量機(jī)中加入一個(gè)松弛變量放寬約束并添加一個(gè)懲罰因子來進(jìn)行解決,同時(shí)對(duì)式(3)使用拉格朗日乘子法,在式中添加拉格朗日乘子對(duì)其進(jìn)行約束,將大間隔劃分超平面問題轉(zhuǎn)化為對(duì)偶問題:
(4)
即:
(5)
0≤αi≤C
求解上述方程后得到:
(6)
式(6)中,αi為拉格朗日乘子,xi為第i個(gè)特征向量,yi為xi的類標(biāo)記,k是支持向量機(jī)數(shù)目,b是分類閾值。
非線性分類問題無法用直線(線性模型)把正負(fù)類數(shù)據(jù)分開,筆者通過引入“核函數(shù)”(kernel function)的方式,將原特征空間數(shù)據(jù)集通過非線性轉(zhuǎn)換映射到高維特征空間,利用線性分類方法在高維空間中求解最優(yōu)超平面[12]。最常用的核函數(shù)有徑向基核(RBF),多項(xiàng)式核和Sigmoid核,本文擬選擇采用徑向基核(RBF)作為支持向量機(jī)分類模型的核函數(shù)[13]。
(7)
遺傳算法(Genetic Algorithm,簡(jiǎn)稱GA)是基于遺傳學(xué)機(jī)理和模擬自然界生物進(jìn)化過程而形成的一種過程搜索最優(yōu)解的算法,是一種自組織、自適應(yīng)的人工智能技術(shù)[14],15]。支持向量機(jī)模型的建立本質(zhì)上就是尋求其兩個(gè)關(guān)鍵參數(shù):核函數(shù)參數(shù)σ和懲罰因子C[16]。這兩個(gè)參數(shù)的確定對(duì)模型的精度和泛化能力具有很大影響[17]。用遺傳算法搜尋支持向量機(jī)巖性識(shí)別最佳參數(shù)的流程為:
① 將標(biāo)準(zhǔn)化后的巖性樣本測(cè)井?dāng)?shù)據(jù)輸入到支持向量機(jī)模型中作為訓(xùn)練樣本。
② 隨機(jī)產(chǎn)生一組核函數(shù)參數(shù)和懲罰因子,使用二進(jìn)制編碼方案對(duì)其進(jìn)行編碼,隨機(jī)生成初始群體。
③ 計(jì)算初始群體的誤差函數(shù),從而確定群體適應(yīng)度。誤差函數(shù)值越小,則表明適應(yīng)度越大。
④ 執(zhí)行交叉和變異算子,按最優(yōu)保留,取代最差為原則對(duì)上一代群體進(jìn)行處理。
⑤ 判斷是否滿足條件,否則返回步驟②,直到得到最優(yōu)參數(shù)組合為止。
烏夏地區(qū)地處準(zhǔn)噶爾盆地西北緣,又被稱為烏夏斷裂帶(圖2),其侏羅系地層總體上呈北高南低,并向盆地內(nèi)變厚的楔狀展布特點(diǎn)[18]。其中下侏羅統(tǒng)齊谷組地層以辮狀河三角洲沉積為主,發(fā)育了泥巖、泥質(zhì)粉砂巖、中細(xì)砂巖和砂礫巖等多種巖性[19,20]。本文以侏羅系地層為例,結(jié)合錄井巖性和測(cè)井資料,總結(jié)層內(nèi)不同巖性對(duì)應(yīng)的測(cè)井響應(yīng)特征,提取對(duì)巖性敏感的測(cè)井響應(yīng)參數(shù),建立GA-SVM巖性識(shí)別模型。
圖2 準(zhǔn)噶爾盆地烏夏地區(qū)位置圖[20]Fig.2 Location map of study area
由于研究區(qū)巖性較為復(fù)雜,因此基于現(xiàn)有資料將研究區(qū)劃分出泥巖、細(xì)砂巖、中砂巖及砂礫巖四種主要巖性。本文在烏夏地區(qū)有準(zhǔn)確巖芯定名資料的20余口井中,選擇了620個(gè)具有代表性的巖芯數(shù)據(jù),其中泥巖150個(gè),泥質(zhì)粉砂巖115個(gè),中細(xì)砂巖165個(gè),砂礫巖190個(gè),提取這4種巖性所代表的測(cè)井曲線中的聲波時(shí)差(AC)、中子孔隙度(CNL)、密度(DEN)、自然伽馬(GR)地層電阻率(RXO)數(shù)據(jù)建立了5維4類的樣本空間,表1總結(jié)出了烏夏地區(qū)4種巖性的測(cè)井響應(yīng)特征。從表1中可以看出,每種巖性對(duì)應(yīng)的測(cè)井響應(yīng)特征差異比較明顯,這就意味著可以利用支持向量機(jī)在非線性數(shù)據(jù)集上的分類優(yōu)勢(shì)對(duì)巖性進(jìn)行分類。同時(shí)本文對(duì)所有樣本的測(cè)井?dāng)?shù)據(jù)進(jìn)行歸一化處理,統(tǒng)一納入到(0,1)的范圍內(nèi),以消除因特征量綱不同所帶來的影響。
支持向量機(jī)分類模型準(zhǔn)確度的高低很大程度上取決于對(duì)該模型核函數(shù)參數(shù)σ和懲罰因子C的選擇,參數(shù)選取不合理會(huì)直接影響預(yù)測(cè)精度。因此本文選擇徑向基核函數(shù)作為支持向量機(jī)的核函數(shù),通過遺傳算法計(jì)算出其最佳參數(shù)值為(19.346,6.1539)。
在獲得最佳的核函數(shù)參數(shù)σ和懲罰因子C后,將500個(gè)巖性樣本作為學(xué)習(xí)集(表2)進(jìn)行訓(xùn)練,得到相應(yīng)的支持向量機(jī)模型,120個(gè)巖性樣本作為驗(yàn)證集用以檢驗(yàn)該模型在研究區(qū)的巖性識(shí)別能力,并與BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行比對(duì)。表3列出了部分測(cè)試樣品輸入的測(cè)井參數(shù)及識(shí)別結(jié)果,表4列出了所有測(cè)試樣品的分類情況。
表1 烏夏地區(qū)巖性平均測(cè)井響應(yīng)范圍及響應(yīng)特征
表2 部分訓(xùn)練樣品的測(cè)井參數(shù)值及巖性標(biāo)識(shí)
注:1.泥巖;2.細(xì)砂巖;3.中砂巖;4.砂礫巖.
從表3、表4列出的結(jié)果可以看出GA-SVM模型在巖性識(shí)別方面具備較大的優(yōu)勢(shì),對(duì)比用相同的樣本進(jìn)行訓(xùn)練得到的BP神經(jīng)網(wǎng)絡(luò)模型,GA-SVM模型的識(shí)別準(zhǔn)確率明顯更高。其中,GA-SVM模型對(duì)泥巖和中砂巖的識(shí)別準(zhǔn)確度最高,分別達(dá)到88.6%和88.3%,其次是砂礫巖,準(zhǔn)確度為78.6%,最差的是細(xì)砂巖,為74.1%。通過對(duì)比和分析發(fā)現(xiàn),識(shí)別錯(cuò)誤的樣本主要是將細(xì)砂巖誤判為中砂巖和泥巖,由于這兩種巖性物性相似,導(dǎo)致其測(cè)井響應(yīng)特征差異不大。另外,井壁坍塌、裂縫以及巖芯編錄過程中的人工識(shí)別誤差也是產(chǎn)生誤判的原因。總體而言,在120個(gè)驗(yàn)證樣品中,GA-SVM方法識(shí)別正確的樣品數(shù)為98個(gè),準(zhǔn)確率為81.6%, BP神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率僅為65%。
表3 部分測(cè)試樣品的測(cè)井參數(shù)值及識(shí)別結(jié)果
表4 巖性識(shí)別統(tǒng)計(jì)結(jié)果
(1)通過建立測(cè)井?dāng)?shù)據(jù)和巖性的對(duì)應(yīng)關(guān)系,利用支持向量機(jī)在非線性問題和小樣本情況下的分類優(yōu)勢(shì),對(duì)砂礫巖巖性進(jìn)行劃分。
(2)砂礫巖形成環(huán)境復(fù)雜,非均質(zhì)性強(qiáng)是造成砂礫巖巖性判別的難點(diǎn)。
(3)遺傳算法的全局搜索策略能夠?qū)ふ业阶顑?yōu)的支持向量機(jī)參數(shù),利用遺傳算法對(duì)支持向量機(jī)巖性識(shí)別模型進(jìn)行優(yōu)化調(diào)整,實(shí)際數(shù)據(jù)預(yù)測(cè)得到的總體準(zhǔn)確率為81.6%,優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。