柳成志,滕立惠
(東北石油大學(xué),黑龍江 大慶 163318)
利用支持向量機(jī)識(shí)別松遼盆地火山巖巖性
柳成志,滕立惠
(東北石油大學(xué),黑龍江 大慶 163318)
利用支持向量機(jī)(SVM)方法,選取個(gè)性特征元素,建立火山巖巖性成分的識(shí)別方法,來(lái)區(qū)分玄武質(zhì)、安山質(zhì)、粗面質(zhì)、英安質(zhì)、流紋質(zhì)火山巖巖性.通過(guò)對(duì)松遼盆地內(nèi)部的火山巖樣本進(jìn)行學(xué)習(xí)和預(yù)測(cè),火山巖大類(lèi)平均識(shí)別率達(dá)到95%以上,表明支持向量機(jī)在火山巖巖性成分識(shí)別方面取得了良好效果.
松遼盆地;火山巖巖性;支持向量機(jī);核函數(shù)
近年來(lái)隨著深層天然氣及外圍盆地勘探的深入,勘探的目的層主要變?yōu)橐曰鹕綆r巖性為主的地層.以往對(duì)火山巖巖性識(shí)別主要依靠肉眼觀察、薄片鑒定等手段,但由于肉眼觀察描述需要深厚的巖石礦物學(xué)專(zhuān)業(yè)知識(shí)和豐富的實(shí)踐經(jīng)驗(yàn),在錄井現(xiàn)場(chǎng)工作人員的實(shí)踐經(jīng)驗(yàn)還不豐富,無(wú)法達(dá)到精確判斷的需求.而薄片鑒定、化學(xué)分析等鑒定手段由于周期長(zhǎng)、成本高,不能及時(shí)地對(duì)現(xiàn)場(chǎng)每個(gè)點(diǎn)、層進(jìn)行識(shí)別和描述.所以需要通過(guò)開(kāi)展能夠滿足各類(lèi)火山巖個(gè)性特征元素分析測(cè)定的分析儀器樣機(jī)研制,對(duì)代表性樣品元素進(jìn)行分析.
因此,深入開(kāi)展火山巖元素識(shí)別巖性方法研究,選取不同巖石的個(gè)性特征元素,利用支持向量機(jī)來(lái)建立不同巖石的巖性識(shí)別方法,對(duì)建立正確的地層巖性剖面,認(rèn)識(shí)火山巖的復(fù)雜地質(zhì)特征具有積極的影響和重要的意義.
支持向量機(jī)(Support Vector Machine,SVM)是Cortes和Vapnik于1995年正式提出的[1],以最小化錯(cuò)誤率理論界限為思想,以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),能較好地解決小樣本學(xué)習(xí)問(wèn)題的一種新的機(jī)器學(xué)習(xí)方法[2].對(duì)于支持向量機(jī)的通俗表述,就是在已知樣本和部分函數(shù)值的情況下,努力尋求某一映射,對(duì)未知的函數(shù)值進(jìn)行估計(jì)判斷[3].與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,SVM不僅具有堅(jiān)實(shí)的理論基礎(chǔ),而且結(jié)構(gòu)簡(jiǎn)單,各種技術(shù)性能尤其是泛化能力明顯提高,因此被廣泛應(yīng)用于模式分類(lèi)、函數(shù)估計(jì)及回歸分析等領(lǐng)域[4].
1.1 支持向量機(jī)原理
支持向量機(jī)算法的主要思想是尋找一個(gè)能將兩類(lèi)樣本正確劃分,并且使分類(lèi)間隔最大的平面,即最優(yōu)分類(lèi)面.例如給定一組由兩類(lèi)點(diǎn)組成的訓(xùn)練樣本(xi,yi),i=1,2, ,n,xi∈Rd,yi∈{+1,-1},其中n為訓(xùn)練集數(shù),d為空間維數(shù),當(dāng)xi屬于第一類(lèi),則標(biāo)記為yi=+1,如果屬于第二類(lèi),則標(biāo)記為yi=-1.
圖1 最優(yōu)分類(lèi)面Fig.1Optimal hyperplane
圖1中,N+和N-代表兩類(lèi)樣本,P是分類(lèi)面,P1和P2分別為過(guò)各類(lèi)中離分類(lèi)線最近的樣本且平行于分類(lèi)線的直線,兩者之間的距離叫做分類(lèi)間隔.
假設(shè)存在一個(gè)超平面,能將這組訓(xùn)練樣本完全分開(kāi),使得:
其中<,>代表向量點(diǎn)積.可以把上述不等式合并,寫(xiě)成:
由于參數(shù)(w,b)不是唯一確定的,可以相差一個(gè)常數(shù)因子yi,此時(shí)的分類(lèi)間隔等于2/(‖‖w),間隔最大等價(jià)于使‖w‖2最小,滿足式(3)且使最小的分類(lèi)面就是最優(yōu)分類(lèi)面.
根據(jù)以上分析,求解最優(yōu)分類(lèi)超平面可以歸結(jié)為如下二次優(yōu)化問(wèn)題:
這是一個(gè)嚴(yán)格的凸規(guī)劃問(wèn)題,有唯一的極值點(diǎn),而函數(shù)的極值點(diǎn)就是Lagrange函數(shù)的鞍點(diǎn)[5],所以求下列Lagrange函數(shù)的鞍點(diǎn):
其中αi為每個(gè)樣本所對(duì)應(yīng)的Lagrange乘子,yi為第i個(gè)樣本的標(biāo)簽,xi為樣本點(diǎn)向量.在鞍點(diǎn)處,參數(shù)w,b的梯度都為零:
將(6)(7)式代入(5)式中,消去w,b可得原優(yōu)化問(wèn)題的Wolfe對(duì)偶問(wèn)題,即在約束條件下,對(duì)αi求解下列函數(shù)W(α)的最大值:
利用任一支持向量和KKT條件,依據(jù)在鞍點(diǎn)處,對(duì)偶變量與約束的乘積為0,即:
這樣就可以得到所求的最優(yōu)分類(lèi)判別函數(shù):
1.2 核函數(shù)
對(duì)于一些非線性問(wèn)題,只要選擇適當(dāng)?shù)暮撕瘮?shù),支持向量機(jī)就可以先將低維空間的非線性轉(zhuǎn)換為高維空間的線性問(wèn)題,再將高維空間的點(diǎn)積運(yùn)算轉(zhuǎn)換為低維空間的核函數(shù)運(yùn)算,從而回到原始的低維空間[3].采用的核函數(shù)不同能夠?qū)е虏煌闹С窒蛄繖C(jī)的算法[6-7].目前,支持向量機(jī)多使用以下3種核函數(shù):
2.1 巖性分類(lèi)流程
松遼盆地深層火山巖地層提供了154個(gè)有準(zhǔn)確巖心薄片定名資料的數(shù)據(jù)點(diǎn),即支持向量機(jī)的樣本數(shù)目為154個(gè),選取其中88個(gè)樣本作為訓(xùn)練樣本,66個(gè)樣本作為測(cè)試樣本.
通過(guò)對(duì)不同巖性火山巖的研究,最終選取Na、Mg、Si、K、Ti、Sr、Ag、In、Ba、Ca 10個(gè)元素屬性作為樣本的輸入維數(shù),并且按照SVM的格式輸入數(shù)據(jù)(見(jiàn)表1).將地質(zhì)上按照巖石常量元素化學(xué)成分劃分的火山巖類(lèi)別作為支持向量機(jī)的預(yù)測(cè)結(jié)果,即下述5大類(lèi):玄武質(zhì)火山巖類(lèi)、安山質(zhì)火山巖類(lèi)、粗面質(zhì)火山巖類(lèi)、英安質(zhì)火山巖類(lèi)、流紋質(zhì)火山巖類(lèi).這樣樣本空間便是10維5類(lèi).
選定RBF函數(shù)后,確定該模型的參數(shù)g以及懲罰參數(shù)c.主要采用了Matlab LibSVM分類(lèi)法確定模型參數(shù)(圖2):
對(duì)于給定的151個(gè)數(shù)據(jù)點(diǎn)的10個(gè)元素屬性數(shù)據(jù),首先選定一組c和g的范圍,c=2-6,2-3, 215和g=2-15,2-12, 215,逐漸調(diào)小步長(zhǎng),再確定一組參數(shù)c=2-5, 20, 215和g=22,23, 2-14,將得到的準(zhǔn)確率最高,可知當(dāng)c=2,g=4時(shí),針對(duì)66個(gè)樣本點(diǎn)的回判分類(lèi),共有3個(gè)點(diǎn)分類(lèi)錯(cuò)誤,回判正確率為95.5%(圖3).
表1 SVM部分輸入數(shù)據(jù)Table 1Input data for SVM
圖2 火山巖巖性分類(lèi)程序Fig.2Classification program of volcanic rocks
圖3 火山巖巖性分類(lèi)的準(zhǔn)確率等值線Fig.3Accuracy contour of volcanic rock classification
2.2 結(jié)果及討論
使用Matlab 2010b編寫(xiě)處理數(shù)據(jù),利用已經(jīng)學(xué)習(xí)后的SVM模型進(jìn)行火山巖巖性成分識(shí)別,結(jié)果見(jiàn)表2.由表2可知,采用SVM識(shí)別松遼盆地深層火山巖的巖性與實(shí)際取心資料進(jìn)行對(duì)比,其中英安質(zhì)、粗面質(zhì)火山巖符合率達(dá)到100%,說(shuō)明在小樣本的情況下,利用支持向量機(jī)能夠準(zhǔn)確識(shí)別火山巖巖性,提高劃分精度.
(1)利用支持向量機(jī)方法來(lái)識(shí)別火山巖巖性,在小樣本、高維和非線性情況下能獲得較高的準(zhǔn)確率.
表2 支持向量機(jī)分析巖性準(zhǔn)確率Table 2Accuracy of SVM analysis
(2)在對(duì)火山巖巖性成分識(shí)別的過(guò)程中,支持向量機(jī)能夠充分發(fā)現(xiàn)巖性與個(gè)性特征元素之間的映射關(guān)系,保證良好的學(xué)習(xí)效果.
丹東五龍山(五龍山風(fēng)景區(qū)管理委員會(huì)提供)
[1]Cortes C,Vapnik V.Support vector networks[J].Machine Learning, 1995,20:273—295.
[2]李艷芳,程建遠(yuǎn),王成.基于支持向量機(jī)的地震屬性優(yōu)選及煤層氣預(yù)測(cè)[J].煤田地質(zhì)與勘探,2012,40(6):75—78.
[3]朱永才.基于支持向量機(jī)的儲(chǔ)層參數(shù)預(yù)測(cè)方法研究[D].成都:西南石油大學(xué),2012:12—13.
[4]王奇安.基于廣泛內(nèi)核的CVM算法研究及參數(shù)C的選擇[D].南京:南京航空航天大學(xué),2009:1—2.
[5]席少霖.非線性最優(yōu)化方法[M].北京:高等教育出版社,1992.
[6]Osuna E,Freund R,Girosi F.An improved training algorithm for support vectormachines[A]//NeuralnetworksforsignalprocessingVII.Proceedings of IEEE 1997 workshop.New York.
[7]Vapnik V N.Estimation of dependences based on empirical data[M]. Spring-Verlag,1982.
RECOGNITION OF THE LITHOLOGY OF VOLCANIC ROCKS IN SONGLIAO BASIN BY SUPPORT VECTOR MACHINE
LIU Cheng-zhi,TENG Li-hui
(Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China)
Using the method of support vector machine(SVM),with selection of characteristic elements,an identification method for the lithology of volcanic rocks is established to distinguish the basaltic,andesitic,trachytic,dacitic and rhyolitic volcanic rocks.By learning and prediction of the volcanic rock samples from the Songliao Basin,the average recognition rate for volcanic rocks reaches to 95%and more,showing that the SVM obtain a good result in the identification of volcanic rock component.
SongliaoBasin;lithologyofvolcanicrocks;supportvectormachine;kernelfunction
1671-1947(2014)03-0288-04
P631
A
2013-06-21;
2013-07-30.編輯:張哲.
柳成志(1962—),男,博士,教授,從事層序地層學(xué)、成巖作用、油氣儲(chǔ)層地質(zhì)學(xué)、沉積學(xué)、火山巖油氣藏研究,通信地址黑龍江省大慶市高新技術(shù)開(kāi)發(fā)區(qū)發(fā)展路199號(hào),E-mail//chzhdq@vip.sina.com