馬海,楊錦舟,肖紅兵,劉慶龍,王延江
(1.中國石化勝利石油管理局鉆井工藝研究院,山東 東營(yíng) 257017;2.中國石油大學(xué)信息與控制工程學(xué)院,山東 青島 266555)
當(dāng)一個(gè)變量呈現(xiàn)為空間分布時(shí),稱之為區(qū)域化變量[1]。從地質(zhì)學(xué)的觀點(diǎn)來看,區(qū)域化變量可以反映地質(zhì)變量的局部性、連續(xù)性、異向性、可遷性等特征。測(cè)井曲線符合區(qū)域化變量的特征,其插值重構(gòu)方法研究已成為國內(nèi)外研究的熱點(diǎn)之一[2-3]。常用的測(cè)井曲線插值方法有三角剖分法[4]、距離加權(quán)反比法[5]、徑向基函數(shù)法[6]、多項(xiàng)式趨勢(shì)面法[7]、分形[8]、克里金插值[9]、神經(jīng)網(wǎng)絡(luò)[10]、支持向量機(jī)[11]等,其中以克里金插值方法為代表的地質(zhì)統(tǒng)計(jì)學(xué)方法和以支持向量機(jī)為代表的統(tǒng)計(jì)學(xué)習(xí)理論方法應(yīng)用最為廣泛??死锝鸩逯邓惴ㄖ械淖儺惡瘮?shù)能夠很好地表征空間變量相關(guān)結(jié)構(gòu)性,但平滑效應(yīng)往往掩蓋了非均質(zhì)性。支持向量機(jī)具有較強(qiáng)的非線性自學(xué)習(xí)能力和泛化能力,克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法容易陷入局部最小的缺點(diǎn),但其難以反映空間結(jié)構(gòu)。綜合考慮2種方法,將支持向量機(jī)與變異函數(shù)相融合,同時(shí)利用粒子群優(yōu)化算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化,這樣既可以體現(xiàn)空間變量的屬相相關(guān)性又能夠反映其空間相關(guān)性。
支持向量機(jī)(Support Vector Machine,SVM)是一種新的機(jī)器學(xué)習(xí)算法,它的基礎(chǔ)是Vapnik的統(tǒng)計(jì)學(xué)習(xí)理論[12-13]。自從 Vapnik等人引入支持向量機(jī)理論以來,SVM在模式識(shí)別方面得到了廣泛的應(yīng)用[14-16],近年來也被開始用于回歸估 計(jì)[17-18]。傳統(tǒng)的學(xué)習(xí)方法采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,在訓(xùn)練中力求最小化樣本誤差,不可避免地出現(xiàn)過擬合現(xiàn)象,模型的泛化能力受到了限制。支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上形成的,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,從而提高了學(xué)習(xí)機(jī)器的泛化能力;SVM的求解最后轉(zhuǎn)化成二次規(guī)劃問題的求解,因此,SVM的解是全局最優(yōu)的[12]。
對(duì)于支持向量機(jī)函數(shù)擬合,考慮用非線性擬合函數(shù)f(x)=w·φ(x)+b擬合數(shù)據(jù)(xi,yi)(i=1,2,…,n,xi∈Rn,yi∈R)的問題。假設(shè)所有訓(xùn)練數(shù)據(jù)在ε精度下無誤差地用非線性函數(shù)擬合,即
解決復(fù)雜非線性問題的徑向基(RBF)核函數(shù)[12-13]為
式中,γ為寬度系數(shù)。
變異函數(shù)是地質(zhì)統(tǒng)計(jì)學(xué)中描述區(qū)域化變量空間結(jié)構(gòu)性和隨機(jī)性的基本工具[19-20]。在相距為h的2個(gè)空間點(diǎn)x和x+h的參數(shù)值Z(x)和Z(x+h)之間的方差,稱為變異函數(shù),其數(shù)學(xué)表達(dá)式為
式中,h為滯后距,即xi和xi+h的2個(gè)點(diǎn)之間的距離;Z(xi)、Z(xi+h)分別為xi和xi+h的2個(gè)點(diǎn)的實(shí)測(cè)值;N(h)為距離為h的數(shù)據(jù)對(duì)的數(shù)目;γ(h)為實(shí)驗(yàn)變異函數(shù)值。
根據(jù)計(jì)算的實(shí)驗(yàn)變異函數(shù),選擇合適的模型進(jìn)行擬合,求得理論變異函數(shù)。常用的模型為球狀模型[20-21],其形式為
式中,c0為塊金效應(yīng)值;c為基臺(tái)值;a為變程。
常用的擬合方法主要有最小二乘法、多項(xiàng)式加權(quán)擬合法、線性規(guī)劃擬合法等。理論變異函數(shù)的擬合實(shí)際上是一種求解最優(yōu)無偏估計(jì)的優(yōu)化過程,通過選擇合適的擬合方法可以求解出球狀模型中的參數(shù)c0、c、a。
支持向量機(jī)插值就是利用支持向量機(jī)算法自動(dòng)求取輸入和輸出之間的權(quán)系數(shù),實(shí)現(xiàn)對(duì)未知點(diǎn)的插值。對(duì)于空間變量插值問題,將空間點(diǎn)的坐標(biāo)值作為網(wǎng)絡(luò)輸入,將空間變量的屬性值作為網(wǎng)絡(luò)輸出。利用支持向量機(jī)進(jìn)行插值的目的就是要通過支持向量機(jī)網(wǎng)絡(luò)的訓(xùn)練獲取網(wǎng)絡(luò)輸入與網(wǎng)絡(luò)輸出的非線性映射關(guān)系,進(jìn)而將網(wǎng)絡(luò)模型進(jìn)行推廣。在訓(xùn)練過程中既要達(dá)到網(wǎng)絡(luò)輸出值與期望輸出值誤差最小,同時(shí)又要受到空間相關(guān)性的約束,即
式中,n為樣本點(diǎn)數(shù)目;yi為第i個(gè)樣本點(diǎn)的期望輸出值;oi為第i個(gè)樣本點(diǎn)的實(shí)際輸出值;m為用來計(jì)算變異函數(shù)的數(shù)據(jù)點(diǎn)的最大滯后數(shù);γ(hk)為由樣本點(diǎn)數(shù)據(jù)得到的變異函數(shù)值;γ′(hk)為由網(wǎng)絡(luò)輸出數(shù)據(jù)得到的變異函數(shù)值;hk為第k組數(shù)據(jù)對(duì)對(duì)應(yīng)的間隔距離;ε為允許的誤差限。
采用拉格朗日乘子法求解這個(gè)線性不等式約束問題,則式(8)可以表示為
其中,α為拉格朗日乘子。
支持向量機(jī)模型的復(fù)雜度、泛化能力取決于C、γ這2個(gè)參數(shù),特別是它們之間的相互影響關(guān)系[12]。其中,懲罰系數(shù)C反映了算法對(duì)超出ε管道的樣本數(shù)據(jù)的懲罰程度,其值影響模型的復(fù)雜性和穩(wěn)定性。C過小,對(duì)超出ε管道的樣本數(shù)據(jù)懲罰就小,訓(xùn)練誤差變大;C過大,學(xué)習(xí)精度相應(yīng)提高,但模型的泛化能力變差。另外,C值影響到對(duì)樣本中離群點(diǎn)的處理,選取合適的C就能在一定程度上抗干擾,從而保證模型的穩(wěn)定性。RBF核的寬度系數(shù)γ反映了支持向量之間的相關(guān)程度。γ很小,支持向量間的聯(lián)系比較松弛,學(xué)習(xí)機(jī)器相對(duì)復(fù)雜,推廣能力得不到保證;γ太大,支持向量間的影響過強(qiáng),模型難以達(dá)到足夠的精度。
支持向量機(jī)模型要事先確定懲罰系數(shù)C及RBF核的寬度系數(shù)γ。對(duì)于這2個(gè)參數(shù)的選擇方法,多是建立在經(jīng)驗(yàn)和試湊的基礎(chǔ)之上。對(duì)此,本文采用PSO優(yōu)化算法[22]計(jì)算,將支持向量機(jī)參數(shù)C和γ作為粒子的位置向量,在每一次迭代中,粒子通過跟蹤個(gè)體極值點(diǎn)和全局極值點(diǎn),不斷更新自己的速度和位置,直到找到空間中的最優(yōu)解。
該例為一組由測(cè)井獲得的地溫場(chǎng)數(shù)據(jù)[23]。方形區(qū)域被等間隔成9×9個(gè)單元,共100個(gè)網(wǎng)格點(diǎn),原始數(shù)據(jù)等值線圖見圖1??梢钥闯?,在上、下邊界線處等值曲線形狀很不一樣,在下部形狀為圓滑的凸面,而上部由于值的突變形成了直線。
圖1 原始數(shù)據(jù)等值線圖
從100個(gè)網(wǎng)格點(diǎn)中隨機(jī)抽取25個(gè)點(diǎn)組成4個(gè)數(shù)據(jù)排列樣本,分別用距離加權(quán)反比法、徑向基函數(shù)法、克里金法、支持向量機(jī)法和改進(jìn)支持向量機(jī)法根據(jù)不同的數(shù)據(jù)排列對(duì)100個(gè)網(wǎng)格點(diǎn)進(jìn)行插值恢復(fù)。圖2給出了各種方法插值重構(gòu)結(jié)果;表1為各種方法插值效果比較。
由圖2可以看出,改進(jìn)的支持向量機(jī)方法無論采樣的空間數(shù)據(jù)點(diǎn)如何排列都能夠較好并且較穩(wěn)定地恢復(fù)空間變量分布。通過分析表1可知,改進(jìn)的支持向量機(jī)方法在平均絕對(duì)誤差、平均相對(duì)誤差、均方根誤差、相關(guān)系數(shù)和方差各個(gè)指標(biāo)都是最好的,而這些指標(biāo)能夠從不同的角度表征空間變量的插值效果。由此可見,本文提出的方法在空間變量的插值精度和穩(wěn)定性上具有較強(qiáng)的優(yōu)勢(shì)。
圖2 各種方法插值重構(gòu)結(jié)果
表1 各種方法插值效果比較
選用我國北方某煤礦某煤層鉆孔點(diǎn)上的實(shí)測(cè)數(shù)據(jù)為例。選取該煤層64個(gè)鉆孔數(shù)據(jù),包括鉆孔號(hào)、鉆孔坐標(biāo)、煤層厚度數(shù)據(jù)。鉆孔位置分布見圖3。
煤層并非一個(gè)均質(zhì)體,而是一個(gè)時(shí)空連續(xù)的變異體,具有高度的空間異質(zhì)性。煤層厚度能夠反映地質(zhì)變量的結(jié)構(gòu)和隨機(jī)性特征,該變量呈現(xiàn)空間分布,是一種區(qū)域化空間變量。由于鉆孔位置分布不規(guī)則,通過空間插值算法得到煤層厚度數(shù)據(jù)的空間等值線圖[見圖3(a)]。從64個(gè)數(shù)據(jù)中抽取其中50個(gè)數(shù)據(jù)作為已知樣本,利用改進(jìn)的支持向量機(jī)方法對(duì)其他14個(gè)數(shù)據(jù)進(jìn)行空間插值重構(gòu),結(jié)果見圖3(b)。
圖3 煤層厚度等值線圖
利用改進(jìn)的支持向量機(jī)方法進(jìn)行插值重構(gòu),平均絕對(duì)誤差為0.1392,平均相對(duì)誤差為0.0993,均方根誤差為0.3100,相關(guān)系數(shù)為0.9083,方差為0.1328。通過以上數(shù)據(jù)及圖3可以看出,該方法插值效果較好,具有較強(qiáng)的屬相相關(guān)性和空間相關(guān)性。
選取新疆油田準(zhǔn)噶爾盆地中央隆起馬橋凸起莫西莊背斜構(gòu)造的莊字號(hào)區(qū)塊的莊2井、莊3井、莊4井、莊5井、莊101井、莊102井、莊103井、莊104井、莊105井、莊106井和莊107井的測(cè)井聲波時(shí)差數(shù)據(jù),結(jié)合區(qū)塊地質(zhì)構(gòu)造信息對(duì)莊1井西山窯組層位的聲波時(shí)差數(shù)據(jù)進(jìn)行插值重構(gòu)。為了對(duì)插值重構(gòu)結(jié)果進(jìn)行比較,實(shí)驗(yàn)中分別采用了距離加權(quán)反比法、徑向基函數(shù)法、克里金法、支持向量機(jī)法和改進(jìn)支持向量機(jī)法。圖4給出了利用各種方法對(duì)莊1井測(cè)井聲波時(shí)差重構(gòu)的結(jié)果比較圖。采用改進(jìn)的支持向量機(jī)算法的莊1井測(cè)井聲波時(shí)差重構(gòu)結(jié)果見圖5示。圖6給出了莊字號(hào)井4149~4159m井段聲波時(shí)差測(cè)井曲線圖。
圖4 莊1井測(cè)井聲波時(shí)差重構(gòu)結(jié)果
從圖5可以看出,采用改進(jìn)的支持向量機(jī)算法對(duì)莊1井測(cè)井聲波時(shí)差曲線進(jìn)行插值重構(gòu),插值重構(gòu)曲線在總體上與實(shí)際的測(cè)井聲波時(shí)差曲線符合較好,但同時(shí)也看到在一些井段出現(xiàn)了一定的差距,主要表現(xiàn)在4109~4116m、4149~4159m及4288~4300m井段。圖6以4149~4159m井段為例進(jìn)行說明,由于莊1井在此井段的聲波測(cè)井時(shí)差值明顯高于其鄰井在此井段的聲波測(cè)井時(shí)差值,因此在進(jìn)行插值重構(gòu)時(shí)很難擬合實(shí)際情況;同樣,在該井段其他的插值重構(gòu)方法也存在類似的問題。為了解決這個(gè)問題,還需要綜合考慮區(qū)塊的地質(zhì)概況及地層分層情況以及其他一些區(qū)塊信息,有效地將專家知識(shí)以適當(dāng)?shù)姆绞郊尤氲讲逯抵貥?gòu)中,以約束重構(gòu)的不確定性。表2比較了各種方法的聲波測(cè)井時(shí)差重構(gòu)結(jié)果。
表2 聲波測(cè)井時(shí)差重構(gòu)效果比較
通過對(duì)表2分析,可以看出由于改進(jìn)的支持向量機(jī)方法融合了空間變量的相關(guān)信息,在插值效果上優(yōu)于傳統(tǒng)的空間插值方法,誤差和方差相對(duì)較小,可以滿足插值重構(gòu)的精度要求,實(shí)現(xiàn)聲波測(cè)井時(shí)差的有效重構(gòu)。
(1)將變異函數(shù)融入支持向量機(jī)方法,提出了一種新的空間變量插值方法,該方法既可以體現(xiàn)空間變量的屬性相關(guān)性,又能反映其空間相關(guān)性。
(2)通過對(duì)測(cè)井的地溫場(chǎng)數(shù)據(jù)、煤層厚度數(shù)據(jù)以及測(cè)井聲波時(shí)差曲線的插值重構(gòu)結(jié)果可以看出,改進(jìn)的支持向量機(jī)算法相對(duì)其他插值重構(gòu)算法具有較高的插值精度和較好的相似度,能夠很好地實(shí)現(xiàn)對(duì)空間區(qū)域變量的插值重構(gòu)。
(3)通過該方法可以利用區(qū)塊已鉆井的地質(zhì)特征參數(shù)對(duì)待鉆井的鉆井地質(zhì)特征參數(shù)進(jìn)行鉆前空間插值,為鉆井模擬提供依據(jù)。
[1]侯景儒,尹鎮(zhèn)南,李維明,等.實(shí)用地質(zhì)統(tǒng)計(jì)學(xué)[M].北京:地質(zhì)出版社,1998.
[2]王政權(quán).地統(tǒng)計(jì)學(xué)及在生態(tài)學(xué)中的應(yīng)用[M].北京:科學(xué)出版社,1999.
[3]張仁鐸.空間變異理論及應(yīng)用[M].北京:科學(xué)出版社,2005.
[4]邵才瑞,關(guān)麗,張福明.基于測(cè)井?dāng)?shù)據(jù)的地質(zhì)曲面插值重構(gòu)方法比較[J].測(cè)井技術(shù),2005,29(4):311-315.
[5]Lu G Y,Wong D W.An Adaptive Inverse-distance Weighting Spatial Interpolation Technique[J].Computer & Geoscience,2008,34(9):1044-1055.
[6]張小浩,周鼎武.徑向基函數(shù)方法在南泥灣油田勘探中的應(yīng)用[J].地球物理學(xué)進(jìn)展,2007,22(1):213-217.
[7]張俊艷,韓文秀,劉東海.工程地質(zhì)趨勢(shì)面分析的智能方法及其應(yīng)用[J].吉林大學(xué)學(xué)報(bào):地球科學(xué)版,2005,35(1):59-63.
[8]李信富,李小凡.分形插值地震數(shù)據(jù)重建方法研究[J].地球物理學(xué)報(bào),2008,51(4):1196-1201.
[9]常文淵,戴新剛,陳洪武.地質(zhì)統(tǒng)計(jì)學(xué)在氣象要素場(chǎng)插值的實(shí)例研究[J].地球物理學(xué)報(bào),2004,47(6):982-990.
[10]Cellura M,Cirrincione G,Marvuglia A,Miraoui A.Wind Speed Spatial Estimation for Energy Planning in Sicily:A Neural Kriging Application[J].Renewable Energy,2008,33:1251-1266.
[11]馬云潛,張學(xué)工.支持向量機(jī)函數(shù)擬合在分形插值中的應(yīng)用[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2000,40(3):76-78.
[12]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.
[13]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-42.
[14]張翔,王智,羅菊蘭,等.基于逐步判別與支持向量機(jī)的沉積微相定量識(shí)別[J].測(cè)井技術(shù),2010,33(4):365-369.
[15]劉靜,李正從,王智,等.基于ICA、PCA和SVM方法的沉積微相定量識(shí)別[J].測(cè)井技術(shù),2011,34(3):262-265.
[16]鐘儀華,李榕.基于主成分分析的最小二乘支持向量機(jī)巖性識(shí)別方法[J].測(cè)井技術(shù),2009,32(5):425-429.
[17]張作清,韓克寧,于代國,等.應(yīng)用支持向量機(jī)方法預(yù)測(cè)儲(chǔ)層敏感性[J].測(cè)井技術(shù),2005,28(4):308-310.
[18]王延江,楊培杰,史清江,等.一種基于支撐向量機(jī)學(xué)習(xí)預(yù)測(cè)井眼軌跡的新方法[J].石油學(xué)報(bào),2005,26(5):98-101.
[19]王家華,高海余,周葉.克里金地質(zhì)繪圖技術(shù)[M].北京:石油工業(yè)出版社,1999.
[20]趙國忠,尹芝林.井間參數(shù)預(yù)測(cè)中的實(shí)用變異函數(shù)擬合方法[J].石油學(xué)報(bào),1998,19(1):75-78.
[21]靳松,朱筱敏,鐘大康.變差函數(shù)在沉積微相自動(dòng)識(shí)別中的應(yīng)用[J].石油學(xué)報(bào),2006,27(3):57-60.
[22]Kennedy J,Eberhart R C.Particle Swarm Optimization[C]∥Proceedings of the IEEE International Conference on Neural Networks,Perth WA Australia,1995,1942-1948.
[23]Koike K,Matsuda S,Gu B.Evaluation of Interpolation Accuracy of Neural Kriging with Application to Temperature-distribution Analysis[J].Mathematical Geology,2001,33(4):421-448.