吳 軍,臧艷彬,陳星星
(1.中國石化重慶涪陵頁巖氣勘探開發(fā)有限公司,重慶408014;2.中國石化石油工程技術研究院,北京100101)
作為人工智能技術基礎學科的模式識別技術,在文字識別、遙感、氣象預報、軍事偵察等領域都取得了巨大成效。模式識別自20世紀60年代發(fā)展成為一門獨立學科以來,共經歷了2個階段:統計模式階段和人工智能階段。統計模式識別方法主要有判別函數法、k近鄰分類法、Bayes判別法、主因子分析法等,其中Bayes判別規(guī)則從理論上解決了最優(yōu)分類器的設計問題。90年代統計推斷理論研究所取得的突破性成果促成現代統計學習(VC)理論的建立,該理論不僅在嚴格的數學基礎上圓滿地回答了人工神經網絡中出現的理論問題,而且導出了一種新的學習方法——支撐向量機,從而將模式識別技術推向另一個高峰[1]。
卡鉆是鉆井施工過程中最常見和易發(fā)的事故之一,卡鉆事故的影響因素多種多樣且關系復雜,傳統的統計分析和摩阻系數方法預測效果不理想。目前卡鉆預測與判別技術尚沒有實質性的突破。卡鉆的鉆前預測與預防主要依靠工程技術人員的操作經驗和相關技術規(guī)范進行,預測精度較低。本文以近幾年中石化四川盆地川東北地區(qū)(元壩、普光等氣田)卡鉆資料為樣本,采用支持向量機方法進行了卡鉆判別分析,建立了卡鉆類型判別方程,并分別與Bayes判別法和多元回歸分析的預測結果進行了對比。計算結果表明,利用模式識別理論建立的卡鉆類型判別模型進行卡鉆的預測和評估是切實可行的[2-8]。
假定被解釋變量Y與多個解釋變量X1,X2,…,Xk之間具有線性關系,是解釋變量的多元線性函數,稱為多元線性回歸模型[9]。即
其中Y為被解釋變量,Xj(j=1,2,…,k)為 k個解釋變量,βj(j=0,1,2,…,k)為 k+1 個未知參數,μ為隨機誤差項。
設G1,G2,…,Gk為k個p元總體,分別具有概率密度 f1(x),f2(x),…,fk(x),在進行判別分析以前,我們已對各總體有一定的了解。一般說來,一個待判樣品應該首先考慮判入有較大可能出現的總體之中[10]。在Bayes判別中,應該考慮誤判引起的損失。
此時的Bayes判別法則:
Bayes判別(即使L達到最小)的最優(yōu)劃分為:
支持向量機是V.Vipnik等根據統計學理論(Statistical Learning Theory簡稱SLT)提出的一種新的機器學習方法,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優(yōu)勢[8]。支持向量機從本質上講是一種前向神經網絡,通過核函數將實際問題轉換到高維特征空間,并在高維特征空間中構造線性判別函數來實現原空間中的非線性判別函數。從實施的角度考慮,訓練支持向量機的核心思想等價于求解一個線性約束的二次規(guī)劃問題,從而構造一個超平面作為決策平面,使得特征空間中兩類模式之間的距離最大,而且它能保證得到的解為全局最優(yōu)解[11]。
設線性可分樣本集為(xi,yi),i=1,2,…,n,x∈Rd,y∈{+1,-1}是類別標號。d維空間中線性判別函數的一般形式為:g(x)=w·x+b,分類面方程為:
將判別函數進行歸一化,使兩類所有樣本都滿足|g(x)|≥1,即,使離分類面最近的樣本|g(x)|=1,這樣分類間隔就等于2/||w||,因此間隔最大等價于使||w||(或||w||2)最小。而要求分類線對所有樣本正確分類,就是要求其滿足:
因此,滿足上述條件且使||w||2最小的分類面就是最優(yōu)分類面。這兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上的訓練樣本就是使
式(4)中等號成立的那些樣本,即支持向量(Support Vectors)。根據上面的討論,最優(yōu)分類面問題可以表示成如下的約束優(yōu)化問題,即在式(4)的約束下,求式(5)的最小值。
這是一個二次規(guī)劃問題,可定義以下的拉格朗日(Lagrange)函數:
其中:ai>0為Lagrange系數。求式(8)的極小值就是對w和b求拉氏函數的極小值。求L對w和b的偏微分,并令其等于0,可轉化為對偶問題。
如果用內積K(x,x’)代替最優(yōu)分類面中的點積,就相當于把原特征空間變換到了某一新的特征空間,此時優(yōu)化函數變?yōu)?
相應的判別函數也應變?yōu)?
常用的核函數有以下幾種:
線性內積函數K(x,y)=xy;
多項式內積函數K(x,y)=(xy+1)d;
徑向基內積函數K(x,y)=exp(-|x-y|2/σ2);
二層神經網絡內積函數K(x,y)=tanh〔k(xy)+c〕。
為了對比分析3種判別方法,整理了中石化川東北地區(qū)(元壩、普光等氣田)卡鉆事故相關數據,這些參數包括影響卡鉆的主要參數,如地層參數、鉆井液性能參數及井徑擴大率的工藝參數。
參照現場數據,按照支持向量機、Bayes判別法和多元回歸分析建模要求,將所需數據作如下預處理:卡鉆類型按坍塌卡鉆、壓差卡鉆、縮徑卡鉆、沉沙卡鉆、鍵槽卡鉆、其他卡鉆、正常鉆進分類卡鉆類型值分別為(1,2,3,4,5,6,7);此次研究共搜集樣本52條,見表1。
(1)利用多元回歸分析算法求出卡鉆類型值與影響因素的關系式為:
表1 卡鉆類型判別樣本
上式中的殘余方差為340.058,多重相關系數為0.662,擬合精度較低。
(2)采用Bayes判別分析法求得卡鉆類型值與影響因素的關系為:
(3)采用支持向量機(SVM)計算出卡鉆類別值公式為:
其中SVM是非線性函數,這種函數可以用顯式的數學形式表示,故稱為“顯式”表達式。SVM卡鉆類型判別結果如圖1所示。
圖1 SVM卡鉆類型判別分析結果
以中石化川東北地區(qū)(元壩、普光等氣田)近幾年發(fā)生卡鉆事故案例為樣本,分別采用多元回歸分析、Bayes判別分析、支持向量機進行卡鉆類型判別分析,其預測結果見表2。
表2 3種算法預測結果對比
將3種算法對卡鉆故障預測結果對比(見表3),可以看出其優(yōu)劣排序為支持向量機>Bayes判別法>多元回歸分析??ㄣ@判別實例表明,支持向量機作為一種非線性算法遠比后兩種線性算法優(yōu)越。其根本原因在于卡鉆類型的影響參數與卡鉆類型存在復雜的非線性關系。另外,Bayes判別法也具有簡明、快速的優(yōu)點,其精度高于多元回歸分析,而多元回歸分析不僅計算速度快,而且具有能表達研究目標與其相關因素之間親疏關系的優(yōu)點,可作為輔助手段。
表3 3種算法綜合評價
(1)卡鉆應用實例表明,基于模式識別理論的支持向量機和Bayes判別法與多元回歸分析相比,對卡鉆類型識別準確率更高,特別是基于計算機機械學理論的支持向量機(SVM)模式識別方法,對卡鉆類型的識別率達到98.08%。
(2)將計算機模式識別理論應用于鉆井工程中卡鉆判別分析,取得了較好的識別效果,所建立的判別方程式具有卡鉆類型判別功能,從而為卡鉆類型分析與技術措施的制定提供指導意見。
(3)實際應用中可選擇其中的1~2種進行聯合判別。本研究為卡鉆類型的定量判別提供了一種新的研究思路,對現場卡鉆事故的預防與處理具有一定借鑒和參考價值。
[1] 邊肇祺,張學工.模式識別(第二版)[M].北京:清華大學出版社,2007:32-51.
[2] 閻鐵,畢雪亮,王長江.基于支持向量機和聚類分析理論的鉆具失效分析方法[J].石油學報,2007,28(3):135 -140.
[3] 石廣仁.支持向量機在多地質因素分析中的應用[J].石油學報,2008,29(2):195 -199.
[4] 李建軍,丁正生,張海燕.常用判別分類方法分析[J].西安科技大學學報,2007,27(1):138 -142.
[5] 羅剛,艾志久,王其華,等.基于模糊數學卡鉆事故安全評價體系研究[J].西南石油大學學報,2007,29(6):118 -122.
[6] 陳暉,沈小翠.卡鉆事故診斷仿真系統研究[J].石油機械,2009,37(7):55 -57.
[7] 張林強.井下卡鉆分析及處理[J].海洋石油,2007,(3):112-116.
[8] Vapnik V N.The nature of statistical learning theory[M].Translated by zhangxuegong.Bejing:Tsinghua University Press,2000:85 -205.
[9] 嚴麗,王燕,范樹平.多元回歸分析方法預測川東北礁灘相儲層產能[J].新疆石油天然氣,2011,7(4):37 -40.
[10] 顧和元,侯國慶,吳占偉.基于動態(tài)貝葉斯網絡的深水防噴器可靠性研究[J].石油機械,2013,41(3):36 -39.
[11] 韋明輝,黃海龍,韋忠良,等.基于支持向量機的鉆井風險實時預測方法[J].鉆采工藝,2012,35(5):15 -17.