黃 軍,孟凡順,2,張 旭,楊冠雨
(1.中國海洋大學 海洋地球科學學院,山東 青島 266100;2.海底科學與探測技術(shù)教育部重點實驗室,山東 青島 266100)
隨著油田注水開采的發(fā)展,油田套管損傷明顯增多,給我國油田造成了巨大的經(jīng)濟損失。套管損壞的原因非常復雜,很多時候石油生產(chǎn)專家都是通過個人經(jīng)驗來預測其破壞趨勢[1-2],但是經(jīng)驗的方法并不總能適用于一般情況。因此,套損預測研究具有重要的實際意義。目前有代表性的套損預測方法有:模糊數(shù)學法[3]、支持向量機法[4]、人工神經(jīng)網(wǎng)絡法等[5],但支持向量機在應用時模型的參數(shù)選擇困難,如懲罰參數(shù)、核函數(shù)的選取,而這些參數(shù)又在一定程度上影響著預測精度;模糊數(shù)學法模型的權(quán)重系數(shù)確定受到主觀因素的影響;人工神經(jīng)網(wǎng)絡因具有自主學習能力強、記憶能力強、非線性并行處理能力強、容錯能力強等特點,受到廣泛的關(guān)注[6],其中應用最多、最廣泛的是BP(Back Propagation)神經(jīng)網(wǎng)絡。目前許多學者將BP神經(jīng)網(wǎng)絡用在地學問題的研究中[7-8],但將其用于套損預測研究的并不多,且存在以下主要問題:一是當輸入變量之間的相關(guān)性很強的時候,會增加不必要的輸入維數(shù),這不僅會導致神經(jīng)網(wǎng)絡的收斂時間迅速增長,也可能會出現(xiàn)由于某些變量對輸出結(jié)果影響小而造成運算浪費[9];二是BP算法在訓練網(wǎng)絡之前先要隨機給定網(wǎng)絡的初始權(quán)值和閾值,而不能給出一個最優(yōu)值,而初始參數(shù)的選擇會對網(wǎng)絡的最終輸出有很大的影響[10]。
主成分分析(Principal component analysis,PCA)可以將多個變量轉(zhuǎn)化為少數(shù)幾個能反映數(shù)據(jù)大致信息的綜合指標,同時消除變量之間的相關(guān)性,其步驟為:
(1)對數(shù)據(jù)進行標準化。假設有n個樣本,每個樣本有p個指標,每個指標記為xij(i=1,2,…n;j=1,2,…p)。標準化后,
(2)建立變量的相關(guān)系數(shù)陣:
(1)
(3)計算R的特征值λi和特征向量:
αi=(αi1,αi2,…αip)T,i=1,2,…p。
(4)求取主成分Zi,
(2)
主成分分析的目的是為了提取到大部分的原始信息所攜帶的信息,而忽略那些攜帶信息較少的成分。在實際應用中,為了使原始信息得到充分利用,一般選取累計貢獻率β(k)在85%之上的對應成分作為保留成分[11]。累計貢獻率計算式為:
(3)
遺傳算法(Genetic Algorithm,GA)是Holland于1962年提出的一種從生物世界進化演變而來的隨機搜索方法,它具有良好的全局搜索能力。將遺傳算法與BP神經(jīng)網(wǎng)絡相結(jié)合(以下簡稱GA-BP),可以有效解決難以確定最佳網(wǎng)絡初始參數(shù)的問題[12](圖1)。
圖1 遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡算法的流程圖Fig.1 Flow chart for optimizing BP neural network using genetic algorithm
首先對原始數(shù)據(jù)進行主成分分析,將主成分提取出來并將其作為神經(jīng)網(wǎng)絡的輸入,在訓練神經(jīng)網(wǎng)絡之前,先用遺傳算法進行迭代,確定最佳的網(wǎng)絡權(quán)值和閾值,最后再利用BP神經(jīng)網(wǎng)絡進行套損預測(以下簡稱PCA-GA-BP),模型結(jié)構(gòu)如圖2所示。
圖2 PCA-GA-BP套損預測模型結(jié)構(gòu)Fig.2 PCA-GA-BP model for forecasting of casing damage
引起套損的因素是多種多樣的,從大類可以分為地質(zhì)因素、工程因素以及腐蝕因素。其中地質(zhì)因素包括油層出砂、泥巖蠕變、斷層影響等[13-15];工程因素包括固井質(zhì)量、射孔、注水情況等[16-18]等。本文研究區(qū)域為大慶油田南一區(qū)西西區(qū)塊,該區(qū)位于薩爾圖背斜構(gòu)造中部及西翼,構(gòu)造軸向北北西向,構(gòu)造東高西低,東翼傾角3°~7°,西翼傾角為5°~10°,區(qū)域內(nèi)斷層比較發(fā)育,傾向為南西和北東向,圖3展示了研究區(qū)域的具體位置。該區(qū)于1960年投入開發(fā),先后部署5套開發(fā)井網(wǎng),目前井網(wǎng)密度為93.1口/km?;A(chǔ)井網(wǎng)分2套層系開采:第一套是開采葡一組層系,第二套是開采薩+葡二組油層中、高滲透油層的層系,采用不規(guī)則四點法面積注水[19]。綜合考慮南一區(qū)的實際情況以及套損影響因素,將表1所列作為研究內(nèi)容。從南一區(qū)西西區(qū)塊選取該區(qū)域油井116口,水井216口,其中油井部分選取96口井作為訓練集,20口井作為預測集,水井部分隨機選取176口井作為訓練集,40口井作為預測集。
圖3 研究區(qū)域位置Fig.3 Regional location of the study area
編號代號詳細描述1t生產(chǎn)時間2cx層系,依據(jù)實際生產(chǎn)劃分的層系分類3s射孔層厚度4dc1距離井最近的斷層5dc2是否鉆遇斷層6bh套管壁厚度7gj套管鋼級8yy1統(tǒng)計時間內(nèi)最大油壓9yy2截止時間前1a內(nèi)的平均油壓10ty1統(tǒng)計時間內(nèi)最大套壓11ty2截止時間前1a內(nèi)的平均套壓12rz1統(tǒng)計時間內(nèi)最大日注水量(限水井)13rz2截止時間前1a內(nèi)的平均日注水量(限水井)14lz截止時間前1a內(nèi)的累計注水量(限水井)
3.1.1 網(wǎng)絡結(jié)構(gòu)及參數(shù)選擇
首先對輸入輸出數(shù)據(jù)進行歸一化,建立BP網(wǎng)絡,采用LM(Levenberg-Marquart)方法優(yōu)化網(wǎng)絡[20],激活函數(shù)選擇tansig函數(shù)。動量因子取0.95,訓練目標0.000 01。神經(jīng)網(wǎng)絡均為3層結(jié)構(gòu),即1個輸入層,1個隱含層以及1個輸出層,具體結(jié)構(gòu)為油井11×7×1,水井14×12×1。
3.1.2 結(jié)果分析
BP神經(jīng)網(wǎng)絡預測套損結(jié)果如圖4所示。從圖4可以看出,BP神經(jīng)網(wǎng)絡在預測套損情況時,準確率非常低,油井預測準確率為60%(用時0.7 s),而水井只有55%(用時1.3 s)。
圖4 BP神經(jīng)網(wǎng)絡模型預測結(jié)果Fig.4 Forecast results of casing damage by BP neural network
首先將采集到的數(shù)據(jù)進行主成分分析,然后將滿足要求的主成分作為神經(jīng)網(wǎng)絡的輸入進行訓練。表2和表3分別列舉了油水井累計貢獻率β(k)大于85%的各個主成分。
表2 累計貢獻率大于85%的主成分統(tǒng)計(油井)Tab.2 Statistics of the principal components whose cumulative contribution is higher than 85%(oil well)
表3 累計貢獻率大于85%的主成分統(tǒng)計(水井)Tab.3 Statistics of the principal components whose cumulative contribution is higher than 85%(water well)
由于主成分分析后的數(shù)據(jù)維度降低,將新的數(shù)據(jù)帶入之后,油井預測準確率60%,運算時間0.6 s;水井預測準確率60%,運行時間0.9 s,可以看出PCA降維處理后的數(shù)據(jù)在提高BP神經(jīng)網(wǎng)絡的性能方面并沒有起多大作用,經(jīng)PCA優(yōu)化的BP神經(jīng)網(wǎng)絡(簡稱PCA-BP)運算結(jié)果如圖5所示。
圖5 PCA優(yōu)化的BP神經(jīng)網(wǎng)絡預測結(jié)果Fig.5 Forecast results of casing damage by PCA-BP neural network
3.3.1 遺傳算法的參數(shù)選擇
遺傳算法是用適應度函數(shù)來判斷個體優(yōu)劣的,本文用網(wǎng)絡輸出與實際結(jié)果的誤差絕對值之和作為適應度函數(shù)。油井的權(quán)重個體的基因位數(shù)為92,初始種群數(shù)目為50,交叉概率0.8,變異概率0.001,選擇基于輪盤賭的選擇操作,最大迭代次數(shù)為50;水井權(quán)重個體的基因位數(shù)為193,初始種群數(shù)目為100,交叉概率0.9,變異概率0.01,選擇基于輪盤賭的選擇操作,最大迭代次數(shù)為50。
3.3.2 運算結(jié)果對比分析
對油井數(shù)據(jù)進行分析,可以看出經(jīng)過遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡的輸出準確率為75%,水井部分的預測準確率為72.5%。如圖6示,油井部分出現(xiàn)5口井預測錯誤,水井11口井預測錯誤。說明經(jīng)過遺傳算法優(yōu)化后神經(jīng)網(wǎng)絡的預測能力顯著提高。
如上所述,主成分分析可以降低輸入項的維度,簡化神經(jīng)網(wǎng)絡的結(jié)構(gòu)。經(jīng)過PCA處理后的油井數(shù)據(jù)有6個主成分,水井則有9個。因此在這里油井的神經(jīng)網(wǎng)絡結(jié)構(gòu)為油井6×7×1,水井9×12×1。其他參數(shù)與3.3節(jié)對應參數(shù)相同。圖7分別是油井未經(jīng)PCA降維處理的適應度曲線與經(jīng)過PCA處理的適應度曲線,從圖7可以看出,未經(jīng)PCA處理的油井數(shù)據(jù)直接運用遺傳神經(jīng)網(wǎng)絡進行訓練,其適應度曲線雖然在經(jīng)過10次迭代以后適應度變換緩慢,但始終沒有趨于平穩(wěn),而經(jīng)過PCA處理的遺傳神經(jīng)網(wǎng)絡的誤差則在20代之后就幾乎不變,且最大適應度與平均適應度也慢慢重合,這說明最佳種群長時間不進化,也就意味著找到了最優(yōu)目標值。
圖8為經(jīng)過PCA處理后的預測結(jié)果,從圖可以看出,油井有3口井預測錯誤, 準確率為85%;水井部分的準確率為82.5%。說明PCA-GA-BP模型的預測準確率較為理想。
圖6 GA優(yōu)化的BP神經(jīng)網(wǎng)絡預測結(jié)果Fig.6 Forecast results of casing damage by GA-BP neural network
圖7 油井數(shù)據(jù)的遺傳神經(jīng)網(wǎng)絡誤差對比Fig.7 Comparison of oil well fitness curves of BP neural network and PCA-BP neural network
圖8 PCA處理的GA-BP神經(jīng)網(wǎng)絡預測結(jié)果Fig.8 Forecast results of casing damage by PCA-BP neural network
綜上分析,可以看出PCA-GA-BP神經(jīng)網(wǎng)絡結(jié)構(gòu)對套損問題有一定的預測能力。相比于單純地使用神經(jīng)網(wǎng)絡,PCA通過減小輸入數(shù)據(jù)的維度,簡化神經(jīng)網(wǎng)絡的復雜度,可以減小網(wǎng)絡的運行時間。但是PCA并不能解決神經(jīng)隨機初始參數(shù)的問題。而遺傳算法GA則可以很好地優(yōu)化網(wǎng)絡初始值,進而使整個神經(jīng)網(wǎng)絡的預測能力得到大幅度提高,經(jīng)過PCA優(yōu)化的遺傳神經(jīng)網(wǎng)絡比未經(jīng)PCA處理的神經(jīng)網(wǎng)絡更加精確。為了便于對各方法有一個全面的了解,表4列舉各種方法的預測準確率以及運行時間。
表4 各種方法計算結(jié)果統(tǒng)計Tab.4 Calculation effects of different BP neural networks
從表4可以看出,PCA-GA-BP神經(jīng)網(wǎng)絡相比于其他模型準確率最高。
本文建立了基于主成分分析的遺傳神經(jīng)網(wǎng)絡模型,并采用該模型對大慶油田南一區(qū)套損情況進行預測,數(shù)據(jù)結(jié)果顯示此模型在準確率上有很大的提高。從中可以得出以下結(jié)論:
(1)BP神經(jīng)網(wǎng)絡模型準確率易受到輸入項的數(shù)據(jù)本身及初始參數(shù)選取的制約。
(2)PCA在降低數(shù)據(jù)相關(guān)性、減小神經(jīng)網(wǎng)絡的輸入維數(shù)、優(yōu)化網(wǎng)絡結(jié)構(gòu)方面有很好的效果,但需要避免隨機給定網(wǎng)絡初始參數(shù)的問題。如果不對初始參數(shù)進行優(yōu)化,盡管模型的運行時間因為輸入數(shù)據(jù)的維度變小而變少,但準確率并沒有得到明顯提高。
(3)利用遺傳算法可以很好地處理神經(jīng)網(wǎng)絡初始參數(shù)無法確定的問題,經(jīng)過GA算法處理的神經(jīng)網(wǎng)絡的預測能力比BP神經(jīng)網(wǎng)絡有很大的提高。將PCA方法應用于GA-BP神經(jīng)網(wǎng)絡,使得網(wǎng)絡經(jīng)較少次數(shù)迭代即可趨于穩(wěn)定,求得最優(yōu)初始參數(shù),進而得到最高的準確率。