聶帥帥,唐世星,劉 可,徐康泰,李江飛,王少征
(承德石油高等??茖W校,河北承德 067000)
水力壓裂是低滲透油氣藏增產改造的關鍵技術之一[1]。但是,油氣層非均質性強,各井壓裂條件參差不齊,使得壓裂效果難以保障[2]。因此,如何評價各參數對壓裂效果的影響程度,指出制約壓裂效果的主控因素,定量優(yōu)化壓裂參數以指導壓裂施工,是提高壓裂效果的關鍵所在。
部分學者采用數理統(tǒng)計的方法預測壓裂效果。主要分為建立壓裂產量的時間序列模型、建立模糊綜合評判模型、建立壓后產量與壓裂影響因素的數學模型3 大類[3-10]。
對壓裂效果主控因素診斷尚缺乏較為系統(tǒng)的方法或流程。而當前數據挖掘、大數據等技術的興起,為決策優(yōu)化類問題提供了一種新的研究手段或研究角度。為此,本文基于當前較為成熟的R 語言數據挖掘平臺,在建模參數篩選和數據標準化的基礎上,建立壓后產量與壓裂參數間的最優(yōu)數學模型,從而 實現壓裂效果的預測、壓裂效果主控參數的診斷和優(yōu)化,達到定量指導壓裂方案優(yōu)化的目的。
X 油田儲層孔隙度為9%~21%,滲透率多低于50 ×10-3μm2,50 ℃時原油黏度119~455 mPa·s,原始平均壓力系數為0.93,自然條件下平均單井日產油為1 t,是典型的低壓、低滲、低產、稠油油藏。因此,水力壓裂是提高該油田開發(fā)效果的關鍵。該油田采用活性水壓裂液,壓裂后日產油低于15 t,壓裂井的壓裂效果差別較大。
根據石油天然氣行業(yè)標準SY/T5289-2008《油、氣、水井壓裂設計與施工及效果評估方法》,采用壓裂后一個月的平均日產油量來評估壓裂效果。
共采集X 油田52 口井的壓裂數據,參數15個,包括孔隙度Φ、滲透率K、含水飽和度Sw、壓裂厚度h、加砂量VS、平均砂比Sb、前置液量Vpad、攜砂液量Vscl、實際壓裂液量Vinj、反排量Vffr、反排率η、破裂壓力Pf、停泵壓力Ps、放噴壓力Pa、日均產油量q。由于各壓裂參數之間存在著一定的數學關系,在建立數學模型時,應先剔除共線參數,保證建模參數之間的獨立性。
Pearson 相關性分析可以衡量兩兩變量之間的線性相關性大小[11],計算公式如下:
式中:r為相關系數,無量綱;x、y為變量,這里指孔隙度Φ、滲透率K 等15個參數;n為觀測井數。
如果相關系數r≥0.8,表示相關程度高;如果0.6≤r<0.8,表示相關程度中等;如果r<0.6,表示相關程度低。
統(tǒng)計Vif(Variance Inflation Factor,方差膨脹因子)是檢測因素是否共線的指標[12]。表征了參數的置信區(qū)間能膨脹為與模型無關的自變量的程度。一般認為當時,因素共線。
直接建立q 與14個參數間的回歸模型,采用統(tǒng)計Vif 檢驗多重共線性,結果如圖1。
從圖1 可以看出,Sb、Vs、Vpad、Vscl、Vinj、Vffr、η、Ps和Pa等9個參數之間存在多重共線性,檢測結果與相關性分析的結果一致。
為避免因素多重共線,Vs、Vpad、Vscl、Vinj等4個參數選擇1個即可,這里選取與q 相關性最大的Vpad;Vffr和η 等2個參數選擇1個即可,在已選擇Vpad的前提下,選擇η;Ps和Pa等2個參數選擇1個即可,這里選擇Ps。因此,共剔除Vs、Vscl、Vinj、Vffr和Pa等5個參數。
圖1 多重共線檢驗
再次擬合q 與剩余9個參數回歸模型,診斷參數是否存在多重共線性發(fā)現,所有參數均通過檢驗,不存在多重共線性。因此,已經成功剔除共線參數,下一步可以建立模型。
由于每口井的資料難以保證是用同一類儀器、相同刻度標準化及統(tǒng)一操作方式而測得,且不同參數的量綱和數量級差別也較大,為消除這種影響,采用min-max 方法對原數據標準化,將變量的取值范圍映射到[0,1]區(qū)間,再建立數學模型。min-max標準化計算公式如下:
式中:x*為標準化后的變量數值,無量綱;x為變量的原始觀測值;xmax為變量x的最大觀測值;xmin為變量x的最小觀測值。
數據標準化后直接建立壓后產量與剩余9個參數回歸模型發(fā)現,Ra2=0.15,擬合度低,且9個參數均未通過顯著性檢驗,模型較差,需要進一步優(yōu)化。
采用全子集回歸方法確定最佳自變量組合[13]。全子集回歸就是在檢驗所有可能模型的基礎上,找出最佳模型。全子集回歸發(fā)現Ra2最高僅為0.24,模型擬合效果依舊不理想。說明存在異常數據難以擬合模型,需要剔除異常值。
異常值包括離群點、高杠桿值點和強影響點等3 種類型。離群點是指擬合效果不佳的點,他們往往殘差較大;高杠桿值點是與其他預測變量有關的離群點,可用帽子統(tǒng)計量(Hat-Values)判斷。帽子統(tǒng)計量為模型參數的數目P 與樣本量n 的比值。一般認為,觀測點的帽子值大于帽子均值的2 倍以上,即為高杠桿值點;強影響點是指對參數估計值影響有些比例失衡的點,常采用距離庫克(Cook)的距離,即D 統(tǒng)計量檢測強影響點;當D 值大于4/(nk-1)時,即認為是強影響點,其中,k 是預測變量數目,為1。將離群點、高杠桿值點和強影響點整合到一張圖中,如圖3 所示。圖中縱坐標超過+2 或-2的點為離群點,水平軸虛線以外的點為高杠桿值點,圓圈大小代表著影響程度,圓圈越大,對模型參數估計的影響就越大。
圖2 異常值觀測
從圖2 可以看出,17#井、22#井和24#井是3個圓圈最大的點,影響程度最大。同時,這3個數據也屬于離群點,優(yōu)先刪除這3個觀測。刪除后再次采用全子集回歸,Ra2=0.61,說明剔除異常值后能顯著提高模型的擬合度。同時,擬合度在0.60 以上的模型參數組合達到14個。
當面對多個模型時,有的模型擬合好,有的模型預測能力強,一般采用AIC 值(Akaike Information Criterion,赤池信息準則)優(yōu)選出最佳模型,是綜合考慮了模型的擬合度和參數數目,力求用最少的參數獲取足夠的擬合度[14]。
計算14個模型的AIC 值發(fā)現,當模型參數組合為K、h、Vpad、η 和Pf時,AIC 值最小為-37.93,初步認為是最優(yōu)模型。但是,常數項(P=0.56)和Pf項(P=0.11)未通過顯著性檢驗。進一步去除常數項和Pf項,再次擬合Ra2=0.95,參數均通過顯著性檢驗。且AIC 降低至-38.27,模型更優(yōu)。
綜上,建立的最優(yōu)數學模型如下:
式中:q*為標準化的壓裂后一個月平均日產油量,無量綱;K*為標準化的滲透率,無量綱;h*為標準化的儲層厚度,無量綱;V*pad為標準化的前置液量,無量綱;η*為標準化的返排率,無量綱。
為了檢驗模型的合理性,進行回歸診斷,結果如圖3 所示。從圖3 可以看出,圖3a 的殘差擬合圖上的數據點呈隨機分布,說明模型整體符合線性假設;圖3b 的正態(tài)Q-Q 圖上的數據點分布在45°角直線上,說明模型符合正態(tài)性假設。圖3c 的位置尺度圖的數據點呈隨機分布,說明模型滿足不變方差假設;圖3d 的殘差杠桿圖顯示所有觀測井的庫克距離均在0.5 以內,說明數據中不存在異常值。因此,回歸模型滿足線性、正態(tài)性、不變方差假設,且不存在異常值,模型合理。
圖3 回歸診斷
模型整體上是滿足線性假設的,但是還需進一步檢驗各自變量與因變量是否完全滿足線性假設。繪制了q 與K、h、Vpad、η 等4個參數的成分殘差圖(Component + Residual Plots),如圖4 所示。圖4a的成分殘差圖顯示的滲透率K 與日均產油量q 的局部擬合線(實線)和從日均產油量q 方向上側面看過去的多元最小二乘回歸平面(虛線)基本重合,且實線和虛線均為線性,表明滲透率K 與日均產油量q 滿足線性關系;同樣的,圖4b 的成分殘差圖表明儲層厚度h 與日均產油量q 成線性關系,圖4c 的成分殘差圖表明前置液量Vpad與日均產油量q 成線性關系,圖4d 的成分殘差圖表明返排率η 與日均產油量q 成線性關系。因此,K、h、Vpad、η 等4個自變量與因變量q 均滿足線性假設。
圖4 成分殘差圖
為判斷q 值(或殘差)是否相互獨立,進行誤差獨立性檢驗(Durbin-Watson)發(fā)現,P 值不顯著(P=0.72),誤差項之間獨立。
最后,對線性回歸模型假設進行綜合驗證,包括偏斜度、峰度等。檢驗結果表明,多元回歸模型滿足所有假設統(tǒng)計(P=0.76)。
基于建立的數學模型,實現壓裂效果預測、主控參數診斷和優(yōu)化。
將5 口預測井數據代入多元回歸模型,得到日產油量預測結果見表1。從表1 可以看出,5 口井預測平均準確度86.19%,預測準確度能夠滿足工程需求。
表1 回歸模型預測結果
回歸系數可以衡量各參數對產量的影響程度,回歸系數的絕對值越大,說明自變量對因變量的影響程度越大。除了用回歸系數尋找主控因素外,還可以用相對權重來衡量各自變量對因變量的影響程度,即對所有可能的子模型添加1個自變量引起R2平均增加量的一個近似值[15]。
各參數回歸系數和相對權重對比如圖5 所示。從圖5 中的回歸系數可以看出,返排率的回歸系數最大,為0.89,其次是前置液量,為0.44;從相對權重上可以看出,返排率的相對權重最大,為0.46,其次是前置液量,為0.37。因此,無論是看回歸系數,還是看相對權重,返排率是影響壓裂效果的主控因素,其次為前置液量。提高壓裂規(guī)??梢赃M一步改善儲層,而提高壓裂液返排率可以進一步降低儲層傷害程度,診斷結果與實際情況相吻合。
圖5 模型參數相對權重
31#井日產油1.7 t,壓裂效果最差。以該井為例優(yōu)化施工參數。已知K=2.99×10-3μm2,h=21.7 m,代入式(3)得到Vpad、與q 的關系,如圖6 所示。從圖中可以看出,對于給定的q 值,可以從圖中直接找到對應的Vpad和η 的取值。
(1)基于多種數據挖掘方法分析壓裂數據,建立壓后產量與壓裂參數間的最優(yōu)數學模型,能夠實現壓裂效果的預測、主控參數的診斷和優(yōu)化,為油田壓裂現場施工提供定量化指導。
圖6 壓裂參數與產量的關系
(2)診斷結果表明,X 油田壓裂效果主控因素為返排率,其次為壓裂液量。因此,為提高X 油田壓裂效果,應該從提高壓裂規(guī)模和返排率入手。提高壓裂規(guī)模可以進一步改善儲層,而提高壓裂液返排率可以進一步降低儲層傷害程度,診斷結果與實際情況相吻合,具有一定的理論指導價值。
(3)從數據角度尋找產量主控因素是一種新的研究方式,未來還需進一步與大數據、機器學習等方法相結合,從各方面挖掘油氣數據的潛在價值,實現油氣開發(fā)的智慧化。