楊旺旺 張 沖 楊夢瓊
張亞男1,2 汪明銳1,2 孫 康1,2
(1. 油氣資源與勘探技術教育部重點實驗室(長江大學),湖北武漢 430100;2. 長江大學地球物理與石油資源學院,湖北武漢 430100)
碳酸鹽巖儲層是一種十分重要的油氣儲集層,其勘探開發(fā)潛力巨大[1],在世界油氣分布中有著必不可缺的地位。滲透率是指在一定外界壓力下,巖石允許流體通過的性質(zhì),是油氣田開發(fā)生產(chǎn)中的一項重要參數(shù),其與儲集層產(chǎn)能預測、資源勘探開發(fā)息息相關[2]。伊拉克H 油田S 層段和T 層段是典型碳酸鹽巖儲層,其孔隙結構復雜,孔隙度與滲透率之間不再是比較明顯的線性關系,因此通過測井資料評價其儲層滲透率是一個非常棘手的問題。
砂巖儲層滲透率與孔隙度的相關性一般較好,然而碳酸鹽巖儲層滲透率與孔隙度的相關性遠不如砂巖儲層[3]。國內(nèi)外學者對儲層滲透率的定量評價進行了一系列研究,評價方法多種多樣,相對準確且直接的方法是實驗室直接測量[4],但其測量成本高,測量方式復雜,難以進行全井段測量。國內(nèi)外學者相繼提出了多種滲透率評價模型,如通過滲透率與各儲層特征參數(shù)間的強烈非線性關系而建立的滲透率模型,主要有Kozeny‐Carman公式、Timur 方程、Wyllie‐Rose 方程[5]以及基于等效巖石組分理論的滲透率方程[6],考慮到滲透率受孔隙微觀結構的影響,不少學者又提出了更加精細的滲透率評價模型,如WinlandR35 模型[7]、Swanson 模型[8]、Capillary‐Parachor 模型[9]等。以上根據(jù)滲透率與儲層特征參數(shù)或孔隙結構參數(shù)的非線性關系建立的滲透率模型,都需要在建模前開展巖石物理實驗,才能獲得各個參數(shù)與滲透率的非線性映射關系,并且有些參數(shù)不能準確獲得,容易造成一定的誤差。而利用測井響應參數(shù)與滲透率的非線性關系構建滲透率模型相對比較簡單,無需開展巖石物理實驗,如核磁共振滲透率模型[10]、斯通利波滲透率模型[11]和常規(guī)機器學習模型[12],但這些模型在碳酸鹽巖儲層中應用效果一般,前兩種模型屬于非常規(guī)測井模型,不適用于非均質(zhì)性強的碳酸鹽巖儲層,而常規(guī)機器學習模型在建模過程中需要人工進行特征提取,屬于比較簡單的淺層機器學習神經(jīng)網(wǎng)絡,很難表示繁雜的非線性映射關系。
地球物理測井參數(shù)從不同深度點反映了各個地質(zhì)時期的聲波、放射性、電性等沉積特征,故測井響應參數(shù)與滲透率之間存在較強的非線性映射關系且具有時間序列性質(zhì)[13‐14]。為此,本文采用深度學習的方法,考慮到測井響應參數(shù)與滲透率具有一定的時間序列性質(zhì),搭建了具有記憶功能的長短期記憶網(wǎng)絡,并通過交叉驗證對網(wǎng)絡的擬合能力進行綜合評估,進而調(diào)節(jié)網(wǎng)絡超參數(shù)直到網(wǎng)絡擬合能力達到最優(yōu),然后重新訓練模型,并用訓練好的LSTM 網(wǎng)絡模型進行滲透率預測,最后用實際數(shù)據(jù)來驗證模型的預測效果和實用性。同時,為了證明LSTM 模型預測滲透率的優(yōu)勢,本文構建了同樣以處理時間序列為基礎的灰色系統(tǒng)GM(0,N)模型,并采用皮爾遜(Pearson)、肯德爾(Kendall)、斯皮爾曼(Spearman)三種相關性系數(shù)定量計算滲透率與測井數(shù)據(jù)的相關程度,優(yōu)選測井參數(shù)并分別進行建模,用同樣的數(shù)據(jù)進行對比測試。
常規(guī)的循環(huán)神經(jīng)網(wǎng)絡(RNN)只能處理一定的短時序列問題,無法處理長程依賴問題。因為當序列數(shù)據(jù)較長時,序列后端的梯度很難反向傳播到前端的序列,容易產(chǎn)生梯度消失問題和梯度爆炸問題。長短期記憶網(wǎng)絡也叫LSTM 循環(huán)神經(jīng)網(wǎng)絡,是RNN 的一種變體,可以有效地解決梯度消失和爆炸問題, 最早由 S. Hochreiter 和J.Schmidhuber 在1997 年提出[15]。相比常規(guī)RNN 網(wǎng)絡,LSTM 網(wǎng)絡的循壞單元更加復雜,在循環(huán)單元中增加門控機制,這樣使得循環(huán)單元的權重是可變的,這種帶有門控結構的循環(huán)單元可以有選擇地保存有用歷史信息,遺忘無用歷史信息。因此可以避免梯度消失或者梯度爆炸的問題。
圖1 為LSTM 網(wǎng)絡在t時刻的循環(huán)單元結構[16]。如圖1 所示,首先需要將t?1 時刻的隱藏層的輸出和t時刻的輸入分別復制4 份,并隨機初始化不同的權重,然后將ht-1與xt向量進行拼接,最后通過激活sigmoid 函數(shù)或tanh 函數(shù)進行非線性轉(zhuǎn)化得到遺忘門、輸入門、輸出門激活向量和經(jīng)過變換后的神經(jīng)元細胞狀態(tài)向量,其計算公式為:
圖1 LSTM網(wǎng)絡t時刻循環(huán)單元工作原理Fig.1 Working principle of recurrent unit for LSTM network at t time
式中:ft、it和ot——t時刻的遺忘門、輸入門、輸出門的激活向量;c't——t時刻經(jīng)過tanh 層變換后得到的神經(jīng)元細胞狀態(tài)向量;W——權重矩陣;b——偏置矩陣;xt——t時刻的輸入;ht-1——t?1時刻的隱藏層的輸出;σ——sigmoid 激活函數(shù)。
遺忘門ft和輸入門it分別用來舍棄部分無用的存儲單元信息和保留t時刻部分有用信息,從而更新內(nèi)部儲層單元ct,其計算公式為
式中:ct——在t時刻更新過后的存儲單元;ct-1——t?1 時刻所保留下來的存儲單元。
輸出門ot可以挑選ct的有用信息并傳入到隱藏層ht,其計算公式為
式中ht——t時刻隱藏層的輸出。
LSTM 循環(huán)神經(jīng)網(wǎng)絡模型結構與全連接神經(jīng)網(wǎng)絡結構類似,包含輸入層、隱藏層和輸出層,其隱藏層是網(wǎng)絡結構中的核心結構。理論上神經(jīng)元數(shù)目越多,網(wǎng)絡結構越深,其網(wǎng)絡擬合效果就越好,預測精度越高。但在實際應用中,需要考慮樣本數(shù)據(jù)量的大小,以及樣本特征的維度等因素,如構建的隱藏層層數(shù)和神經(jīng)元數(shù)目過多會導致網(wǎng)絡訓練耗時過長,并且容易造成過擬合,反之也會造成欠擬合。
本文構建的LSTM 循環(huán)神經(jīng)網(wǎng)絡的循環(huán)單元對時序數(shù)據(jù)處理的特性,其循環(huán)單元本身就屬于一個較深的結構。所以構建的網(wǎng)絡結構的隱藏層為1個LSTM 層,2 個全連接層(Dense layers),共3 個隱藏層,確定了網(wǎng)絡層數(shù)之后,還會用到K 折(K‐ford)交叉驗證(cross validation)算法進行實驗,從而來確定隱藏層神經(jīng)元的個數(shù)、學習率等超參數(shù)。
本文中搭建的滲透率測井評價框架包括數(shù)據(jù)預處理、輸入層、LSTM 層、全連接層以及輸出層5 個部分,其中在數(shù)據(jù)預處理部分,首先會進行多井標準化、擴徑校正、巖心歸位、數(shù)據(jù)清洗以及敏感曲線的選取,確保輸入數(shù)據(jù)的準確性,預處理完成之后就劃分訓練集和測試集并依次傳入網(wǎng)絡的輸入層、隱藏層,并進行迭代求解,直到模型收斂最后輸出,最終形成基于LSTM 循環(huán)神經(jīng)網(wǎng)絡滲透率測井評價模型框架(圖2)。
圖2 基于LSTM循環(huán)神經(jīng)網(wǎng)絡滲透率測井評價模型框架Fig.2 Permeability logging evaluation model framework based on LSTM recurrent neural network
本文采用灰色系統(tǒng)模型來作為對比模型,灰色系統(tǒng)是由鄧聚龍[17]在1982 年提出用來解決信息不完備系統(tǒng)的機器學習方法,常用于處理時間序列問題。
GM(0,N)是最簡單的灰色系統(tǒng)模型,不含導數(shù),屬于靜態(tài)模型,與多元回歸模型有著本質(zhì)區(qū)別,一般多元回歸是以原始數(shù)據(jù)序列為基礎進行建模的,而GM(0,N)是以原始數(shù)據(jù)的1‐AGO序列進行建模的,該模型的建模形式弱化了原始數(shù)據(jù)的隨機性,提高了數(shù)據(jù)的規(guī)律性。
伊拉克H 油田的S 和T 層組是該油田的主力油組,主要發(fā)育生物碎屑灰?guī)r、孔蟲粒泥灰?guī)r、生屑顆?;?guī)r等巖相,受構造作用、成巖作用以及儲集空間復雜性的影響,該儲層的非均質(zhì)性較強。圖3 為巖心孔滲的交會,可以看出孔隙度與滲透滲之間的線性關系并不明顯。概括來講,研究區(qū)目的層組具有巖相復雜、孔隙空間較小、孔隙結構以及孔隙類型繁雜多樣等特點,從而導致該層組的滲透率評價難度加大。
圖3 巖心孔滲交會圖Fig.3 Cross plot of porosity vs.permeability of the core
本文的數(shù)據(jù)來源于伊拉克H 油田實際勘探的測井數(shù)據(jù),共選取906 組測井數(shù)據(jù)樣本,包括自然伽馬(qAPI)、自然電位(VSP)、深側(cè)向電阻率(RLLD)、淺側(cè)向電阻率(RLLS)、聲波時差(Δt)、補償中子孔隙度(?CNL)、補償密度(ρRHOB)、泥質(zhì)含量(φsh)以及對應的滲透率,其中泥質(zhì)含量(φsh)是由中子?密度交會計算而得,是補償中子孔隙度和補償密度兩條曲線的綜合反映,故將泥質(zhì)含量這個參數(shù)作為一個初步的計算參數(shù),之后對上述測井參數(shù)進行相關性分析,最后確定出模型的輸入?yún)?shù)。滲透率由實驗室直接測得。在將樣本數(shù)據(jù)輸入網(wǎng)絡之前需要將數(shù)據(jù)集劃分為訓練數(shù)據(jù)、測試數(shù)據(jù)。共選擇了234 組測井數(shù)據(jù)作為測試數(shù)據(jù),剩下的數(shù)據(jù)作為訓練數(shù)據(jù)用來訓練模型。
分別采用皮爾遜(Pearson)線性相關系數(shù)P、肯德爾(Kendall)秩相關系數(shù)R和斯皮爾曼秩相關系數(shù)S來定量計算各個測井參數(shù)與滲透率的相關性,并優(yōu)選測井曲線,避免贅余的信息和多重共線性影響模型的泛化能力。3 個相關性系數(shù)的計算公式為:
式中:x——各個常規(guī)測井參數(shù);y——巖心滲透率;i——每個樣本的序號;N——統(tǒng)計的總樣本數(shù);A——兩個屬性值排列大小關系一致的統(tǒng)計對象對數(shù);xˉ——常規(guī)測井參數(shù)的均值;yˉ——巖心滲透率的均值,10?3μm2。
各測井參數(shù)與滲透率的3 種相關度絕對值的變化趨勢如圖4 所示。從圖4 可以看出,自然伽馬、泥質(zhì)含量、補償密度、聲波時差、補償中子孔隙度這5 種測井參數(shù)的P、R和S均較高,說明滲透率與qAPI、φsh、Δt、?CNL、ρRHOB之間存在較強的相關性,VSP的P較高但S和R較低說明自然電位與滲透率之間只存在一定的線性相關,非線性相關程度較弱,RLLD和RLLS的P、R和S均較低。因此最后選擇自然伽馬、泥質(zhì)含量、聲波時差、補償中子孔隙度、補償密度這5 種測井參數(shù)預測滲透率。
圖4 測井參數(shù)與滲透率關聯(lián)程度Fig.4 Correlation degrees between logging parameters and permeability
在構建模型之前,為了減小因輸入數(shù)據(jù)差距過大而造成預測誤差,需要將輸入數(shù)據(jù)調(diào)整到一個合理的分布范圍,也就是需要將輸入數(shù)據(jù)進行標準化處理,因此本文選擇了z?score 標準化方法,其標準化處理的表達式為
式中:yi——輸入?yún)?shù);yˉi——該輸入?yún)?shù)的均值;s——該輸入?yún)?shù)的標準差;y*——該輸入?yún)?shù)標準化后的數(shù)據(jù)。
本文采用Pearson 相關系數(shù)P和均方根誤差ERMSE(root mean squared error)來共同評價預測結果的準確性,Pearson 相關系數(shù)用來衡量預測結果與真實值之間的線性相關程度,均方根誤差用來衡量預測結果與真實值之間存在的偏差。P的計算公式見式(7),ERMSE的計算公式為
式中:Y——預測結果值;Q——真實值。
P值越大,表示預測結果與真實值線性相關程度越高,ERMSE越小,表示預測結果與真實值存在的偏差越小,說明模型的擬合能力越強。
采用的自適應優(yōu)化算法(Adam)是一種隨機梯度下降算法的改進,具備自適應學習率優(yōu)化算法(AdaGrad)和梯度下降算法(RMSProp)的優(yōu)點,隱藏層的激活函數(shù)采用的是線性整流函數(shù)(Relu),也叫Relu 激活函數(shù),該激活函數(shù)為非線性函數(shù),能夠使網(wǎng)絡更好地解決復雜非線性問題,并且Rleu 函數(shù)能夠克服一定的梯度消失問題。
采用了K 折(K-fold)交叉驗證算法來確定隱藏層神經(jīng)元的個數(shù)、學習率,防止過擬合。首先初步設定學習率(learning rate)a=0.001,喂入網(wǎng)絡的批量大?。╞atch size)為10;迭代次數(shù)s為20;隱藏層的神經(jīng)元個數(shù)設置為2n,n取值范圍為[2,8],則神經(jīng)元的個數(shù)分別取4、8、16、32、64、128、256 順次進行訓練,其實驗結果見圖5。
圖5 不同神經(jīng)元個數(shù)的預測誤差Fig.5 Prediction errors of different numbers of neurons
圖5 中橫坐標為隱藏層神經(jīng)元個數(shù),縱坐標為所預測滲透率的均方根誤差,可以看出當神經(jīng)元個數(shù)小于32 時,均方根誤差偏大,當神經(jīng)元個數(shù)為64 時,均方根誤差達到最小值,然后隨著神經(jīng)元個數(shù)不斷增多其均方根誤差逐漸變大。因此確定了隱藏層的神經(jīng)元個數(shù)為64 個。圖6(a)展示了不同學習率下的LSTM 模型的預測精度隨迭代次數(shù)的變化關系,可以看出在a=0.01 時,ERMSE曲線下降最快,收斂速度最快并且最平緩,所以設定a=0.01 為LSTM 模型的學習率。為了驗證LSTM 模型是否存在過擬合以及解決方法,分別使用了神經(jīng)元隨機丟棄算法(Dropout 技術)和L2 正則化方法來進行試驗,如圖6(b)所示,不使用方法的型其ERMSE曲線收斂速率一般,收斂后出現(xiàn)了過擬合現(xiàn)象,使用L2 正則化方法的模型其ERMSE曲線收斂速率較低,收斂后處于比較平穩(wěn)的狀態(tài),采用了Dropout 技術的LSTM 模型其ERMSE曲線收斂速率高且收斂后達到平穩(wěn)狀態(tài),Dropout 技術在這個模型中不僅消除了一定的過擬合現(xiàn)象,還提升了LSTM 模型的擬合性能,本文選定Dropout 技術來防止過擬合問題。
圖6 不同學習率以及不同過擬合解決方法下的預測誤差Fig.6 Prediction errors under different learning rates and overfitting solutions
根據(jù)相關性分析結果,選取自然伽馬、補償中子孔隙度、聲波時差、補償密度、泥質(zhì)含量5 種測井參數(shù)作為輸入數(shù)據(jù),進行標準化處理后,分批喂入已經(jīng)訓練過并設置了最優(yōu)超參數(shù)的LSTM 網(wǎng)絡,對滲透率進行預測。同樣將上述5 種測井參數(shù)作為灰色系統(tǒng)GM(0,N)的輸入,建立GM(0,5)預測模型。
LSTM 網(wǎng)絡模型和GM(0,5)模型預測的滲透率Pearson 相關系數(shù)和均方根誤差見表1。從表1可以看出,LSTM 模型預測結果的均方根誤差要明顯 的 小 于GM (0,5) 模 型,降 低 了29.47%。LSTM 模型預測結果的Pearson 相關系數(shù)明顯大于GM (0,5) 模型,提高了6.59%。圖7(a) 為GM (0,5) 模型預測滲透率與巖心滲透率關系;圖7(b)為LSTM 模型預測滲透率與巖心滲透率關系,從圖7 可以看出LSTM 模型不僅預測的精度更高,并且魯棒性更好,也證實了LSTM 模型在預測具有時序性質(zhì)的滲透率時優(yōu)勢明顯。
圖7 GM(0,5)模型和LSTM模型預測滲透率與巖心滲透率關系Fig.7 Relations between core permeability and predicted permeability by GM(0,5)model and LSTM model
表1 滲透率預測模型的預測精度Table 1 Accuracy of permeability predicting model
圖8 為2 種模型預測成果,可以看出,通過LSTM 模型預測得到的滲透率與真實值吻合程度要高于GM(0,5)模型,在S_a2 層位,2 種模型的滲透率預測效果比較接近,但仍然是LSTM 預測精度要稍高。從S_b1 至T 層位,LSTM 值,測井響應參數(shù)的變化趨勢變得復雜,各測井對滲透率的預測優(yōu)勢更明顯,主要是因為S_a2 層位的測井響應參數(shù)變化趨勢比較平穩(wěn),2 種模型的滲透率預測精度都比較高,隨著深度加深,從S_b1 至T 層位,滲透率存在很多突變的峰谷響應參數(shù)與滲透率之間的非線性關系更復雜,但滲透率與測井響應參數(shù)的序列性更強,普通的機器學習方法在樣本有限的情況下表示復雜映射關系的能力有限,故GM(0,5)模型不能準確學習滲透率的變化趨勢,從而導致該模型預測的準確性下降。對比可知,LSTM 模型具有能夠提取到滲透率與測井響應參數(shù)之間的序列信息的優(yōu)勢,因而使得LSTM 模型能較準確預測到滲透率的振蕩規(guī)律,LSTM 滲透率預測模型更符合滲透率曲線隨深度變化的趨勢。
圖8 2種模型預測成果Fig.8 Predicted results of 2 models
(1)本文介紹了LSTM 模型在碳酸鹽巖儲層滲率預測中的應用,采用了3 種不同相關性分析方法篩選出滲透率的敏感曲線作為模型的輸入,并采用了K‐fold 交叉驗證算法進行網(wǎng)絡參數(shù)調(diào)優(yōu),最后用實際數(shù)據(jù)驗證了LSTM 模型相較于常規(guī)機器學習模型GM(0,N)的有效性和實用性。
(2)直接利用測井響應參數(shù)預測滲透率大大降低了巖石物理實驗和非常規(guī)測井方法的高成本。LSTM 模型可有效提取測井響應參數(shù)的特征,挖掘各測井響應參數(shù)和滲透率之間隱含的非線性關系。