楊旺旺 張 沖 楊夢瓊
張亞男1,2 汪明銳1,2 孫 康1,2
(1. 油氣資源與勘探技術(shù)教育部重點(diǎn)實驗室(長江大學(xué)),湖北武漢 430100;2. 長江大學(xué)地球物理與石油資源學(xué)院,湖北武漢 430100)
碳酸鹽巖儲層是一種十分重要的油氣儲集層,其勘探開發(fā)潛力巨大[1],在世界油氣分布中有著必不可缺的地位。滲透率是指在一定外界壓力下,巖石允許流體通過的性質(zhì),是油氣田開發(fā)生產(chǎn)中的一項重要參數(shù),其與儲集層產(chǎn)能預(yù)測、資源勘探開發(fā)息息相關(guān)[2]。伊拉克H 油田S 層段和T 層段是典型碳酸鹽巖儲層,其孔隙結(jié)構(gòu)復(fù)雜,孔隙度與滲透率之間不再是比較明顯的線性關(guān)系,因此通過測井資料評價其儲層滲透率是一個非常棘手的問題。
砂巖儲層滲透率與孔隙度的相關(guān)性一般較好,然而碳酸鹽巖儲層滲透率與孔隙度的相關(guān)性遠(yuǎn)不如砂巖儲層[3]。國內(nèi)外學(xué)者對儲層滲透率的定量評價進(jìn)行了一系列研究,評價方法多種多樣,相對準(zhǔn)確且直接的方法是實驗室直接測量[4],但其測量成本高,測量方式復(fù)雜,難以進(jìn)行全井段測量。國內(nèi)外學(xué)者相繼提出了多種滲透率評價模型,如通過滲透率與各儲層特征參數(shù)間的強(qiáng)烈非線性關(guān)系而建立的滲透率模型,主要有Kozeny‐Carman公式、Timur 方程、Wyllie‐Rose 方程[5]以及基于等效巖石組分理論的滲透率方程[6],考慮到滲透率受孔隙微觀結(jié)構(gòu)的影響,不少學(xué)者又提出了更加精細(xì)的滲透率評價模型,如WinlandR35 模型[7]、Swanson 模型[8]、Capillary‐Parachor 模型[9]等。以上根據(jù)滲透率與儲層特征參數(shù)或孔隙結(jié)構(gòu)參數(shù)的非線性關(guān)系建立的滲透率模型,都需要在建模前開展巖石物理實驗,才能獲得各個參數(shù)與滲透率的非線性映射關(guān)系,并且有些參數(shù)不能準(zhǔn)確獲得,容易造成一定的誤差。而利用測井響應(yīng)參數(shù)與滲透率的非線性關(guān)系構(gòu)建滲透率模型相對比較簡單,無需開展巖石物理實驗,如核磁共振滲透率模型[10]、斯通利波滲透率模型[11]和常規(guī)機(jī)器學(xué)習(xí)模型[12],但這些模型在碳酸鹽巖儲層中應(yīng)用效果一般,前兩種模型屬于非常規(guī)測井模型,不適用于非均質(zhì)性強(qiáng)的碳酸鹽巖儲層,而常規(guī)機(jī)器學(xué)習(xí)模型在建模過程中需要人工進(jìn)行特征提取,屬于比較簡單的淺層機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),很難表示繁雜的非線性映射關(guān)系。
地球物理測井參數(shù)從不同深度點(diǎn)反映了各個地質(zhì)時期的聲波、放射性、電性等沉積特征,故測井響應(yīng)參數(shù)與滲透率之間存在較強(qiáng)的非線性映射關(guān)系且具有時間序列性質(zhì)[13‐14]。為此,本文采用深度學(xué)習(xí)的方法,考慮到測井響應(yīng)參數(shù)與滲透率具有一定的時間序列性質(zhì),搭建了具有記憶功能的長短期記憶網(wǎng)絡(luò),并通過交叉驗證對網(wǎng)絡(luò)的擬合能力進(jìn)行綜合評估,進(jìn)而調(diào)節(jié)網(wǎng)絡(luò)超參數(shù)直到網(wǎng)絡(luò)擬合能力達(dá)到最優(yōu),然后重新訓(xùn)練模型,并用訓(xùn)練好的LSTM 網(wǎng)絡(luò)模型進(jìn)行滲透率預(yù)測,最后用實際數(shù)據(jù)來驗證模型的預(yù)測效果和實用性。同時,為了證明LSTM 模型預(yù)測滲透率的優(yōu)勢,本文構(gòu)建了同樣以處理時間序列為基礎(chǔ)的灰色系統(tǒng)GM(0,N)模型,并采用皮爾遜(Pearson)、肯德爾(Kendall)、斯皮爾曼(Spearman)三種相關(guān)性系數(shù)定量計算滲透率與測井?dāng)?shù)據(jù)的相關(guān)程度,優(yōu)選測井參數(shù)并分別進(jìn)行建模,用同樣的數(shù)據(jù)進(jìn)行對比測試。
常規(guī)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)只能處理一定的短時序列問題,無法處理長程依賴問題。因為當(dāng)序列數(shù)據(jù)較長時,序列后端的梯度很難反向傳播到前端的序列,容易產(chǎn)生梯度消失問題和梯度爆炸問題。長短期記憶網(wǎng)絡(luò)也叫LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò),是RNN 的一種變體,可以有效地解決梯度消失和爆炸問題, 最早由 S. Hochreiter 和J.Schmidhuber 在1997 年提出[15]。相比常規(guī)RNN 網(wǎng)絡(luò),LSTM 網(wǎng)絡(luò)的循壞單元更加復(fù)雜,在循環(huán)單元中增加門控機(jī)制,這樣使得循環(huán)單元的權(quán)重是可變的,這種帶有門控結(jié)構(gòu)的循環(huán)單元可以有選擇地保存有用歷史信息,遺忘無用歷史信息。因此可以避免梯度消失或者梯度爆炸的問題。
圖1 為LSTM 網(wǎng)絡(luò)在t時刻的循環(huán)單元結(jié)構(gòu)[16]。如圖1 所示,首先需要將t?1 時刻的隱藏層的輸出和t時刻的輸入分別復(fù)制4 份,并隨機(jī)初始化不同的權(quán)重,然后將ht-1與xt向量進(jìn)行拼接,最后通過激活sigmoid 函數(shù)或tanh 函數(shù)進(jìn)行非線性轉(zhuǎn)化得到遺忘門、輸入門、輸出門激活向量和經(jīng)過變換后的神經(jīng)元細(xì)胞狀態(tài)向量,其計算公式為:
圖1 LSTM網(wǎng)絡(luò)t時刻循環(huán)單元工作原理Fig.1 Working principle of recurrent unit for LSTM network at t time
式中:ft、it和ot——t時刻的遺忘門、輸入門、輸出門的激活向量;c't——t時刻經(jīng)過tanh 層變換后得到的神經(jīng)元細(xì)胞狀態(tài)向量;W——權(quán)重矩陣;b——偏置矩陣;xt——t時刻的輸入;ht-1——t?1時刻的隱藏層的輸出;σ——sigmoid 激活函數(shù)。
遺忘門ft和輸入門it分別用來舍棄部分無用的存儲單元信息和保留t時刻部分有用信息,從而更新內(nèi)部儲層單元ct,其計算公式為
式中:ct——在t時刻更新過后的存儲單元;ct-1——t?1 時刻所保留下來的存儲單元。
輸出門ot可以挑選ct的有用信息并傳入到隱藏層ht,其計算公式為
式中ht——t時刻隱藏層的輸出。
LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)與全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似,包含輸入層、隱藏層和輸出層,其隱藏層是網(wǎng)絡(luò)結(jié)構(gòu)中的核心結(jié)構(gòu)。理論上神經(jīng)元數(shù)目越多,網(wǎng)絡(luò)結(jié)構(gòu)越深,其網(wǎng)絡(luò)擬合效果就越好,預(yù)測精度越高。但在實際應(yīng)用中,需要考慮樣本數(shù)據(jù)量的大小,以及樣本特征的維度等因素,如構(gòu)建的隱藏層層數(shù)和神經(jīng)元數(shù)目過多會導(dǎo)致網(wǎng)絡(luò)訓(xùn)練耗時過長,并且容易造成過擬合,反之也會造成欠擬合。
本文構(gòu)建的LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)的循環(huán)單元對時序數(shù)據(jù)處理的特性,其循環(huán)單元本身就屬于一個較深的結(jié)構(gòu)。所以構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)的隱藏層為1個LSTM 層,2 個全連接層(Dense layers),共3 個隱藏層,確定了網(wǎng)絡(luò)層數(shù)之后,還會用到K 折(K‐ford)交叉驗證(cross validation)算法進(jìn)行實驗,從而來確定隱藏層神經(jīng)元的個數(shù)、學(xué)習(xí)率等超參數(shù)。
本文中搭建的滲透率測井評價框架包括數(shù)據(jù)預(yù)處理、輸入層、LSTM 層、全連接層以及輸出層5 個部分,其中在數(shù)據(jù)預(yù)處理部分,首先會進(jìn)行多井標(biāo)準(zhǔn)化、擴(kuò)徑校正、巖心歸位、數(shù)據(jù)清洗以及敏感曲線的選取,確保輸入數(shù)據(jù)的準(zhǔn)確性,預(yù)處理完成之后就劃分訓(xùn)練集和測試集并依次傳入網(wǎng)絡(luò)的輸入層、隱藏層,并進(jìn)行迭代求解,直到模型收斂最后輸出,最終形成基于LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)滲透率測井評價模型框架(圖2)。
圖2 基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)滲透率測井評價模型框架Fig.2 Permeability logging evaluation model framework based on LSTM recurrent neural network
本文采用灰色系統(tǒng)模型來作為對比模型,灰色系統(tǒng)是由鄧聚龍[17]在1982 年提出用來解決信息不完備系統(tǒng)的機(jī)器學(xué)習(xí)方法,常用于處理時間序列問題。
GM(0,N)是最簡單的灰色系統(tǒng)模型,不含導(dǎo)數(shù),屬于靜態(tài)模型,與多元回歸模型有著本質(zhì)區(qū)別,一般多元回歸是以原始數(shù)據(jù)序列為基礎(chǔ)進(jìn)行建模的,而GM(0,N)是以原始數(shù)據(jù)的1‐AGO序列進(jìn)行建模的,該模型的建模形式弱化了原始數(shù)據(jù)的隨機(jī)性,提高了數(shù)據(jù)的規(guī)律性。
伊拉克H 油田的S 和T 層組是該油田的主力油組,主要發(fā)育生物碎屑灰?guī)r、孔蟲粒泥灰?guī)r、生屑顆?;?guī)r等巖相,受構(gòu)造作用、成巖作用以及儲集空間復(fù)雜性的影響,該儲層的非均質(zhì)性較強(qiáng)。圖3 為巖心孔滲的交會,可以看出孔隙度與滲透滲之間的線性關(guān)系并不明顯。概括來講,研究區(qū)目的層組具有巖相復(fù)雜、孔隙空間較小、孔隙結(jié)構(gòu)以及孔隙類型繁雜多樣等特點(diǎn),從而導(dǎo)致該層組的滲透率評價難度加大。
圖3 巖心孔滲交會圖Fig.3 Cross plot of porosity vs.permeability of the core
本文的數(shù)據(jù)來源于伊拉克H 油田實際勘探的測井?dāng)?shù)據(jù),共選取906 組測井?dāng)?shù)據(jù)樣本,包括自然伽馬(qAPI)、自然電位(VSP)、深側(cè)向電阻率(RLLD)、淺側(cè)向電阻率(RLLS)、聲波時差(Δt)、補(bǔ)償中子孔隙度(?CNL)、補(bǔ)償密度(ρRHOB)、泥質(zhì)含量(φsh)以及對應(yīng)的滲透率,其中泥質(zhì)含量(φsh)是由中子?密度交會計算而得,是補(bǔ)償中子孔隙度和補(bǔ)償密度兩條曲線的綜合反映,故將泥質(zhì)含量這個參數(shù)作為一個初步的計算參數(shù),之后對上述測井參數(shù)進(jìn)行相關(guān)性分析,最后確定出模型的輸入?yún)?shù)。滲透率由實驗室直接測得。在將樣本數(shù)據(jù)輸入網(wǎng)絡(luò)之前需要將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)。共選擇了234 組測井?dāng)?shù)據(jù)作為測試數(shù)據(jù),剩下的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)用來訓(xùn)練模型。
分別采用皮爾遜(Pearson)線性相關(guān)系數(shù)P、肯德爾(Kendall)秩相關(guān)系數(shù)R和斯皮爾曼秩相關(guān)系數(shù)S來定量計算各個測井參數(shù)與滲透率的相關(guān)性,并優(yōu)選測井曲線,避免贅余的信息和多重共線性影響模型的泛化能力。3 個相關(guān)性系數(shù)的計算公式為:
式中:x——各個常規(guī)測井參數(shù);y——巖心滲透率;i——每個樣本的序號;N——統(tǒng)計的總樣本數(shù);A——兩個屬性值排列大小關(guān)系一致的統(tǒng)計對象對數(shù);xˉ——常規(guī)測井參數(shù)的均值;yˉ——巖心滲透率的均值,10?3μm2。
各測井參數(shù)與滲透率的3 種相關(guān)度絕對值的變化趨勢如圖4 所示。從圖4 可以看出,自然伽馬、泥質(zhì)含量、補(bǔ)償密度、聲波時差、補(bǔ)償中子孔隙度這5 種測井參數(shù)的P、R和S均較高,說明滲透率與qAPI、φsh、Δt、?CNL、ρRHOB之間存在較強(qiáng)的相關(guān)性,VSP的P較高但S和R較低說明自然電位與滲透率之間只存在一定的線性相關(guān),非線性相關(guān)程度較弱,RLLD和RLLS的P、R和S均較低。因此最后選擇自然伽馬、泥質(zhì)含量、聲波時差、補(bǔ)償中子孔隙度、補(bǔ)償密度這5 種測井參數(shù)預(yù)測滲透率。
圖4 測井參數(shù)與滲透率關(guān)聯(lián)程度Fig.4 Correlation degrees between logging parameters and permeability
在構(gòu)建模型之前,為了減小因輸入數(shù)據(jù)差距過大而造成預(yù)測誤差,需要將輸入數(shù)據(jù)調(diào)整到一個合理的分布范圍,也就是需要將輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,因此本文選擇了z?score 標(biāo)準(zhǔn)化方法,其標(biāo)準(zhǔn)化處理的表達(dá)式為
式中:yi——輸入?yún)?shù);yˉi——該輸入?yún)?shù)的均值;s——該輸入?yún)?shù)的標(biāo)準(zhǔn)差;y*——該輸入?yún)?shù)標(biāo)準(zhǔn)化后的數(shù)據(jù)。
本文采用Pearson 相關(guān)系數(shù)P和均方根誤差ERMSE(root mean squared error)來共同評價預(yù)測結(jié)果的準(zhǔn)確性,Pearson 相關(guān)系數(shù)用來衡量預(yù)測結(jié)果與真實值之間的線性相關(guān)程度,均方根誤差用來衡量預(yù)測結(jié)果與真實值之間存在的偏差。P的計算公式見式(7),ERMSE的計算公式為
式中:Y——預(yù)測結(jié)果值;Q——真實值。
P值越大,表示預(yù)測結(jié)果與真實值線性相關(guān)程度越高,ERMSE越小,表示預(yù)測結(jié)果與真實值存在的偏差越小,說明模型的擬合能力越強(qiáng)。
采用的自適應(yīng)優(yōu)化算法(Adam)是一種隨機(jī)梯度下降算法的改進(jìn),具備自適應(yīng)學(xué)習(xí)率優(yōu)化算法(AdaGrad)和梯度下降算法(RMSProp)的優(yōu)點(diǎn),隱藏層的激活函數(shù)采用的是線性整流函數(shù)(Relu),也叫Relu 激活函數(shù),該激活函數(shù)為非線性函數(shù),能夠使網(wǎng)絡(luò)更好地解決復(fù)雜非線性問題,并且Rleu 函數(shù)能夠克服一定的梯度消失問題。
采用了K 折(K-fold)交叉驗證算法來確定隱藏層神經(jīng)元的個數(shù)、學(xué)習(xí)率,防止過擬合。首先初步設(shè)定學(xué)習(xí)率(learning rate)a=0.001,喂入網(wǎng)絡(luò)的批量大小(batch size)為10;迭代次數(shù)s為20;隱藏層的神經(jīng)元個數(shù)設(shè)置為2n,n取值范圍為[2,8],則神經(jīng)元的個數(shù)分別取4、8、16、32、64、128、256 順次進(jìn)行訓(xùn)練,其實驗結(jié)果見圖5。
圖5 不同神經(jīng)元個數(shù)的預(yù)測誤差Fig.5 Prediction errors of different numbers of neurons
圖5 中橫坐標(biāo)為隱藏層神經(jīng)元個數(shù),縱坐標(biāo)為所預(yù)測滲透率的均方根誤差,可以看出當(dāng)神經(jīng)元個數(shù)小于32 時,均方根誤差偏大,當(dāng)神經(jīng)元個數(shù)為64 時,均方根誤差達(dá)到最小值,然后隨著神經(jīng)元個數(shù)不斷增多其均方根誤差逐漸變大。因此確定了隱藏層的神經(jīng)元個數(shù)為64 個。圖6(a)展示了不同學(xué)習(xí)率下的LSTM 模型的預(yù)測精度隨迭代次數(shù)的變化關(guān)系,可以看出在a=0.01 時,ERMSE曲線下降最快,收斂速度最快并且最平緩,所以設(shè)定a=0.01 為LSTM 模型的學(xué)習(xí)率。為了驗證LSTM 模型是否存在過擬合以及解決方法,分別使用了神經(jīng)元隨機(jī)丟棄算法(Dropout 技術(shù))和L2 正則化方法來進(jìn)行試驗,如圖6(b)所示,不使用方法的型其ERMSE曲線收斂速率一般,收斂后出現(xiàn)了過擬合現(xiàn)象,使用L2 正則化方法的模型其ERMSE曲線收斂速率較低,收斂后處于比較平穩(wěn)的狀態(tài),采用了Dropout 技術(shù)的LSTM 模型其ERMSE曲線收斂速率高且收斂后達(dá)到平穩(wěn)狀態(tài),Dropout 技術(shù)在這個模型中不僅消除了一定的過擬合現(xiàn)象,還提升了LSTM 模型的擬合性能,本文選定Dropout 技術(shù)來防止過擬合問題。
圖6 不同學(xué)習(xí)率以及不同過擬合解決方法下的預(yù)測誤差Fig.6 Prediction errors under different learning rates and overfitting solutions
根據(jù)相關(guān)性分析結(jié)果,選取自然伽馬、補(bǔ)償中子孔隙度、聲波時差、補(bǔ)償密度、泥質(zhì)含量5 種測井參數(shù)作為輸入數(shù)據(jù),進(jìn)行標(biāo)準(zhǔn)化處理后,分批喂入已經(jīng)訓(xùn)練過并設(shè)置了最優(yōu)超參數(shù)的LSTM 網(wǎng)絡(luò),對滲透率進(jìn)行預(yù)測。同樣將上述5 種測井參數(shù)作為灰色系統(tǒng)GM(0,N)的輸入,建立GM(0,5)預(yù)測模型。
LSTM 網(wǎng)絡(luò)模型和GM(0,5)模型預(yù)測的滲透率Pearson 相關(guān)系數(shù)和均方根誤差見表1。從表1可以看出,LSTM 模型預(yù)測結(jié)果的均方根誤差要明顯 的 小 于GM (0,5) 模 型,降 低 了29.47%。LSTM 模型預(yù)測結(jié)果的Pearson 相關(guān)系數(shù)明顯大于GM (0,5) 模型,提高了6.59%。圖7(a) 為GM (0,5) 模型預(yù)測滲透率與巖心滲透率關(guān)系;圖7(b)為LSTM 模型預(yù)測滲透率與巖心滲透率關(guān)系,從圖7 可以看出LSTM 模型不僅預(yù)測的精度更高,并且魯棒性更好,也證實了LSTM 模型在預(yù)測具有時序性質(zhì)的滲透率時優(yōu)勢明顯。
圖7 GM(0,5)模型和LSTM模型預(yù)測滲透率與巖心滲透率關(guān)系Fig.7 Relations between core permeability and predicted permeability by GM(0,5)model and LSTM model
表1 滲透率預(yù)測模型的預(yù)測精度Table 1 Accuracy of permeability predicting model
圖8 為2 種模型預(yù)測成果,可以看出,通過LSTM 模型預(yù)測得到的滲透率與真實值吻合程度要高于GM(0,5)模型,在S_a2 層位,2 種模型的滲透率預(yù)測效果比較接近,但仍然是LSTM 預(yù)測精度要稍高。從S_b1 至T 層位,LSTM 值,測井響應(yīng)參數(shù)的變化趨勢變得復(fù)雜,各測井對滲透率的預(yù)測優(yōu)勢更明顯,主要是因為S_a2 層位的測井響應(yīng)參數(shù)變化趨勢比較平穩(wěn),2 種模型的滲透率預(yù)測精度都比較高,隨著深度加深,從S_b1 至T 層位,滲透率存在很多突變的峰谷響應(yīng)參數(shù)與滲透率之間的非線性關(guān)系更復(fù)雜,但滲透率與測井響應(yīng)參數(shù)的序列性更強(qiáng),普通的機(jī)器學(xué)習(xí)方法在樣本有限的情況下表示復(fù)雜映射關(guān)系的能力有限,故GM(0,5)模型不能準(zhǔn)確學(xué)習(xí)滲透率的變化趨勢,從而導(dǎo)致該模型預(yù)測的準(zhǔn)確性下降。對比可知,LSTM 模型具有能夠提取到滲透率與測井響應(yīng)參數(shù)之間的序列信息的優(yōu)勢,因而使得LSTM 模型能較準(zhǔn)確預(yù)測到滲透率的振蕩規(guī)律,LSTM 滲透率預(yù)測模型更符合滲透率曲線隨深度變化的趨勢。
圖8 2種模型預(yù)測成果Fig.8 Predicted results of 2 models
(1)本文介紹了LSTM 模型在碳酸鹽巖儲層滲率預(yù)測中的應(yīng)用,采用了3 種不同相關(guān)性分析方法篩選出滲透率的敏感曲線作為模型的輸入,并采用了K‐fold 交叉驗證算法進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)優(yōu),最后用實際數(shù)據(jù)驗證了LSTM 模型相較于常規(guī)機(jī)器學(xué)習(xí)模型GM(0,N)的有效性和實用性。
(2)直接利用測井響應(yīng)參數(shù)預(yù)測滲透率大大降低了巖石物理實驗和非常規(guī)測井方法的高成本。LSTM 模型可有效提取測井響應(yīng)參數(shù)的特征,挖掘各測井響應(yīng)參數(shù)和滲透率之間隱含的非線性關(guān)系。