韓 建 路成輝 曹志民,2,3* 馬 躍
1(東北石油大學(xué)電子科學(xué)學(xué)院 黑龍江 大慶 163318) 2(大慶油田博士后工作站 黑龍江 大慶 163318) 3(東北石油大學(xué)博士后流動站 黑龍江 大慶 163318)
測井數(shù)據(jù)在油氣儲存和油氣資源評價中具有十分重要的作用。然而由于人為、儀器故障等原因,實際應(yīng)用中經(jīng)常出現(xiàn)部分井段測井數(shù)據(jù)失真或缺失的情況,甚至出于成本考慮而放棄獲取整套測井數(shù)據(jù)。因為重新測井往往需要很高的成本,所以采用一種穩(wěn)定的數(shù)據(jù)合成方法變得尤為重要[1]。
近年來,隨著機器學(xué)習(xí)和深度學(xué)習(xí)方法在工業(yè)和科學(xué)工程領(lǐng)域廣泛應(yīng)用,不少研究者提出采用機器學(xué)習(xí)和深度學(xué)習(xí)方法來實現(xiàn)測井曲線復(fù)原。例如,利用線性回歸、支持向量機、模糊邏輯模型和人工神經(jīng)網(wǎng)絡(luò)等方法來估計地質(zhì)參數(shù)[2-3]、判別巖性[4-5]、確定地層界線[6-7]和復(fù)原地質(zhì)數(shù)據(jù)[8-11]等。傳統(tǒng)線性模型簡單易理解并且容易擴展,但是表達能力有限,對模型表達能力有巨大作用的組合特征通常需要人工不斷地探索。傳統(tǒng)的一些人工神經(jīng)網(wǎng)絡(luò)構(gòu)造的是一種點對點的映射關(guān)系,忽略測井曲線特征之間的反演特性,即某些特征可由其他某個特征或某幾個特征推演得到。深度神經(jīng)網(wǎng)絡(luò)在給定足夠多隱藏層或者隱藏單元的情況下,同時憑借Embedding向量以及非線性激活函數(shù),能夠?qū)W習(xí)高階的特征組合,能在特定平滑假設(shè)下以有限的精度逼近任意函數(shù),故在許多領(lǐng)域獲得較大成功[12-14]。但受限于地質(zhì)儲層結(jié)構(gòu)復(fù)雜和非均質(zhì)性較強,單一模型無法同時滿足有限度的特征交叉和高度的非線性表征能力,在測井數(shù)據(jù)復(fù)原方面表現(xiàn)不佳。
本文以缺失測井數(shù)據(jù)復(fù)原為研究對象,提出一種融合深度特征學(xué)習(xí)網(wǎng)絡(luò)和交叉網(wǎng)絡(luò)對缺失測井數(shù)據(jù)復(fù)原模型。該模型由兩個網(wǎng)絡(luò)組成,其中的交叉網(wǎng)絡(luò)由多個層組成,它以自動方式顯式地應(yīng)用特征交叉信息,每一層基于現(xiàn)有的層產(chǎn)生高階交互,因此能有效地學(xué)習(xí)特征之間高度非線性的相互作用關(guān)系,同時再利用殘差思想構(gòu)造深層網(wǎng)絡(luò),降低模型復(fù)雜度。另一網(wǎng)絡(luò)先通過構(gòu)造的樹模型進行特征選擇,將樹模型得到的稀疏向量通過嵌入層轉(zhuǎn)成稠密向量,作為神經(jīng)網(wǎng)絡(luò)的輸入。通過網(wǎng)絡(luò)的聯(lián)合提高模型的非線性表達能力,有效地捕獲特征之間的相互作用關(guān)系,并減少人工篩選特征的不合理性。在真實數(shù)據(jù)集上的應(yīng)用效果表明,本文模型在現(xiàn)有相關(guān)評價指標方面相較于單一模型(DNN、交叉網(wǎng)絡(luò)、GBDT)獲得較好表現(xiàn)。
為提高模型適用范圍,收集和篩選的實驗數(shù)據(jù)來自大慶油田勘探開發(fā)研究院相關(guān)專業(yè)人員進行多次標定后取平均,共有220段完整測井數(shù)據(jù)(132 448條記錄數(shù)據(jù)),數(shù)據(jù)集中包括2個地質(zhì)層(地質(zhì)層由相關(guān)軟件和專業(yè)人員共同確定),其中A地質(zhì)層144段測井數(shù)據(jù),B地質(zhì)層76段測井數(shù)據(jù)。測井數(shù)據(jù)中全部包括8個屬性,如:聲波時差(AC)、自然電位(SP)、自然伽馬(GR)、密度(DEN)和深側(cè)向電阻率(LLD)等。圖1為部分輸入變量和目標變量的散點圖矩陣,可以看到原始數(shù)據(jù)中存在異常值,特征之間存在較強的非線性關(guān)系且離散。
圖1 部分輸入變量和目標變量的散點圖矩陣
考慮到DEN測井對揭示儲層特征十分重要,且在某些情況下經(jīng)常存在斷層甚至無法測量的情況,因此選擇DEN作為目標測井,其范圍為1.41~2.69,其他屬性作為自變量對DEN進行預(yù)測。為避免網(wǎng)絡(luò)模型受到不同輸入數(shù)據(jù)尺度的影響,需要一個特征空間生成階段,即將輸入數(shù)據(jù)轉(zhuǎn)換到與目標測井尺度相同的范圍,輸入特征轉(zhuǎn)化過程如下:
F={log10(AC),log10(26+LLS),log10(GR),
(1)
訓(xùn)練數(shù)據(jù)集中,A地質(zhì)層122段測井數(shù)據(jù),B地質(zhì)層58段測井數(shù)據(jù);驗證數(shù)據(jù)集中,A地質(zhì)層12段測井數(shù)據(jù),B地質(zhì)層10段測井數(shù)據(jù);測試數(shù)據(jù)集中,A地質(zhì)層10段測井數(shù)據(jù),B地質(zhì)層8段測井數(shù)據(jù)。
模型框架主要包括兩個部分:交叉網(wǎng)絡(luò)(Cross Network,CN)和深度特征學(xué)習(xí)網(wǎng)絡(luò)(Deep Feature Learning Network,DFN)。交叉網(wǎng)絡(luò)是由多層交叉層組成,使用多層交叉層對輸入向量進行特征交叉,目的是增加特征之間的交互力度,每一交叉層的基本操作是將原始輸入向量與先前層向量進行交互,并加入偏置和先前層向量。CN能夠有效地學(xué)習(xí)特定階數(shù)的特征組合,特征組合的最高階數(shù)取決于網(wǎng)絡(luò)層數(shù)。而CN小規(guī)模的參數(shù)限制了模型的表達能力,為獲得高度非線性的組合特征,加入DFN模型,為解決人工進行特征篩選的不合理性,引入梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)先對特征進行篩選,具體結(jié)構(gòu)如圖2所示。
深度特征學(xué)習(xí)網(wǎng)絡(luò)先由GBDT進行特征篩選,通過嵌入層將GBDT得到的稀疏向量壓縮到低維稠密向量,再通過多層感知機網(wǎng)絡(luò)較強的擬合能力進行模型訓(xùn)練,詳細結(jié)構(gòu)如下。
(1) 特征篩選層:模型采用GBDT進行特征篩選。GBDT作為一種常用的樹模型,可對原始特征進行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線性映射。通過原始輸入數(shù)據(jù)訓(xùn)練GBDT模型,然后利用GBDT模型學(xué)習(xí)到的樹來構(gòu)造新特征,構(gòu)造的新特征向量取值yi∈{0,1},向量的每個元素對應(yīng)于GBDT模型中樹的葉子節(jié)點。當一個樣本點通過某棵樹最終落在這棵樹的一個葉子節(jié)點上,在新特征向量中這個葉子節(jié)點對應(yīng)的元素值為1,而這棵樹的其他葉子節(jié)點對應(yīng)的元素值為0。
(2) 嵌入層:嵌入層將稀疏向量壓縮到低維稠密向量。由于GBDT的輸出是一個高維稀疏數(shù)據(jù),在進入多層感知機網(wǎng)絡(luò)前,引入一個嵌入層來完成將輸入向量壓縮到低維稠密向量:
xembed,i=wembed,ixi
(2)
式中:xembed,i為嵌入層輸出向量,wembed,i為第i個稀疏數(shù)據(jù)權(quán)重,將嵌入向量與連續(xù)特征向量疊加起來形成一個向量x0作為神經(jīng)網(wǎng)絡(luò)的輸入:
(3)
(3) 多層感知機是一個全連接的前饋神經(jīng)網(wǎng)絡(luò),通過反向梯度下降算法進行權(quán)重的更新。每個深度層具有如下公式:
hl+1=f(Wlhl+bl)
(4)
式中:hl∈Rnl,hl+1∈Rnl+1分別是第l層和第l+1層隱藏層;Wl∈Rnl+1×nl,bl∈Rnl+1是第l深度層的參數(shù);f(·)是ReLU激活函數(shù)。
交叉網(wǎng)絡(luò)的核心思想是以一種高效的方式進行顯示的特征組合,每一層的神經(jīng)元數(shù)量都相同,且等于輸入向量的維度,每個層具有以下公式:
(5)
兩個網(wǎng)絡(luò)模型最后的輸出向量進行拼接,輸入給一個全連接層做線性回歸。得到融合模型的輸出:
f=([xL1,hL2]wo)
(6)
式中:xL1∈Rd,hL2∈Rm分別是交叉網(wǎng)絡(luò)和深度特征學(xué)習(xí)網(wǎng)絡(luò)的輸出;wo∈R(d+m)是融合層權(quán)重向量。
損失函數(shù)是均方誤差加一個正則化項:
(7)
式中:fi是式(6)的輸出;yi是真實值;N是輸入樣本的總數(shù);λ是L2正則化系數(shù)。
通過最小化loss,在融合的模型訓(xùn)練過程中采用梯度反向傳播的方式對模型中權(quán)重和偏置參數(shù)進行更新。需要說明的是在深度特征學(xué)習(xí)網(wǎng)絡(luò)中通過GBDT進行特征篩選層是一個單獨的網(wǎng)絡(luò),不參與模型的聯(lián)合訓(xùn)練。
本文實驗環(huán)境操作系統(tǒng)為Windows 10,深度學(xué)習(xí)框架為tensorflow1.14.0,集成學(xué)習(xí)框架為lightGBM。交叉網(wǎng)絡(luò)中交叉層數(shù)為6,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中全連接層為4層,每層神經(jīng)元個數(shù)為50,Batch size設(shè)置為128,Droupout設(shè)為0.3,激活函數(shù)采用ReLU,學(xué)習(xí)率設(shè)為0.01,采用adam優(yōu)化方法,實驗中epoch值設(shè)為50。GBDT中max_depth設(shè)為6,max_features為0.9,learning_rate為0.05,n_estimators為100。
本文采用三個指標評價模型的性能,描述如下:
(1) 皮爾遜相關(guān)系數(shù):
(8)
(2) 均方誤差:
(9)
(3) 信任度。為可視化各模型在測井分段實驗復(fù)原效果,提出信任度的定義,信任度越高表示該模型在該分段測井數(shù)據(jù)中表現(xiàn)越好。信任度定義如下:
(10)
各模型的整體信任度定義為:
(11)
式中:N為樣本數(shù)。
本文采用深度神經(jīng)網(wǎng)絡(luò)(DNN)、交叉網(wǎng)絡(luò)模型(CN)、GBDT模型和本文方法(CN-DFN)來生成測井數(shù)據(jù)。圖4-圖7展示的是不同模型在其中一個測試數(shù)據(jù)集(A1)上的預(yù)測結(jié)果與真實數(shù)據(jù)對比圖,在每個模型的下面為每一個預(yù)測數(shù)據(jù)的信任度,圖中方框為各學(xué)習(xí)器信任度較高區(qū)域。表1為不同模型在部分測試數(shù)據(jù)集上的相關(guān)系數(shù)、均方誤差和信任度。通過實驗可以發(fā)現(xiàn)單純的深度神經(jīng)網(wǎng)絡(luò)模型在合成測井曲線上預(yù)測結(jié)果不佳,主要是因為深度學(xué)習(xí)需要足夠多的學(xué)習(xí)樣本,對數(shù)據(jù)較敏感,而油田地質(zhì)結(jié)構(gòu)的復(fù)雜性增加了模型學(xué)習(xí)的難度。Gradient Boosting和CN在合成測井曲線上有較好的表現(xiàn),原因是GBDT擬合的是上一棵樹的殘差,隨著樹的增加,殘差越來越小,最終結(jié)果由多棵樹累加得到,通過迭代式學(xué)習(xí)對數(shù)據(jù)學(xué)習(xí)較充分,而CN顯式地生成所有的交叉特征,可有效地學(xué)習(xí)特征之間高度非線性的相互作用關(guān)系,與地質(zhì)屬性中特征之間存在強交互有關(guān)。而本文方法在測試集上得到多塊信任度較高區(qū)域,是由于經(jīng)過GBDT的特征選擇,得到對預(yù)測結(jié)果較重要的特征,將得到的特征通過神經(jīng)網(wǎng)絡(luò)擬合,同時結(jié)合交叉網(wǎng)絡(luò)顯式生成特定交叉特征的優(yōu)點,挖掘出潛在的特征交叉信息,可在一定程度上提高數(shù)據(jù)復(fù)原的效果。
圖4 GBDT在測試數(shù)據(jù)集(A1)上的信任度和預(yù)測值
圖6 DNN在測試數(shù)據(jù)集(A1)上的信任度和預(yù)測值
圖7 CN-DFN在測試數(shù)據(jù)集(A1)上的信任度和預(yù)測值
表1 各模型在部分測試數(shù)據(jù)集上的結(jié)果
本文模型不需要對輸入數(shù)據(jù)進行復(fù)雜的特征篩選和轉(zhuǎn)換過程就可在合成測井曲線上面得到一定程度的提升,其原因可歸為以下兩點:
(1) 交叉網(wǎng)絡(luò)可獲得較好的損失函數(shù)且優(yōu)于具有相同結(jié)構(gòu)的單一DNN模型,對于這種具有超參數(shù)的模型,這種提升減輕了模型初始化的隨機性效應(yīng)。利用交叉網(wǎng)絡(luò)來進行特征交叉,顯式地學(xué)習(xí)到更多交叉特征組合,并通過殘差思想構(gòu)造深層網(wǎng)絡(luò),降低模型學(xué)習(xí)的隨機性和時間復(fù)雜度。
(2) 通過構(gòu)造的樹模型進行特征選擇,可有效降低人工進行特征篩選的不合理性,通過嵌入層,將稀疏向量壓縮到低維稠密向量,降低模型計算復(fù)雜度,同時融合神經(jīng)網(wǎng)絡(luò)較強的非線性表達能力,可使模型學(xué)習(xí)到更多隱含信息。