亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多網(wǎng)絡(luò)融合的缺失測井數(shù)據(jù)復原方法

2021-10-15 12:48:36路成輝曹志民

計算機應用與軟件 2021年10期

韓建路成輝曹志民,2,3* 馬躍

1(東北石油大學電子科學學院黑龍江大慶 163318) 2(大慶油田博士后工作站黑龍江大慶 163318) 3(東北石油大學博士后流動站黑龍江大慶 163318)

0 引言

測井數(shù)據(jù)在油氣儲存和油氣資源評價中具有十分重要的作用。然而由于人為、儀器故障等原因，實際應用中經(jīng)常出現(xiàn)部分井段測井數(shù)據(jù)失真或缺失的情況，甚至出于成本考慮而放棄獲取整套測井數(shù)據(jù)。因為重新測井往往需要很高的成本，所以采用一種穩(wěn)定的數(shù)據(jù)合成方法變得尤為重要[1]。

近年來，隨著機器學習和深度學習方法在工業(yè)和科學工程領(lǐng)域廣泛應用，不少研究者提出采用機器學習和深度學習方法來實現(xiàn)測井曲線復原。例如，利用線性回歸、支持向量機、模糊邏輯模型和人工神經(jīng)網(wǎng)絡(luò)等方法來估計地質(zhì)參數(shù)[2-3]、判別巖性[4-5]、確定地層界線[6-7]和復原地質(zhì)數(shù)據(jù)[8-11]等。傳統(tǒng)線性模型簡單易理解并且容易擴展，但是表達能力有限，對模型表達能力有巨大作用的組合特征通常需要人工不斷地探索。傳統(tǒng)的一些人工神經(jīng)網(wǎng)絡(luò)構(gòu)造的是一種點對點的映射關(guān)系，忽略測井曲線特征之間的反演特性，即某些特征可由其他某個特征或某幾個特征推演得到。深度神經(jīng)網(wǎng)絡(luò)在給定足夠多隱藏層或者隱藏單元的情況下，同時憑借Embedding向量以及非線性激活函數(shù)，能夠?qū)W習高階的特征組合，能在特定平滑假設(shè)下以有限的精度逼近任意函數(shù)，故在許多領(lǐng)域獲得較大成功[12-14]。但受限于地質(zhì)儲層結(jié)構(gòu)復雜和非均質(zhì)性較強，單一模型無法同時滿足有限度的特征交叉和高度的非線性表征能力，在測井數(shù)據(jù)復原方面表現(xiàn)不佳。

本文以缺失測井數(shù)據(jù)復原為研究對象，提出一種融合深度特征學習網(wǎng)絡(luò)和交叉網(wǎng)絡(luò)對缺失測井數(shù)據(jù)復原模型。該模型由兩個網(wǎng)絡(luò)組成，其中的交叉網(wǎng)絡(luò)由多個層組成，它以自動方式顯式地應用特征交叉信息，每一層基于現(xiàn)有的層產(chǎn)生高階交互，因此能有效地學習特征之間高度非線性的相互作用關(guān)系，同時再利用殘差思想構(gòu)造深層網(wǎng)絡(luò)，降低模型復雜度。另一網(wǎng)絡(luò)先通過構(gòu)造的樹模型進行特征選擇，將樹模型得到的稀疏向量通過嵌入層轉(zhuǎn)成稠密向量，作為神經(jīng)網(wǎng)絡(luò)的輸入。通過網(wǎng)絡(luò)的聯(lián)合提高模型的非線性表達能力，有效地捕獲特征之間的相互作用關(guān)系，并減少人工篩選特征的不合理性。在真實數(shù)據(jù)集上的應用效果表明，本文模型在現(xiàn)有相關(guān)評價指標方面相較于單一模型(DNN、交叉網(wǎng)絡(luò)、GBDT)獲得較好表現(xiàn)。

1 數(shù)據(jù)介紹

為提高模型適用范圍，收集和篩選的實驗數(shù)據(jù)來自大慶油田勘探開發(fā)研究院相關(guān)專業(yè)人員進行多次標定后取平均，共有220段完整測井數(shù)據(jù)(132 448條記錄數(shù)據(jù))，數(shù)據(jù)集中包括2個地質(zhì)層(地質(zhì)層由相關(guān)軟件和專業(yè)人員共同確定)，其中A地質(zhì)層144段測井數(shù)據(jù)，B地質(zhì)層76段測井數(shù)據(jù)。測井數(shù)據(jù)中全部包括8個屬性，如：聲波時差(AC)、自然電位(SP)、自然伽馬(GR)、密度(DEN)和深側(cè)向電阻率(LLD)等。圖1為部分輸入變量和目標變量的散點圖矩陣，可以看到原始數(shù)據(jù)中存在異常值，特征之間存在較強的非線性關(guān)系且離散。

圖1 部分輸入變量和目標變量的散點圖矩陣

考慮到DEN測井對揭示儲層特征十分重要，且在某些情況下經(jīng)常存在斷層甚至無法測量的情況，因此選擇DEN作為目標測井，其范圍為1.41～2.69，其他屬性作為自變量對DEN進行預測。為避免網(wǎng)絡(luò)模型受到不同輸入數(shù)據(jù)尺度的影響，需要一個特征空間生成階段，即將輸入數(shù)據(jù)轉(zhuǎn)換到與目標測井尺度相同的范圍，輸入特征轉(zhuǎn)化過程如下：

F={log10(AC),log10(26+LLS),log10(GR),

(1)

訓練數(shù)據(jù)集中，A地質(zhì)層122段測井數(shù)據(jù)，B地質(zhì)層58段測井數(shù)據(jù)；驗證數(shù)據(jù)集中，A地質(zhì)層12段測井數(shù)據(jù)，B地質(zhì)層10段測井數(shù)據(jù)；測試數(shù)據(jù)集中，A地質(zhì)層10段測井數(shù)據(jù)，B地質(zhì)層8段測井數(shù)據(jù)。

2 模型框架

模型框架主要包括兩個部分：交叉網(wǎng)絡(luò)(Cross Network，CN)和深度特征學習網(wǎng)絡(luò)(Deep Feature Learning Network，DFN)。交叉網(wǎng)絡(luò)是由多層交叉層組成，使用多層交叉層對輸入向量進行特征交叉，目的是增加特征之間的交互力度，每一交叉層的基本操作是將原始輸入向量與先前層向量進行交互，并加入偏置和先前層向量。CN能夠有效地學習特定階數(shù)的特征組合，特征組合的最高階數(shù)取決于網(wǎng)絡(luò)層數(shù)。而CN小規(guī)模的參數(shù)限制了模型的表達能力，為獲得高度非線性的組合特征，加入DFN模型，為解決人工進行特征篩選的不合理性，引入梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)先對特征進行篩選，具體結(jié)構(gòu)如圖2所示。

2.1 深度特征學習網(wǎng)絡(luò)

深度特征學習網(wǎng)絡(luò)先由GBDT進行特征篩選，通過嵌入層將GBDT得到的稀疏向量壓縮到低維稠密向量，再通過多層感知機網(wǎng)絡(luò)較強的擬合能力進行模型訓練，詳細結(jié)構(gòu)如下。

(1) 特征篩選層：模型采用GBDT進行特征篩選。GBDT作為一種常用的樹模型，可對原始特征進行特征劃分、特征組合和特征選擇，并得到高階特征屬性和非線性映射。通過原始輸入數(shù)據(jù)訓練GBDT模型，然后利用GBDT模型學習到的樹來構(gòu)造新特征，構(gòu)造的新特征向量取值yi∈{0,1},向量的每個元素對應于GBDT模型中樹的葉子節(jié)點。當一個樣本點通過某棵樹最終落在這棵樹的一個葉子節(jié)點上，在新特征向量中這個葉子節(jié)點對應的元素值為1，而這棵樹的其他葉子節(jié)點對應的元素值為0。

(2) 嵌入層：嵌入層將稀疏向量壓縮到低維稠密向量。由于GBDT的輸出是一個高維稀疏數(shù)據(jù)，在進入多層感知機網(wǎng)絡(luò)前，引入一個嵌入層來完成將輸入向量壓縮到低維稠密向量：

xembed,i=wembed,ixi

(2)

式中：xembed,i為嵌入層輸出向量，wembed,i為第i個稀疏數(shù)據(jù)權(quán)重，將嵌入向量與連續(xù)特征向量疊加起來形成一個向量x0作為神經(jīng)網(wǎng)絡(luò)的輸入：

(3)

(3) 多層感知機是一個全連接的前饋神經(jīng)網(wǎng)絡(luò)，通過反向梯度下降算法進行權(quán)重的更新。每個深度層具有如下公式：

hl+1=f(Wlhl+bl)

(4)

式中：hl∈Rnl,hl+1∈Rnl+1分別是第l層和第l+1層隱藏層;Wl∈Rnl+1×nl,bl∈Rnl+1是第l深度層的參數(shù);f(·)是ReLU激活函數(shù)。

2.2 交叉網(wǎng)絡(luò)

交叉網(wǎng)絡(luò)的核心思想是以一種高效的方式進行顯示的特征組合，每一層的神經(jīng)元數(shù)量都相同，且等于輸入向量的維度，每個層具有以下公式：

(5)

2.3 模型融合

兩個網(wǎng)絡(luò)模型最后的輸出向量進行拼接，輸入給一個全連接層做線性回歸。得到融合模型的輸出：

f=([xL1,hL2]wo)

(6)

式中：xL1∈Rd，hL2∈Rm分別是交叉網(wǎng)絡(luò)和深度特征學習網(wǎng)絡(luò)的輸出；wo∈R(d+m)是融合層權(quán)重向量。

損失函數(shù)是均方誤差加一個正則化項：

(7)

式中：fi是式(6)的輸出；yi是真實值；N是輸入樣本的總數(shù)；λ是L2正則化系數(shù)。

通過最小化loss，在融合的模型訓練過程中采用梯度反向傳播的方式對模型中權(quán)重和偏置參數(shù)進行更新。需要說明的是在深度特征學習網(wǎng)絡(luò)中通過GBDT進行特征篩選層是一個單獨的網(wǎng)絡(luò)，不參與模型的聯(lián)合訓練。

3 實驗與結(jié)果分析

3.1 實驗環(huán)境和超參數(shù)設(shè)置

本文實驗環(huán)境操作系統(tǒng)為Windows 10，深度學習框架為tensorflow1.14.0，集成學習框架為lightGBM。交叉網(wǎng)絡(luò)中交叉層數(shù)為6，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中全連接層為4層，每層神經(jīng)元個數(shù)為50，Batch size設(shè)置為128，Droupout設(shè)為0.3，激活函數(shù)采用ReLU，學習率設(shè)為0.01，采用adam優(yōu)化方法，實驗中epoch值設(shè)為50。GBDT中max_depth設(shè)為6，max_features為0.9，learning_rate為0.05，n_estimators為100。

3.2 評價指標

本文采用三個指標評價模型的性能，描述如下：

(1) 皮爾遜相關(guān)系數(shù)：

(8)

(2) 均方誤差：

(9)

(3) 信任度。為可視化各模型在測井分段實驗復原效果，提出信任度的定義，信任度越高表示該模型在該分段測井數(shù)據(jù)中表現(xiàn)越好。信任度定義如下：

(10)

各模型的整體信任度定義為：

(11)

式中：N為樣本數(shù)。

3.3 測井生成實驗和分析

本文采用深度神經(jīng)網(wǎng)絡(luò)(DNN)、交叉網(wǎng)絡(luò)模型(CN)、GBDT模型和本文方法(CN-DFN)來生成測井數(shù)據(jù)。圖4-圖7展示的是不同模型在其中一個測試數(shù)據(jù)集(A1)上的預測結(jié)果與真實數(shù)據(jù)對比圖，在每個模型的下面為每一個預測數(shù)據(jù)的信任度，圖中方框為各學習器信任度較高區(qū)域。表1為不同模型在部分測試數(shù)據(jù)集上的相關(guān)系數(shù)、均方誤差和信任度。通過實驗可以發(fā)現(xiàn)單純的深度神經(jīng)網(wǎng)絡(luò)模型在合成測井曲線上預測結(jié)果不佳，主要是因為深度學習需要足夠多的學習樣本，對數(shù)據(jù)較敏感，而油田地質(zhì)結(jié)構(gòu)的復雜性增加了模型學習的難度。Gradient Boosting和CN在合成測井曲線上有較好的表現(xiàn)，原因是GBDT擬合的是上一棵樹的殘差，隨著樹的增加，殘差越來越小，最終結(jié)果由多棵樹累加得到，通過迭代式學習對數(shù)據(jù)學習較充分，而CN顯式地生成所有的交叉特征，可有效地學習特征之間高度非線性的相互作用關(guān)系，與地質(zhì)屬性中特征之間存在強交互有關(guān)。而本文方法在測試集上得到多塊信任度較高區(qū)域，是由于經(jīng)過GBDT的特征選擇，得到對預測結(jié)果較重要的特征，將得到的特征通過神經(jīng)網(wǎng)絡(luò)擬合，同時結(jié)合交叉網(wǎng)絡(luò)顯式生成特定交叉特征的優(yōu)點，挖掘出潛在的特征交叉信息，可在一定程度上提高數(shù)據(jù)復原的效果。

圖4 GBDT在測試數(shù)據(jù)集(A1)上的信任度和預測值

圖6 DNN在測試數(shù)據(jù)集(A1)上的信任度和預測值

圖7 CN-DFN在測試數(shù)據(jù)集(A1)上的信任度和預測值

表1 各模型在部分測試數(shù)據(jù)集上的結(jié)果

4 結(jié) 語

本文模型不需要對輸入數(shù)據(jù)進行復雜的特征篩選和轉(zhuǎn)換過程就可在合成測井曲線上面得到一定程度的提升，其原因可歸為以下兩點：

(1) 交叉網(wǎng)絡(luò)可獲得較好的損失函數(shù)且優(yōu)于具有相同結(jié)構(gòu)的單一DNN模型，對于這種具有超參數(shù)的模型，這種提升減輕了模型初始化的隨機性效應。利用交叉網(wǎng)絡(luò)來進行特征交叉，顯式地學習到更多交叉特征組合，并通過殘差思想構(gòu)造深層網(wǎng)絡(luò)，降低模型學習的隨機性和時間復雜度。

(2) 通過構(gòu)造的樹模型進行特征選擇，可有效降低人工進行特征篩選的不合理性，通過嵌入層，將稀疏向量壓縮到低維稠密向量，降低模型計算復雜度，同時融合神經(jīng)網(wǎng)絡(luò)較強的非線性表達能力，可使模型學習到更多隱含信息。