李克文 蘇兆鑫 王興謀 朱劍兵
1(中國石油大學(xué)(華東)計算機(jī)與通信工程學(xué)院 山東 青島 266580) 2(中國石化勝利油田分公司 山東 東營 257022)
隨著我國油氣勘探技術(shù)的不斷提升,中、淺層大型背斜等構(gòu)造油氣藏的勘探數(shù)量逐漸減少,原油產(chǎn)量逐漸降低,勘探向更深、更隱蔽的儲層發(fā)展。儲層預(yù)測對油氣勘探工作顯得愈加重要。
深度學(xué)習(xí)作為近年來興起的一類機(jī)器學(xué)習(xí)算法,已經(jīng)在儲層預(yù)測與巖性識別等工作上有了一定的應(yīng)用。楊柳青等[1]使用卷積神經(jīng)網(wǎng)絡(luò)[2]建立測井參數(shù)與孔隙度之間的非線性映射關(guān)系。安鵬等[3]使用自然伽馬(GR)等測井?dāng)?shù)據(jù)作為深層網(wǎng)絡(luò)的輸入進(jìn)行巖性預(yù)測,取得了較好效果。項云飛等[4]結(jié)合多元線性回歸與神經(jīng)網(wǎng)絡(luò)建立了儲層參數(shù)預(yù)測模型,得到了比單模型更好的效果。然而現(xiàn)有方法大多使用測井參數(shù)作為輸入數(shù)據(jù),得出的模型無法在未打井的區(qū)域使用。
地震屬性是地震勘探中得到的地震波數(shù)據(jù),在一定程度上包含了對地下構(gòu)造的響應(yīng),并且具有較高橫向分辨率。地震屬性種類高達(dá)百種。特征維度高但樣本量稀少的數(shù)據(jù)容易產(chǎn)生“維數(shù)災(zāi)難”與“過擬合”問題。隨著維度增加,還有可能造成學(xué)習(xí)性能的下降[5-6],特征選擇是解決這一問題的有效手段。特征選擇主要是尋找信息最豐富的特征來構(gòu)造特征子集,從而在較低的維數(shù)上保持原始數(shù)據(jù)的固有結(jié)構(gòu)[7-8],并不改變變量的原始表示,而只是選擇其中的最優(yōu)或次優(yōu)的一個子集,保留了變量的原始意義。現(xiàn)有的特征選擇方法一般分為過濾式、包裹式和嵌入式。神經(jīng)網(wǎng)絡(luò)也已經(jīng)被應(yīng)用于特征選擇領(lǐng)域[9-12]。使用稀疏誘導(dǎo)正則化技術(shù)結(jié)合神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)訓(xùn)練過程中進(jìn)行特征選擇已經(jīng)有了諸多研究。基于L1范數(shù)懲罰的最小絕對收縮選擇算子(Lasso)方法是中常見的稀疏性特征選擇方法。在此之上,L1/2與Group Lasso等更多改進(jìn)的正則方法也被用于特征選擇[1,4,12]。
本文提出使用平滑的L1/2正則項結(jié)合神經(jīng)網(wǎng)絡(luò)的特征選擇方法,進(jìn)一步將輸入層權(quán)值與ReLU函數(shù)結(jié)合構(gòu)建特征選擇層,加入到神經(jīng)網(wǎng)絡(luò)模型中,實現(xiàn)網(wǎng)絡(luò)訓(xùn)練過程中輸入層的稀疏化,進(jìn)而實現(xiàn)特征的自動剔除與選擇。使用此方法進(jìn)行多種地震屬性的特征選擇,并構(gòu)建基于DenseNet與SENet的儲層預(yù)測模型提取并組織東營埕島某區(qū)塊的地震屬性數(shù)據(jù),通過與常規(guī)機(jī)器學(xué)習(xí)方法對比,驗證了深度學(xué)習(xí)模型與特征選擇層的有效性。
圖1 單隱層的全連接BP網(wǎng)絡(luò)
(1)
以文獻(xiàn)[13]提出的方法為例,將Lasso懲罰項集成到網(wǎng)絡(luò)的輸入層中,損失函數(shù)變?yōu)椋?/p>
(2)
(3)
(4)
除了Lasso正則懲罰項,L2正則項更加光滑但不具有稀疏性,L1/2是近年來較為流行的一種正則項方法,具有更好的稀疏性和剪枝能力,但其非凸性、非光滑性使神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程易于出現(xiàn)數(shù)值振蕩現(xiàn)象[14]。將L1/2正則項加在輸入層上時,懲罰項變?yōu)椋?/p>
(5)
由于帶有L1/2正則項的誤差函數(shù)在原點處不可微,所以當(dāng)權(quán)重向量接近原點時,使用平滑的函數(shù)代替L1/2正則懲罰,其平滑函數(shù)表達(dá)式為:
(6)
式中:α為一個小的常數(shù)。此時損失函數(shù)變?yōu)椋?/p>
(7)
使用此方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,當(dāng)模型精度不在提升時,提取每一個輸入節(jié)點對應(yīng)的連接權(quán)值的L1范數(shù)wn=(wn1,wn2,…,wnm),組成與輸入層大小一致的向量W=(wnm)N×M=(w1,w2,…,wN),此向量則是經(jīng)過正則項懲罰的神經(jīng)網(wǎng)絡(luò)訓(xùn)練后得到的每一個輸入特征對應(yīng)的稀疏權(quán)值。
將此向量與輸入層相乘,起到了對輸入特征的縮放效果,接著在后面繼續(xù)加上ReLU[15]激活函數(shù),構(gòu)成特征選擇層。ReLU函數(shù)對特征集合進(jìn)行截斷,偏置b為特征選擇的閾值??紤]到輸入特征權(quán)重已經(jīng)變化,故重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)在優(yōu)化w和b的同時,起到了對輸入特征自適應(yīng)選擇的效果。工作過程如圖2所示。
圖2 ReLU函數(shù)對特征集合的截斷過程
使用此方法進(jìn)行特征選擇可根據(jù)網(wǎng)絡(luò)模型進(jìn)行適配,在模型的訓(xùn)練過程中自動進(jìn)行特征的剔除,簡化網(wǎng)絡(luò)結(jié)構(gòu),是一種對神經(jīng)網(wǎng)絡(luò)通用的方法。
不同地震屬性之間數(shù)值差異巨大,首先對地震數(shù)據(jù)進(jìn)行歸一化處理,在模型首端加入特征選擇層進(jìn)行輸入層的稀疏化,而后基于DenseNet[16]的連接思想與SENet[17]的通道關(guān)聯(lián)思想構(gòu)建網(wǎng)絡(luò)模型。
ResNet(Residual Neural Network)使用恒等連接的思想大大加深了網(wǎng)絡(luò)的深度,并且極大地緩解了網(wǎng)絡(luò)加深帶來的退化問題[18]。這種短路連接的思想影響了許多網(wǎng)絡(luò)模型,也成為加深網(wǎng)絡(luò)的常用手段。DenseNet則將這種連接應(yīng)用到了整個塊結(jié)構(gòu)上,將所有層直接相互連接,對于每一層,它前面所有層的特征圖都當(dāng)作輸入,而其本身的特征圖作為所有后面層的輸入,確保網(wǎng)絡(luò)中各層之間的最大信息流。這種結(jié)構(gòu)可以緩解梯度消失問題,加強特征在整個網(wǎng)絡(luò)的傳播,并加強了特征重用。DenseNet的結(jié)構(gòu)如圖3所示。
圖3 DenseNet塊結(jié)構(gòu)
SENet(Squeeze-and-Excitation Networks)可以顯式地建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道方向的特征響應(yīng)[17]。它的主要操作有兩個:擠壓(Squeeze)和激活(Excitation),Squeeze將每個二維的特征通道變成一個實數(shù),這個實數(shù)某種程度上具有全局的感受野,它表征著在特征通道上響應(yīng)的全局分布。而Excitation類似于LSTM網(wǎng)絡(luò)中的門控機(jī)制,為特征通道生成權(quán)重,顯式地建模特征通道間的相關(guān)性。最后通過scale操作使用得到的權(quán)重對原特征圖進(jìn)行縮放。SENet主要結(jié)構(gòu)如圖4所示[17]。
圖4 SENet主要結(jié)構(gòu)
2.2.1Squeeze操作
為了挖掘通道之間依賴關(guān)系,利用一個全局平均池化操作來生成通道級別的統(tǒng)計數(shù)據(jù)。Squeeze操作的計算式表示為:
(8)
式中:uc表示輸入特征圖的一道,H與W為特征圖的維度;zc∈Rc表示Squeeze操作后得到的該道的統(tǒng)計數(shù)據(jù)。
2.2.2Excitation操作
Excitation的目的是構(gòu)建通道統(tǒng)計數(shù)據(jù)之間的依賴關(guān)系,為了限制模型復(fù)雜性使用了兩個具有減速比r的全連接層,然后使用ReLU激活函數(shù)得到通道級別的權(quán)重。Excitation操作計算式為:
s=Fex(z,W)=σ(g(z,W))=σ(W1δ(W2z))
(9)
(10)
模型使用原始振幅、平方根振幅、瞬時相位和瞬時頻率等49個疊后地震屬性,組成大小為7×7的輸入層,加上與此尺度對應(yīng)的特征選擇層。模型的中間部分為堆疊的Dense_SE_block結(jié)構(gòu),如圖5所示,每個卷積層使用3×3大小的卷積核,并使用Squeeze與Excitation操作融合通道間特征,使用elu[19]激活函數(shù),在卷積層與激活函數(shù)之間加BatchNormalization層,可有效地防止梯度消失。以每五個特征圖為單位,堆疊DenseNet結(jié)構(gòu),特征圖之間兩兩相連,每一個特征圖接收之前的特征,同時也向后面所有的特征層傳播,使的每一個特征在網(wǎng)絡(luò)中得到最的保留,網(wǎng)絡(luò)靠前的特征也可以被靠后的部分使用到。
網(wǎng)絡(luò)使用特征選擇層后接若干個Dense_SE_block疊加的形式,Dense_SE_block個數(shù)根據(jù)模型性能進(jìn)行調(diào)整,最后加三個全連接層與Sigmoid層進(jìn)行砂巖、泥巖二分類。使用adam算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,整個流程如圖6所示。
圖6 儲層預(yù)測模型訓(xùn)練過程
以東營埕島區(qū)塊作為研究對象,提取SEGY地震數(shù)據(jù)體、測井巖性數(shù)據(jù)、時深轉(zhuǎn)換數(shù)據(jù)以及層位信息等。使用原始振幅、平方根振幅、瞬時相位、瞬時頻率等49個疊后地震屬性作為網(wǎng)絡(luò)輸入,以及對應(yīng)的經(jīng)過時深轉(zhuǎn)換匹配后的井上巖性數(shù)據(jù)作為標(biāo)記。共得到45 450個樣本數(shù)據(jù),以6 ∶2 ∶2的比例劃分訓(xùn)練集、驗證集與預(yù)測集。
3.1.1地震屬性處理
根據(jù)地震數(shù)據(jù)采集時的地理坐標(biāo)位置以及inline和cdp的范圍,計算segy文件中每一道數(shù)據(jù)所在位置,雙程旅行時范圍為1 025,inline范圍為627至2 267,cdp范圍為1 189至1 852。由于每一種屬性數(shù)值范圍差別巨大,所以對數(shù)據(jù)進(jìn)行歸一化處理,其計算公式為:
(11)
3.1.2巖性標(biāo)記處理
表1 巖性列表
神經(jīng)網(wǎng)絡(luò)模型使用8個Dense_SE_block塊與特征選擇層構(gòu)成的網(wǎng)絡(luò),對比方法分別為沒有特征選擇層的網(wǎng)絡(luò)以及常規(guī)機(jī)器學(xué)習(xí)算法,包括決策樹算法、KNN算法、XgBoost算法。網(wǎng)絡(luò)模型取測試集準(zhǔn)確率最高時的結(jié)果,其他方法采用十折交叉驗證結(jié)果。各方法的準(zhǔn)確率、查準(zhǔn)率、查全率如表2與表3所示。
表2 各方法訓(xùn)練集效果(%)
表3 各方法預(yù)測集效果(%)
由表2和表3可見,本文提出的Dense_SE_net卷積神經(jīng)網(wǎng)絡(luò)模型在預(yù)測集準(zhǔn)確率、查準(zhǔn)率均高于常規(guī)機(jī)器學(xué)習(xí)算法,并且使用特征選擇的神經(jīng)網(wǎng)絡(luò)模型比不帶特征選擇層的模型具有更高的預(yù)測集準(zhǔn)確率,同時訓(xùn)練集準(zhǔn)確率幾乎相當(dāng),證明了特征選擇對于模型性能的提升,并有一定程度抑制過擬合的作用。FS_Dense_SE_net模型的預(yù)測集準(zhǔn)確率可達(dá)到72.95%,在所有預(yù)測結(jié)果為砂巖的樣本中,有66.83%的樣本預(yù)測正確,所有真實砂巖樣本中有55.95%預(yù)測正確。
使用FS_Dense_SE_net模型對井CB11、CB111進(jìn)行巖性預(yù)測,結(jié)果分別如圖7至圖10所示,左圖為預(yù)測結(jié)果,右圖為真實情況,縱坐標(biāo)為雙程旅行時,黑色部分為砂巖,其余部分為泥巖。在砂巖密集的井CB11與砂巖稀疏的井CB111均取得了較好結(jié)果。
圖9 CB111預(yù)測情況 圖10 CB111真實情況
使用FS_Dense_SE_net模型進(jìn)行地下縱向切片巖性預(yù)測,取主測線inline為1 328,共深度道集CDP為1 189到1 852的數(shù)據(jù)進(jìn)行砂巖標(biāo)記成像,結(jié)果如圖11所示。
圖11 inline=1 328巖性預(yù)測結(jié)果
本文提出了一種使用正則懲罰進(jìn)行網(wǎng)絡(luò)稀疏化的特征選擇方法,以及一種結(jié)合此方法的使用DenseNet與SENet結(jié)構(gòu)的儲層預(yù)測模型。使用平滑改進(jìn)的L1/2正則對網(wǎng)絡(luò)輸入層的權(quán)值進(jìn)行稀疏化,當(dāng)模型不再收斂時得到輸入層每個節(jié)點對應(yīng)的連接權(quán)值的范數(shù),以此作為每個輸入特征的權(quán)重。使用ReLU函數(shù)在進(jìn)一步的訓(xùn)練中對部分低權(quán)值特征進(jìn)行截斷,進(jìn)而實現(xiàn)網(wǎng)絡(luò)訓(xùn)練過程中的自動特征選擇。結(jié)合此方法,提出了基于DenseNet短連接與SENet通道連接思想的神經(jīng)網(wǎng)絡(luò)儲層預(yù)測模型。使用勝利油田埕北某工區(qū)的地震屬性數(shù)據(jù)與巖性數(shù)據(jù)進(jìn)行模型的訓(xùn)練與驗證,驗證了深度學(xué)習(xí)模型相比傳統(tǒng)機(jī)器學(xué)習(xí)算法在該問題的優(yōu)越性與本文提出的特征選擇方法的有效性。