曹茂俊,崔欣鋒
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
如今,隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,石油的消費(fèi)不斷增加。為了滿足社會(huì)發(fā)展需要,需要進(jìn)一步勘探開發(fā)油氣資源,而地層智能劃分可以為油氣資源的持續(xù)開發(fā)節(jié)省人力和物力。
測(cè)井曲線包含了隨井深變化的儲(chǔ)層性質(zhì),其直接反映了地下的地質(zhì)特征。因此,測(cè)井曲線的地層劃分對(duì)于確定地層位置具有重要意義[1]。長(zhǎng)期以來(lái),地層劃分的人工解釋方法以測(cè)井解釋人員的主觀判斷為主。人工解釋方法需要人工觀察測(cè)井曲線圖形形狀的變化以尋找對(duì)應(yīng)地層的半幅點(diǎn)位置,這些方法比較依賴專業(yè)領(lǐng)域知識(shí)和專家經(jīng)驗(yàn)[2],而且由于不同專家的經(jīng)驗(yàn)和熟練程度不同,也會(huì)導(dǎo)致地層劃分結(jié)果的巨大差異,不僅需要大量的人力和物力,而且分層誤差也相對(duì)較高。隨著計(jì)算機(jī)技術(shù)的發(fā)展和劃分任務(wù)的日益繁重,地層劃分逐漸由定性識(shí)別轉(zhuǎn)向定量識(shí)別[3],數(shù)理統(tǒng)計(jì)、活度函數(shù)、小波變換、模糊識(shí)別、人工神經(jīng)網(wǎng)絡(luò)等方法[4]已經(jīng)被應(yīng)用到利用測(cè)井曲線進(jìn)行地層劃分的任務(wù)中。然而,這些方法大都只考慮個(gè)別曲線進(jìn)行劃分,而且大都只考慮點(diǎn)與點(diǎn)之間的關(guān)系,而忽略了測(cè)井曲線隨深度變化上下連續(xù)的特點(diǎn),即局部特征,而深度學(xué)習(xí)方法為該問(wèn)題提供了非常具有前景的解決方案。地層劃分問(wèn)題是根據(jù)測(cè)井曲線的形態(tài)識(shí)別出不同深度所屬的地層,因此可轉(zhuǎn)化為多元序列的分類問(wèn)題[5]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像識(shí)別領(lǐng)域已經(jīng)是相對(duì)成熟的技術(shù)了,由于其強(qiáng)大的圖像分類能力也被應(yīng)用于測(cè)井曲線地層的劃分[6],但考慮到測(cè)井曲線一般為具有一定規(guī)律但不規(guī)則的形態(tài),對(duì)于地層劃分來(lái)說(shuō),輸出數(shù)據(jù)為某一個(gè)分層類別,無(wú)法實(shí)現(xiàn)測(cè)井曲線的地層劃分。測(cè)井曲線序列是一種二維的多元序列,不能直接采用傳統(tǒng)的CNN進(jìn)行地層劃分,一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)在處理序列數(shù)據(jù)方面效果比較突出[7]。因此,該文選擇1DCNN作為地層劃分的基礎(chǔ)模型,通過(guò)對(duì)測(cè)井曲線進(jìn)行IMK特征工程處理,即對(duì)原始測(cè)井曲線分別采用INPEFA技術(shù)[8]、中值濾波處理以及K-Means聚類[9]處理,更好地提取了原始曲線的特征,為1DCNN網(wǎng)絡(luò)提供了更加容易識(shí)別的特征,從而增加了模型的地層劃分效率。該文結(jié)合已有的網(wǎng)絡(luò)模型及測(cè)井曲線的特點(diǎn),搭建了基于IMK-1DCNN的地層劃分網(wǎng)絡(luò)模型,從而達(dá)到對(duì)地層劃分的智能化方法研究的目的。
如圖1所示,基于IMK-1DCNN的測(cè)井曲線地層識(shí)別模型流程大體分為4個(gè)部分:
圖1 IMK-1DCNN地層識(shí)別流程
(1)特征構(gòu)造。利用INPEFA技術(shù)、中值濾波、K-means算法分別構(gòu)造INPEFA曲線特征、中值濾波特征、聚類特征,簡(jiǎn)稱IMK特征構(gòu)造,與原有的測(cè)井曲線共同構(gòu)成新的特征集合。
(2)數(shù)據(jù)集劃分。將新的特征集合劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
(3)模型訓(xùn)練。搭建一維卷積神經(jīng)網(wǎng)絡(luò)模型,使用訓(xùn)練集訓(xùn)練IMK-1DCNN模型,使用驗(yàn)證集進(jìn)行誤差計(jì)算和權(quán)值更新。
(4)模型驗(yàn)證。最終在測(cè)試集上驗(yàn)證IMK-1DCNN的分層效率。
圖2展示了IMK特征構(gòu)造的流程,為了處理測(cè)井曲線在采集過(guò)程中產(chǎn)生的噪聲,以及更好地提取原始測(cè)井曲線的地層特征,在模型訓(xùn)練之前利用特征程對(duì)原始曲線進(jìn)行了處理,采用IMK特征構(gòu)造方法構(gòu)造了新的特征,與原始測(cè)井曲線特征共同構(gòu)成了新的特征矩陣。
圖2 IMK特征構(gòu)造流程
上述特征構(gòu)造過(guò)程中的INPEFA技術(shù)是在最大熵頻譜分析法(Maximum Entropy Spectral Analysis,MESA)基礎(chǔ)上形成的預(yù)測(cè)誤差濾波分析(Prediction Error Filter Analysis,PEFA)通過(guò)進(jìn)一步發(fā)展形成合成預(yù)測(cè)誤差濾波分析(Integrated Prediction Error Filter Analysis,INPEFA)技術(shù)[10]。其原理是通過(guò)最大熵頻譜變換,可以由已知點(diǎn)的值在熵最大的原則下推算出下一個(gè)點(diǎn)的數(shù)值,這個(gè)值稱為最大熵頻譜分析估計(jì)值(MESA)。預(yù)測(cè)誤差濾波分析(PEFA)是通過(guò)計(jì)算每一個(gè)深度點(diǎn)的MESA預(yù)測(cè)值和對(duì)應(yīng)的測(cè)井曲線實(shí)際值而得到數(shù)據(jù)差值,如下式所示:
PEFA=RV-MESA
(1)
其中,RV代表實(shí)際值,MESA代表最大熵譜分析估計(jì)值,得到的較大正值或負(fù)值為不連續(xù)點(diǎn),可能為地層不連續(xù)點(diǎn)或旋回界面。對(duì)PEFA曲線做一個(gè)特定積分處理,就得到了合成預(yù)測(cè)誤差濾波分析曲線(INPEFA),其本質(zhì)是反映泥巖含量的多少且基于測(cè)井曲線分析,因此它能夠顯示通常在原始測(cè)井曲線中顯示不出來(lái)的趨勢(shì)和模式以及反映沉積的旋回性變化,通常被用來(lái)輔助測(cè)井解釋人員識(shí)別隱藏的地層界面[11]。該文運(yùn)用INPEFA技術(shù)利用數(shù)據(jù)集中的GR曲線構(gòu)造INPEFA曲線,并將其作為模型的特征之一來(lái)構(gòu)造樣本集。
經(jīng)過(guò)IMK特征構(gòu)造之后得到了新的特征集合,數(shù)據(jù)集的合理劃分能夠很好地加速神經(jīng)網(wǎng)絡(luò)的集成,這里將其按照8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集用來(lái)訓(xùn)練模型,驗(yàn)證集用來(lái)調(diào)整并尋找最佳參數(shù),最后在測(cè)試集上進(jìn)行測(cè)試以驗(yàn)證模型的泛化性能及準(zhǔn)確率。
在準(zhǔn)備好數(shù)據(jù)集后,需要搭建模型進(jìn)行訓(xùn)練,該文選用了善于處理序列數(shù)據(jù)的一維卷積神經(jīng)網(wǎng)絡(luò)作為模型的基礎(chǔ)架構(gòu),處理數(shù)據(jù)集使之滿足模型的輸入并進(jìn)行訓(xùn)練,訓(xùn)練時(shí)需要設(shè)置網(wǎng)絡(luò)的批大小、訓(xùn)練輪次、早停策略、Dropout比例等參數(shù)以加速網(wǎng)絡(luò)的訓(xùn)練。在訓(xùn)練完成之后,要在測(cè)試集上進(jìn)行測(cè)試來(lái)驗(yàn)證模型的識(shí)別效果,并通過(guò)繪圖來(lái)對(duì)比模型的識(shí)別結(jié)果與地質(zhì)專家的標(biāo)記結(jié)果。
(2)
式中,hi表示輸入序列中(i)th個(gè)感受野的輸出[13]??梢岳?DCNN對(duì)測(cè)井曲線序列切片做一維卷積運(yùn)算,提取該深度區(qū)間的層位特征信息,從而實(shí)現(xiàn)劃分地層類型的目的。
設(shè)計(jì)的1DCNN網(wǎng)絡(luò)架構(gòu)如圖 3所示。網(wǎng)絡(luò)中各層的含義解釋如下。
(1)輸入層:將輸入的與地層密切相關(guān)的測(cè)井曲線通過(guò)IMK特征構(gòu)造新的特征矩陣,從而輸入到網(wǎng)絡(luò)中進(jìn)行特征提取并學(xué)習(xí)。
(2)卷積層:卷積層使用的是適合處理序列數(shù)據(jù)的一維卷積(Conv1d),一維卷積常被用以在一維輸入信號(hào)上進(jìn)行鄰域?yàn)V波。為了減少過(guò)擬合現(xiàn)象,還在每個(gè)卷積層后面引入了BN(Batch Normalization)層[14],它可以加快網(wǎng)絡(luò)的訓(xùn)練和收斂的速度,控制梯度爆炸且防止梯度消失。
(3)池化層:池化層的本質(zhì)是一個(gè)下采樣,因?yàn)閿?shù)據(jù)經(jīng)過(guò)卷積之后維度越來(lái)越高,而且特征圖沒(méi)有多大改變,在連續(xù)多個(gè)卷積之后,會(huì)產(chǎn)生很大的參數(shù)量,不僅會(huì)大大地增加網(wǎng)絡(luò)訓(xùn)練的難度,還容易造成過(guò)擬合的現(xiàn)象,所以在卷積層之后放一個(gè)池化層對(duì)數(shù)據(jù)進(jìn)行壓縮,降低維度,減少參數(shù)量。該文使用了兩種池化層,一種是最大池化層(Max Pooling),可以減少卷積層參數(shù)誤差造成估計(jì)均值的偏移,另一種是全局平均池化層(Global Average Pooling),可以減小特征提取時(shí)鄰域大小受限導(dǎo)致估計(jì)值方差增大造成的誤差[15]。
(4)Dropout層:為了減少參數(shù)量,加快模型的訓(xùn)練速度,緩解過(guò)擬合現(xiàn)象,該文引入了Dropout層,通過(guò)隨機(jī)選擇其中的一些神經(jīng)元并將其臨時(shí)隱藏,然后再進(jìn)行本次訓(xùn)練和優(yōu)化。在下一次迭代中,繼續(xù)隨機(jī)隱藏一些神經(jīng)元,如此直至訓(xùn)練結(jié)束。由于是隨機(jī)丟棄,故而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。設(shè)置Dropout層的隱藏比例為0.3(隨機(jī)將30%的神經(jīng)元臨時(shí)隱藏)。
(5)Dense層:即全連接層,在模型中起到“分類器”的作用,它會(huì)將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間。通過(guò)將經(jīng)過(guò)網(wǎng)絡(luò)訓(xùn)練的輸出向量輸入到包含8個(gè)神經(jīng)元的Dense層,輸出最終的地層分類。
由于不同測(cè)井曲線的量綱不同,為了消除量綱的影響,需要對(duì)數(shù)據(jù)進(jìn)行歸一化。如果對(duì)未歸一化的數(shù)據(jù)直接進(jìn)行建模,可能會(huì)導(dǎo)致模型對(duì)數(shù)值大的變量學(xué)習(xí)過(guò)多,而對(duì)數(shù)值小的變量訓(xùn)練不夠充分,往往模型效果不佳。常用的數(shù)據(jù)歸一化的方法有最大最小值歸一化、小數(shù)定標(biāo)法、定量特征二值化及均值方差標(biāo)準(zhǔn)化等。
選用的歸一化方法是最小值-最大值(Min-Max)方法,顧名思義,該方法是利用數(shù)據(jù)列中的最大值和最小值進(jìn)行歸一化處理,處理完之后可將數(shù)據(jù)范圍縮放到[0,1]范圍內(nèi)。計(jì)算方式為數(shù)據(jù)列中的數(shù)據(jù)與該列的最小值作差,再除以其極差。設(shè)一條測(cè)井曲線為X=(x1,x2,…,xn),則歸一化后的數(shù)據(jù)x'可由式(3)計(jì)算得出:
(3)
其中,x'代表數(shù)據(jù)值x歸一化的結(jié)果,max(X)和min(X)分別代表測(cè)井曲線數(shù)據(jù)列中的最大值和最小值。
深度學(xué)習(xí)需要大量樣本進(jìn)行訓(xùn)練,而單純地將測(cè)井曲線構(gòu)造成獨(dú)立的測(cè)井圖像不能滿足深度學(xué)習(xí)網(wǎng)絡(luò)需求。在傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)中,往往會(huì)采用數(shù)據(jù)增強(qiáng)的方式來(lái)擴(kuò)充數(shù)據(jù)集,使得網(wǎng)絡(luò)能夠?qū)W習(xí)到足夠的特征,比如旋轉(zhuǎn)、平移、縮放、隨機(jī)遮擋、水平翻轉(zhuǎn)和噪聲擾動(dòng)等[16]。但是由于測(cè)井曲線具有時(shí)序性,其垂向的形態(tài)變化往往代表著某種沉積環(huán)境,從而導(dǎo)致對(duì)測(cè)井曲線矩陣?yán)脗鹘y(tǒng)的數(shù)據(jù)增強(qiáng)方法會(huì)破壞其本身所代表的地層和沉積環(huán)境的含義。
為了增加樣本量,該文提出一種使用滑動(dòng)窗口對(duì)測(cè)井曲線進(jìn)行采樣的方法。設(shè)滑動(dòng)窗口的長(zhǎng)度為L(zhǎng),步長(zhǎng)為S,數(shù)據(jù)生成的方式如圖4所示,將特征矩陣劃分為多個(gè)長(zhǎng)度為L(zhǎng),寬度為特征數(shù)量的切片,每個(gè)切片對(duì)應(yīng)的地層標(biāo)簽yi由每個(gè)切片中的出現(xiàn)次數(shù)最多的標(biāo)簽決定,同時(shí)為了避免切片中的地層標(biāo)簽差異過(guò)大,步長(zhǎng)S不宜設(shè)置過(guò)大,然后利用樣條插值[17]對(duì)每個(gè)切片進(jìn)行處理以保證生成的輸入矩陣長(zhǎng)度大于特征數(shù)目。這里使用樣條插值是為了在擴(kuò)充切片長(zhǎng)度的同時(shí)保證訓(xùn)練曲線的平滑,最大程度地保留原始曲線的地層趨勢(shì)。
圖4 利用滑動(dòng)窗口生成測(cè)井曲線切片示意圖
實(shí)驗(yàn)使用的數(shù)據(jù)來(lái)自四川盆地川中地區(qū),共包含20口井的測(cè)井?dāng)?shù)據(jù)(數(shù)據(jù)分布見(jiàn)圖5)。四川盆地位于四川省龍門山斷裂處以東,四面環(huán)山,是中新生代以來(lái)發(fā)展起來(lái)的大型沉積盆地。該文研究的主要地層為茅口組和棲霞組,其中茅口組頂部與上二疊統(tǒng)龍?zhí)督M呈平行不整合接觸,上覆于棲霞組之上。茅口組厚度為119 m~208 m,平均厚237 m,巖性特征為灰色—深灰色亮晶生物碎屑灰?guī)r、泥晶生物碎屑灰?guī)r,泥質(zhì)灰?guī)r夾硅質(zhì)結(jié)核[18]。棲霞組厚度為23 m~313 m,平均125 m,巖性特征為:下部為深灰色、灰黑色泥質(zhì)瀝青質(zhì)灰?guī)r,底部常見(jiàn)眼球狀微晶灰?guī)r夾炭質(zhì)瀝青質(zhì)頁(yè)巖;上部為淺灰色、灰褐色微—亮晶生屑灰?guī)r。
所用的樣本集共20口井,共92 284條數(shù)據(jù)。將其中18口井作為訓(xùn)練集,剩余2口井作為測(cè)試集,驗(yàn)證模型對(duì)地層的識(shí)別性能。在構(gòu)造樣本集之前要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。在實(shí)際測(cè)井中由于測(cè)井?dāng)?shù)據(jù)受多因素影響,可能導(dǎo)致數(shù)值缺失或出現(xiàn)異常值。因此,對(duì)于原始數(shù)據(jù),首先要進(jìn)行缺失值和異常值的處理,該文選擇了用眾數(shù)填充空值及異常值,實(shí)驗(yàn)證明該方法簡(jiǎn)單有效。
結(jié)合地質(zhì)領(lǐng)域知識(shí),以及1.1節(jié)的IMK特征構(gòu)造方法,構(gòu)造新的特征。最終選取自然伽馬(GR)、自然電位(SP)、聲波時(shí)差(AC)和INPEFA曲線、中值濾波曲線及K-Means聚類曲線共6種測(cè)井曲線作為訓(xùn)練特征。其中,GR曲線主要測(cè)量地層的放射性,SP曲線主要測(cè)量在地層電化學(xué)作用下產(chǎn)生的電位,AC曲線反映了地層聲波速度,常被用來(lái)進(jìn)行地層劃分。另外,在構(gòu)造中值濾波曲線特征時(shí)為了更好地提取測(cè)井曲線的邊緣信息,使用了20以內(nèi)的奇數(shù)濾波窗口構(gòu)造了9條新的中值濾波曲線特征。另外以地質(zhì)專家人工標(biāo)注地層作為標(biāo)簽,確定了8種地層,分別是石炭系、龍?zhí)督M、梁山組、茅三段、茅二段、茅一段、棲二段、棲一段。
圖6展示了某單井的樣本數(shù)據(jù)測(cè)井解釋圖,測(cè)井?dāng)?shù)據(jù)的采樣間隔為0.125 m,包含部分測(cè)井曲線和地層標(biāo)簽。為了避免不同量綱的影響,利用2.1節(jié)中的最大-最小值方法對(duì)數(shù)據(jù)進(jìn)行了歸一化,將所有測(cè)井曲線的數(shù)值范圍縮放到[0,1]內(nèi)。
圖6 well52井的測(cè)井曲線及其測(cè)井解釋
數(shù)據(jù)預(yù)處理完成后,將歸一化后的數(shù)據(jù)排列到一起形成測(cè)井曲線矩陣,然后利用2.4節(jié)提到的滑動(dòng)窗口采樣方法將其轉(zhuǎn)化為測(cè)井曲線切片,通過(guò)對(duì)長(zhǎng)度L及步長(zhǎng)S取3~50內(nèi)的奇數(shù)進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)L為5,S=5時(shí)識(shí)別效果最佳,故設(shè)置長(zhǎng)度L為5,即每個(gè)曲線切片的實(shí)際長(zhǎng)度為0.625 m,步長(zhǎng)S為5。利用該方法最終得到16 635個(gè)長(zhǎng)度為5,寬為14的二維灰度測(cè)井曲線矩陣切片,經(jīng)統(tǒng)計(jì),樣本地地層平均厚度為160個(gè)厚度點(diǎn),因此對(duì)每個(gè)切片進(jìn)行樣條插值時(shí),選擇160作為目標(biāo)樣本長(zhǎng)度,最終將其維度變?yōu)?60×14以保證生成的輸入矩陣長(zhǎng)度大于特征數(shù)目,其中有14 971張屬于訓(xùn)練井,1 664張屬于測(cè)試井,最終處理完成的部分訓(xùn)練樣本如表1所示。其中INPEFA、GR_Med_3、GR_Kmeans分別表示INPEFA曲線、濾波窗口為3的中值濾波曲線以及K-Means聚類曲線,Label代表將原來(lái)的8種地層標(biāo)簽映射為0~7的數(shù)值。
表1 well52井處理后的訓(xùn)練樣本數(shù)據(jù)
經(jīng)過(guò)數(shù)據(jù)集的構(gòu)造,最終由20口井得到了83 018個(gè)實(shí)際測(cè)井曲線切片及其對(duì)應(yīng)的地層標(biāo)簽,每個(gè)切片大小為160×14的二維矩陣,然后將數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集和測(cè)試集,得到74 716個(gè)訓(xùn)練樣本和8 301個(gè)測(cè)試樣本。然后對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證,并尋找最優(yōu)參數(shù)。
對(duì)測(cè)井曲線進(jìn)行地層劃分的1DCNN網(wǎng)絡(luò)模型環(huán)境配置為Window10操作系統(tǒng),使用Python3.6作為編程語(yǔ)言,深度學(xué)習(xí)框架為Tensorflow,GPU使用GTX1650,顯存大小為4 GB。
詳細(xì)的網(wǎng)絡(luò)配置和參數(shù)設(shè)置如表2所示。
表2 網(wǎng)絡(luò)配置和參數(shù)設(shè)置
實(shí)驗(yàn)設(shè)置批次大小(Batch Size)為512,訓(xùn)練輪次(Epoch)為100并運(yùn)用早停減少模型訓(xùn)練時(shí)間,優(yōu)化器使用AdamOptimizer,學(xué)習(xí)率設(shè)為0.001。
引入多個(gè)評(píng)價(jià)指標(biāo),利用這些指標(biāo)對(duì)預(yù)測(cè)結(jié)果做全方位評(píng)價(jià),綜合反映模型分類效果。包括每一類的混淆矩陣(如表3所示)、整體的準(zhǔn)確率(A)、精確率(P)、召回率(R)和F1值。
表3 混淆矩陣
(1)混淆矩陣。
(2)準(zhǔn)確率。
準(zhǔn)確率反映了對(duì)于給定樣本,模型預(yù)測(cè)正確的樣本數(shù)占總樣本的比例:
(4)
(3)精確率。
精確率反映了模型預(yù)測(cè)為正例的結(jié)果中真正例所占的比重:
(5)
(4)召回率。
召回率又稱查全率,反映了模型預(yù)測(cè)中樣本的正例有多少被正確預(yù)測(cè)正確:
(6)
(5)F1值。
F1值為精確率和召回率的調(diào)和平均值,由于精確率(P)和召回率(R)是一對(duì)相互矛盾的量,所以為了更好地評(píng)價(jià)分類器的性能,一般使用F1-Score作為評(píng)價(jià)標(biāo)準(zhǔn)來(lái)衡量分類器的綜合性能:
(7)
公式(4)~公式(7)中:Tp、FN、TN和FP分別為真正例、假負(fù)例、真負(fù)例和假正例樣本的數(shù)量,多分類問(wèn)題可以轉(zhuǎn)換為二分類,對(duì)于正例對(duì)應(yīng)的某一類別,其余的類別均為負(fù)例。
圖7是文中模型訓(xùn)練過(guò)程中對(duì)應(yīng)的訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率上升曲線和損失值下降曲線。在準(zhǔn)確率方面,訓(xùn)練集最高為0.98,驗(yàn)證集最高為0.92;損失值方面,訓(xùn)練集最低為0.17,驗(yàn)證集最低為0.28。表4顯示了某測(cè)試井的分類結(jié)果對(duì)應(yīng)的混淆矩陣,可以直觀地看出模型在不同地層上的分類效果,其中最高的精確率為茅三段,達(dá)到了1,表示全部識(shí)別正確,最低的精確率為梁山組,為0.57。表5顯示了各類評(píng)價(jià)指標(biāo)。由結(jié)果可以看出,文中方法對(duì)茅口組地層的識(shí)別效果較佳,可能與其灰?guī)r巖性有關(guān),在曲線數(shù)值上表現(xiàn)為GR數(shù)值較低、SP數(shù)值適中,比較易于識(shí)別。對(duì)于其它地層,各類評(píng)價(jià)指標(biāo)略低,可能是由于曲線形態(tài)具有相似性,但總體的識(shí)別準(zhǔn)確率都在0.85以上??傊?模型在驗(yàn)證集上的整體預(yù)測(cè)能力表現(xiàn)較為優(yōu)異,對(duì)于所有測(cè)試井的樣本而言,整體平均準(zhǔn)確率達(dá)到了92.82%。
表4 混淆矩陣
表5 各類評(píng)價(jià)指標(biāo)
圖7 訓(xùn)練過(guò)程中模型準(zhǔn)確率-損失值曲線
同時(shí),為了驗(yàn)證文中方法的優(yōu)越性,將其與雙向長(zhǎng)短期記憶方法[19]和隨機(jī)森林方法[20]進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。結(jié)果表明,文中方法的分類準(zhǔn)確率為92.82%,高于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型的88.23%和隨機(jī)森林方法的84.43%。
表6 各類地層識(shí)別方法結(jié)果對(duì)比
為了驗(yàn)證模型在未經(jīng)過(guò)模型訓(xùn)練的盲井上的地層識(shí)別及劃分結(jié)果,選取某單井?dāng)?shù)據(jù)進(jìn)行處理并輸入模型驗(yàn)證,該盲井的測(cè)試樣本構(gòu)造過(guò)程同訓(xùn)練集相同,在經(jīng)過(guò)IMK特征構(gòu)造、滑動(dòng)窗口采樣(長(zhǎng)度L=5,步長(zhǎng)S=5)及樣條插值后得到1 920個(gè)160×14的測(cè)試樣本作為模型輸入。模型的輸出為1 920×1的一維向量,其中向量中的每個(gè)值代表對(duì)應(yīng)測(cè)試樣本的預(yù)測(cè)值。圖8給出了模型對(duì)某測(cè)試井的地層劃分可視化結(jié)果。前4列為訓(xùn)練特征,其中包含GR自然伽馬曲線,INPEFA曲線、AC(聲波時(shí)差)曲線、SP(自然電位)曲線。后兩列的柱狀圖分別代表人工標(biāo)定的地層標(biāo)簽以及文中模型對(duì)該井的地層劃分結(jié)果。對(duì)比發(fā)現(xiàn),文中方法的地層劃分結(jié)果,與地質(zhì)專家人工標(biāo)定的結(jié)果比較相似,具有良好的泛化性能,能夠很好地識(shí)別地層進(jìn)而劃分出不同的地層。
圖 8 某單井的測(cè)井解釋及模型地層識(shí)別結(jié)果
提出的基于IMK-1DCNN的地層智能識(shí)別方法,構(gòu)建了3種特征,即INPEFA曲線特征、中值濾波特征和K-Means聚類特征。INPEFA曲線能很好地反映不同地層之間的變化趨勢(shì);中值濾波特征在保留有效邊緣信息的同時(shí)很好地去除了測(cè)井曲線中的高頻噪聲;K-Means聚類特征則能很好地反映測(cè)井曲線的時(shí)空相關(guān)性,區(qū)分不同地層之間的邊界。將文中方法與雙向長(zhǎng)短期記憶方法和隨機(jī)森林方法進(jìn)行對(duì)比,文中方法的分類準(zhǔn)確率為92.82%,高于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型的88.23%和隨機(jī)森林方法的84.43%。文中方法可以實(shí)現(xiàn)測(cè)井曲線的端到端學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,文中方法有助于提取測(cè)井曲線序列的隱藏特征,準(zhǔn)確地劃分不同地層。該方法能有效識(shí)別地層,具有較強(qiáng)的泛化能力和魯棒性,為測(cè)井曲線地層劃分提供了一種新的途徑。