劉珊珊,汪志明
中國石油大學(xué)(北京)石油工程學(xué)院,北京 102249
地層砂粒度分布PSD(Particle Size Distribution)在儲(chǔ)層描述、沉積學(xué),特別是在智能完井防砂技術(shù)中有重要應(yīng)用[1]。其中粒度中值d50即篩析曲線上累重百分?jǐn)?shù)50%對(duì)應(yīng)的粒徑,是油氣開采地層評(píng)價(jià)和儲(chǔ)層粒度分布特征參數(shù)之一,可為防砂方法的選擇提供理論依據(jù)。粒度測(cè)量最常用的兩種技術(shù)是篩析法和激光法,兩種方法均需要通過巖心粒度測(cè)試來獲取數(shù)據(jù),鉆井過程中儲(chǔ)層取心費(fèi)用昂貴,取心間隔有限,因此開發(fā)井取心數(shù)據(jù)較少,在制定開發(fā)井的完井防砂措施時(shí)往往沒有實(shí)際開采層位的巖心,一般參照探井粒度數(shù)據(jù)進(jìn)行設(shè)計(jì),這種情況忽略了儲(chǔ)層非均質(zhì)性的影響。在某些情況下,設(shè)計(jì)是基于非常少的篩分?jǐn)?shù)據(jù),儲(chǔ)層的縱橫向各向異性和非均質(zhì)性給防砂方案設(shè)計(jì)帶來了困難和較大的風(fēng)險(xiǎn)。由于砂體內(nèi)粒度的變化,在一口井中選擇的d50不一定適用于同一油田的另一口井。而且對(duì)于分段分級(jí)防砂完井選擇篩管或礫石粒徑而言,獲得整個(gè)儲(chǔ)層連續(xù)粒度剖面具有重要意義。
近年來機(jī)器學(xué)習(xí)方法在科學(xué)和工程領(lǐng)域廣泛應(yīng)用,很多研究者也嘗試使用數(shù)據(jù)驅(qū)動(dòng)方法來解決地質(zhì)問題[2-3],例如利用支持向量機(jī)(SVM)、模糊邏輯模型(FLM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)等方法來處理估算地球物理參數(shù)。儲(chǔ)層的粒度特征是在漫長(zhǎng)的歷史過程中形成的,與沉積物的形成環(huán)境有很好的相關(guān)性。其中地層壓實(shí)程度、孔隙度、以及黏土的含量等均在某一程度上可反應(yīng)地層顆粒大小,可根據(jù)能夠反映地層這些特性的測(cè)井曲線建立其與顆粒大小的映射關(guān)系。由于測(cè)井資料反映儲(chǔ)層信息,不同的測(cè)井曲線實(shí)質(zhì)上是同一儲(chǔ)層在不同物理量下的反映,測(cè)井資料與儲(chǔ)層顆粒特征之間存在映射關(guān)系。有學(xué)者建立了儲(chǔ)層粒度分布預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)模型[4-7]。Oyeneyin和Faga[8]首先介紹了利用神經(jīng)網(wǎng)絡(luò)對(duì)粒度分布進(jìn)行建模的概念,建模所需的數(shù)據(jù)是測(cè)井(電纜或隨鉆測(cè)井)和粒度數(shù)據(jù)。采用多層反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)實(shí)現(xiàn),最優(yōu)拓?fù)浣Y(jié)構(gòu)為三層BPNN,三個(gè)神經(jīng)元的隱藏層由sigmoid傳遞函數(shù)激活。Oluyemi[9]綜合了統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)兩種方法來預(yù)測(cè)定向井粒度分布(水平和垂直粒度分布)。粒度預(yù)測(cè)中主要使用的測(cè)井?dāng)?shù)據(jù)是伽瑪曲線,因?yàn)橘が斍€通常反映粒度-泥質(zhì)含量的關(guān)系。其他測(cè)井曲線,如密度、中子、聲波和電阻率等,可根據(jù)儲(chǔ)層中流體的類型進(jìn)行選擇。在氣藏中,僅結(jié)合伽瑪曲線和密度曲線通常是最佳的。使用神經(jīng)網(wǎng)絡(luò)對(duì)粒度分布進(jìn)行建模,將有助于更好地估計(jì)整個(gè)儲(chǔ)層段的粒度分布。Faga[10]研究了成巖作用對(duì)神經(jīng)網(wǎng)絡(luò)粒度預(yù)測(cè)的影響,砂巖中粘土礦物的成巖作用影響其原生物性,包括對(duì)顆粒大小和形狀、礦物成分、孔隙度、滲透率和沉積結(jié)構(gòu)的影響。儲(chǔ)層砂巖中自生粘土的分布廣泛,成巖礦物的小規(guī)模變化會(huì)導(dǎo)致孔隙度和滲透率的大幅度波動(dòng)[11],這種變化在測(cè)井曲線上有所體現(xiàn)。Siron和Segall[12]對(duì)南卡羅來納州沿海平原研究中指出,高嶺石占主導(dǎo)地位的粘土含量較高對(duì)應(yīng)高電阻率信號(hào)和低伽瑪射線值;某些巖相內(nèi)的高含量粘土降低了有效孔隙度和滲透率,對(duì)應(yīng)較高電阻率。他們強(qiáng)調(diào)了將沉積學(xué)技術(shù)與測(cè)井?dāng)?shù)據(jù)結(jié)合起來,對(duì)地下巖性單元進(jìn)行綜合評(píng)價(jià)具有重要意義。
雖然有研究者嘗試使用神經(jīng)網(wǎng)絡(luò)解決粒度預(yù)測(cè)問題,但是大多關(guān)注在全連接ANN的應(yīng)用上,未有嘗試其他機(jī)器學(xué)習(xí)模型。傳統(tǒng)的ANN 中,描述的是一種點(diǎn)對(duì)點(diǎn)的映射關(guān)系,以單點(diǎn)測(cè)井?dāng)?shù)據(jù)作為特征值來預(yù)測(cè)d50,也就是說 ANN 中生成的預(yù)測(cè)結(jié)果在空間上是完全相互獨(dú)立的。換言之,通過ANN 預(yù)測(cè)某一深度處儲(chǔ)層粒度數(shù)值,僅與輸入變量(作為輸入的測(cè)井曲線)中相同深度處的不同物理量的測(cè)量值相關(guān)。因此ANN忽略了測(cè)井曲線隨深度變化的趨勢(shì)性信息以及數(shù)據(jù)的前后文(空間)關(guān)聯(lián)中所蘊(yùn)含的信息。本文提出了基于模糊數(shù)學(xué)綜合評(píng)判優(yōu)選機(jī)器學(xué)習(xí)模型方法,通過對(duì)比分析多種機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果,優(yōu)選出隸屬度最高的方法用于新井預(yù)測(cè)儲(chǔ)層粒度剖面,為防砂設(shè)計(jì)提供數(shù)據(jù)支撐。本文提出的方法為相關(guān)研究提供新思路,可用于根據(jù)鉆井時(shí)獲得的測(cè)井?dāng)?shù)據(jù)對(duì)地層粒度分布進(jìn)行實(shí)時(shí)預(yù)測(cè)[13]。
數(shù)據(jù)預(yù)處理對(duì)于機(jī)器學(xué)習(xí)獲得準(zhǔn)確的預(yù)測(cè)模型具有重要意義。測(cè)井?dāng)?shù)據(jù)作為模型的輸入,由于各技術(shù)服務(wù)公司采用不同的數(shù)據(jù)編碼格式采集軟件,測(cè)井?dāng)?shù)據(jù)具有不同的數(shù)據(jù)格式,本文將所有LAS數(shù)據(jù)文件都轉(zhuǎn)換為CSV文件的數(shù)據(jù)集。對(duì)測(cè)井?dāng)?shù)據(jù)進(jìn)行平滑濾波處理、缺失值處理,剔除異常數(shù)據(jù)和空數(shù)據(jù)。根據(jù)井徑測(cè)井消除井眼不規(guī)則性和沖洗段可能產(chǎn)生錯(cuò)誤讀數(shù)。實(shí)驗(yàn)采用位于南海北部灣海域某油田WZ11-4區(qū)塊一口井伽瑪射線(GR)與密度測(cè)井(Den)及實(shí)測(cè)d50數(shù)據(jù)作為訓(xùn)練集[14-15],實(shí)驗(yàn)用水平井的測(cè)井段總長(zhǎng)為44.7米,對(duì)應(yīng)測(cè)深為962.6 m到1007.3 m。該構(gòu)造位于南海北部北部灣盆地潿西南凹陷2號(hào)斷裂帶上升盤中部。整體埋深較淺,埋深1000 m 左右,儲(chǔ)層位于新近系角尾組二段地層,油藏類型為構(gòu)造油藏。以該井作為訓(xùn)練樣本,建立預(yù)測(cè)模型實(shí)現(xiàn)臨近區(qū)塊相同層位另一口井的粒度剖面預(yù)測(cè)。圖1顯示用于訓(xùn)練的測(cè)井曲線,表1列出了數(shù)據(jù)集不同統(tǒng)計(jì)特征,如計(jì)數(shù)、平均值、標(biāo)準(zhǔn)差、最小值、中值和最大值。體積密度在2.04和2.44 g/cm3之間,GR在40.39和70.42 API度之間。還需可視化兩個(gè)輸入變量或一個(gè)輸入變量與目標(biāo)變量之間的關(guān)系,繪制了成對(duì)散點(diǎn)圖(如圖2)和單變量直方圖(如圖3)。圖2顯示了特征變量和預(yù)測(cè)值之間的關(guān)系,從圖上可知沒有異常值對(duì)模型預(yù)測(cè)產(chǎn)生影響,圖3直方圖及核密度估計(jì)分布曲線表明數(shù)據(jù)的分布規(guī)律接近正態(tài)分布。圖4相關(guān)性矩陣表明用于訓(xùn)練模型的測(cè)井曲線與實(shí)驗(yàn)室測(cè)量的d50值之間的相對(duì)重要性。d50與GR和Den相對(duì)重要性分別為-0.45和0.0048。從相關(guān)性矩陣可以看出密度測(cè)井曲線與粒度中值具有正相關(guān)性。伽瑪測(cè)井曲線與粒度中值有負(fù)相關(guān)性,伽瑪測(cè)井反應(yīng)泥質(zhì)含量,伽瑪值較高的層位泥質(zhì)含量較高,對(duì)應(yīng)儲(chǔ)層粒度值較低。
表1 現(xiàn)場(chǎng)數(shù)據(jù)統(tǒng)計(jì)分析Table 1 Statistical analysis of field data
圖2 特征變量和預(yù)測(cè)值之間成對(duì)散點(diǎn)圖Fig. 2 Paired scatter plot between characteristic variable and predicted value
圖3 特征單變量的直方圖Fig. 3 Histogram of characteristic single variable
圖4 特征Pearson相關(guān)矩陣Fig. 4 Characteristic Pearson correlation matrix
在每個(gè)輸入特征值的相同范圍內(nèi)縮放數(shù)據(jù),可以最大限度地減少特征之間的偏差,加快模型的訓(xùn)練時(shí)間。在將圖1特征參數(shù)引入模型訓(xùn)練之前,需對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,同時(shí),測(cè)試數(shù)據(jù)集采用訓(xùn)練集的均值和方差進(jìn)行標(biāo)準(zhǔn)化。對(duì)于某一特征數(shù)據(jù),可以采用公式(1)、(2)進(jìn)行歸一化。
圖1 電纜測(cè)井曲線Fig. 1 Wireline logging curve
式中,μj是歸一化參數(shù),xj是實(shí)際參數(shù),Sj是實(shí)際參數(shù)的標(biāo)準(zhǔn)偏差。
除了相關(guān)性分析外,本文還提出了多點(diǎn)映射的觀點(diǎn)來構(gòu)建特征工程,其原理是基于地層的縱向連續(xù)性,考慮測(cè)井?dāng)?shù)據(jù)與粒度隨測(cè)深的變化而變化的特性。測(cè)井采樣間隔通常很小(0.1m),測(cè)井儀器獲得的不同深度地層的測(cè)井?dāng)?shù)據(jù)在縱向深度上相互影響。因此,在測(cè)井曲線中,每個(gè)數(shù)據(jù)點(diǎn)周圍相互有影響的范圍所包含的數(shù)據(jù)點(diǎn)有多個(gè),這意味著d50的預(yù)測(cè)可以看作是一個(gè)具有空間相關(guān)性的序列數(shù)據(jù)分析問題。為了更好地利用測(cè)井曲線的縱向連續(xù)性,選取深度上相鄰多點(diǎn)特征作為訓(xùn)練特征,生成粒度剖面的過程綜合考慮了測(cè)井曲線間的內(nèi)在聯(lián)系和不同測(cè)井曲線隨深度的變化趨勢(shì),更加符合地質(zhì)學(xué)思想。特征選擇的原理如圖5所示。訓(xùn)練樣本由特征參數(shù)和標(biāo)簽組成,根據(jù)相關(guān)系數(shù)矩陣,將GR和Den分別記錄為特征,d50作為訓(xùn)練標(biāo)簽。定義符號(hào)語言描述,輸入變量表示為
圖5 基于多采樣點(diǎn)的構(gòu)造特征Fig. 5 Construction features based on multi sampling points
輸出變量表示為:
式中,Ry為輸出空間,y[N]為輸出變量,是輸出空間的一個(gè)子向量,由d50樣本組成,N與輸入變量的樣
本數(shù)量對(duì)應(yīng);列向量yT代表d50;示第n個(gè)樣本所對(duì)應(yīng)的d50。
因而,訓(xùn)練集可表示為:
式中Ds為訓(xùn)練集的樣本集合,該式表示一個(gè)擁有N個(gè)樣本的訓(xùn)練集。
(6)式的意義為通過將單目標(biāo)訓(xùn)練集Ds輸入到機(jī)器學(xué)習(xí)算法中所訓(xùn)練得的模型H,可描述特征空間和輸出空間之間的關(guān)系,當(dāng)有特征的新測(cè)井?dāng)?shù)據(jù)輸入到模型H中時(shí),便可得到該儲(chǔ)層d50。
N個(gè)樣本按行存儲(chǔ)為N×(m+1)矩陣,m為特征點(diǎn)數(shù)。使用單點(diǎn)特征建模時(shí),某個(gè)深度點(diǎn)的訓(xùn)練樣本是單點(diǎn)特征和標(biāo)簽,如圖6所示。奇數(shù)的采樣點(diǎn)有中心點(diǎn),選取不同奇數(shù)采樣點(diǎn)數(shù)據(jù)特征建模。如圖7所示,當(dāng)選取3個(gè)點(diǎn)時(shí)一個(gè)樣本的構(gòu)造特征包含3個(gè)相鄰點(diǎn)的6個(gè)特征,即3×2個(gè)特征,標(biāo)簽為該深度的d50。xqP中P代表點(diǎn),q代表單點(diǎn)的特征,選取5個(gè)點(diǎn)時(shí)原理同3點(diǎn)。可以看出多點(diǎn)參數(shù)的組合增加了與d50相關(guān)的信息量。
圖6 單個(gè)采樣點(diǎn)預(yù)測(cè)原理Fig. 6 Prediction principle of single sampling point
圖7 三個(gè)采樣點(diǎn)預(yù)測(cè)原理Fig. 7 prediction principle of three sampling points
模型配置一般指超參數(shù),如隨機(jī)森林算法中的n值、支持向量機(jī)中的不同核函數(shù)等,在大多數(shù)情況下,超參數(shù)的選擇是無限的。通過繪制訓(xùn)練集和測(cè)試集的學(xué)習(xí)曲線,可以尋找模型的最優(yōu)參數(shù),以測(cè)試集上的泛化誤差作為模型的最優(yōu)參數(shù),原理見圖8。實(shí)驗(yàn)采用WZ11-4井為數(shù)據(jù)集,70%的數(shù)據(jù)用于訓(xùn)練,30%用于測(cè)試,數(shù)據(jù)集鄰域采樣點(diǎn)分別取1,3,5,實(shí)驗(yàn)環(huán)境:CPU 配置為intel(R)Core(TM) i7-8565U @1.80 GHz 1.99 GHz,RAM為8 G,基于Python第三方模塊SKlearn實(shí)現(xiàn)隨機(jī)森林 Random Forest,人工神經(jīng)網(wǎng)絡(luò)ANN,XGBoost,支持向量機(jī)SVR四種回歸模型訓(xùn)練,最優(yōu)超參數(shù)解如表2所示。RF-1代表單個(gè)采樣點(diǎn),RF-3代表三個(gè)采樣點(diǎn),以此類推。在每個(gè)機(jī)器學(xué)習(xí)模型通過訓(xùn)練數(shù)據(jù)后,用最優(yōu)超參數(shù)生成相應(yīng)的擬合模型,粒度實(shí)際值與各模型預(yù)測(cè)值剖面圖和交會(huì)圖如圖9所示,展示了WZ11-4 井的學(xué)習(xí)效果,預(yù)測(cè)值與實(shí)測(cè)值兩者交匯點(diǎn)較為集中,證明兩者具有較高的相關(guān)性。
圖9 WZ11-4井不同方法測(cè)量與預(yù)測(cè)的粒度剖面(左)和交叉圖(右)的對(duì)比Fig. 9 Comparison of grain size profile (left) and cross plot (right) measured and predicted by different methods in WZ11-4 well
表2 模型超參數(shù)最優(yōu)解Table 2 optimal solution of model super parameter
圖8 泛化誤差與模型復(fù)雜度的關(guān)系Fig. 8 Relationship between generalization error and model complexity
表3列出了每個(gè)模型在訓(xùn)練和測(cè)試期間的性能比較,通過模型訓(xùn)練和測(cè)試階段的評(píng)價(jià)指標(biāo)R2(決定系數(shù))、均方誤差(MSE)、平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)對(duì)各模型進(jìn)行評(píng)估。根據(jù)模型誤差的分析,所有訓(xùn)練集與測(cè)試集差異較小,這表明訓(xùn)練過程是可靠的(即沒有過度擬合)。考慮到數(shù)據(jù)采集本身帶有測(cè)量誤差,因此可認(rèn)為訓(xùn)練集誤差相對(duì)較高的原因在于樣品集合較大。這樣的預(yù)測(cè)結(jié)果也能夠證明該方法在訓(xùn)練集外仍能夠取得可靠的結(jié)果。ANN 模型的預(yù)測(cè)效果最好,XGBoost模型次之,其次是RF和SVR。使用ANN建立的5點(diǎn)預(yù)測(cè)模型在預(yù)測(cè)方面優(yōu)于其他模型。訓(xùn)練集和測(cè)試集的R2分別為0.891和0.819。各模型多點(diǎn)預(yù)測(cè)結(jié)果均高于單個(gè)采樣點(diǎn),用單個(gè)采樣點(diǎn)作為輸入對(duì)于噪聲較為敏感。使用多個(gè)臨近的采樣點(diǎn)作為輸入,降低了噪聲對(duì)模型的影響,使模型具有更強(qiáng)的魯棒性。由于數(shù)據(jù)間存在局部相關(guān)的特點(diǎn),在鄰域采樣點(diǎn)數(shù)為5時(shí),訓(xùn)練誤差和測(cè)試誤差均為最小,可以更準(zhǔn)確預(yù)測(cè)儲(chǔ)層粒度剖面。圖10顯示了使用五個(gè)點(diǎn)的ANN模型,給出了訓(xùn)練集中實(shí)際數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)之間的最高R2和最低RMSE。由于模型有更多的信息在參數(shù)和目標(biāo)之間建立更可靠的關(guān)系,因此使用更多的變量比存在于一個(gè)點(diǎn)的變量更好地預(yù)測(cè)了d50剖面。分析結(jié)果表明充分利用測(cè)井?dāng)?shù)據(jù)序列向前、向后兩個(gè)方向的上下文關(guān)系可以取得更好的預(yù)測(cè)效果,證明了該方法在儲(chǔ)層粒度預(yù)測(cè)方面的有效性。
圖10 模型預(yù)測(cè)結(jié)果對(duì)比直方圖Fig.10 Comparison histogram of model prediction results
表3 模型預(yù)測(cè)結(jié)果對(duì)比Table 3 Comparison of model prediction results
對(duì)機(jī)器學(xué)習(xí)模型來說,當(dāng)往模型中輸入一條地質(zhì)與工程特征實(shí)例時(shí),最終輸出的粒度數(shù)據(jù)往往由與該實(shí)例相接近的訓(xùn)練集特征所決定,可以看出訓(xùn)練集樣本的特征點(diǎn)的密集程度對(duì)最終的預(yù)測(cè)準(zhǔn)確率會(huì)有一定的影響。理論上,若在輸入空間中某一片區(qū)域聚集了大量的特征點(diǎn),則該區(qū)域會(huì)被更好的覆蓋,從而模型能更好的描述該范圍內(nèi)輸入與輸出空間的映射關(guān)系。
本文所選的特征組成了一個(gè)二維輸入空間,以神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)為例,利用高斯核密度估計(jì)[16]算法(Gaussian kernel density estimation)對(duì)訓(xùn)練集二維輸入空間中樣本的特征點(diǎn)高斯核密度分布進(jìn)行計(jì)算,并對(duì)測(cè)試集樣本點(diǎn)處的訓(xùn)練集特征點(diǎn)密度進(jìn)行估算。將計(jì)算結(jié)果與RMSE投影至“Den-GR”空間中并繪制成二維散點(diǎn)圖,如圖11所示,其中的“藍(lán)-紅”散點(diǎn)為43 個(gè)測(cè)試集特征點(diǎn)及d50均方根誤差的分布,“藍(lán)-黃”圓圈為當(dāng)前點(diǎn)的高斯核密度,黑色散點(diǎn)是訓(xùn)練集樣本的分布??梢姡诟呙芏葏^(qū)域中的測(cè)試集樣本點(diǎn)的 RMSE普遍較低。
圖11 “密度-均方根誤差”關(guān)系二維熱力散點(diǎn)圖Fig. 11 Two dimensional thermal scatter diagram of “density root mean square error” relationship
由于實(shí)驗(yàn)條件限制,本文只采用一口井作為訓(xùn)練數(shù)據(jù),當(dāng)數(shù)據(jù)集增大時(shí),其輸入空間的特征具有一定范圍。此時(shí),搜集一定量的樣本使輸入空間特征點(diǎn)達(dá)到一定的密集程度,便可以在預(yù)測(cè)該范圍內(nèi)d50時(shí)達(dá)到較好的準(zhǔn)確率。此外,還可以結(jié)合聚類算法,將輸入空間中地質(zhì)與工程特征相接近的高密度區(qū)域劃分至同一區(qū)塊,而后用不同區(qū)域的數(shù)據(jù)訓(xùn)練多個(gè)粒度預(yù)測(cè)模型。當(dāng)預(yù)測(cè)新井時(shí),先使用分類算法將其劃分為某一類的儲(chǔ)層,并用所對(duì)應(yīng)的預(yù)測(cè)模型開展預(yù)測(cè),進(jìn)一步提升預(yù)測(cè)的準(zhǔn)確率。
機(jī)器學(xué)習(xí)模型的選擇在一定程度上會(huì)影響數(shù)據(jù)分析效果,為確定統(tǒng)一比較標(biāo)準(zhǔn),更好的選擇模型,采用層次分析法確定影響模型選擇各因素的權(quán)重,然后利用模糊綜合評(píng)判法[17]選擇最優(yōu)機(jī)器學(xué)習(xí)模型用于預(yù)測(cè)應(yīng)用。
假設(shè)備選方案中有m個(gè)機(jī)器學(xué)習(xí)模型,每個(gè)模型有n個(gè)評(píng)價(jià)指標(biāo),由此建立特征向量矩陣(式7)。
其中:aij是屬于第i個(gè)決策方案的第j個(gè)索引的值。
追求模型預(yù)測(cè)準(zhǔn)確是機(jī)器學(xué)習(xí)的核心目標(biāo),能夠同時(shí)處理大量數(shù)據(jù),可以在超短時(shí)間內(nèi)極速學(xué)習(xí),是機(jī)器學(xué)習(xí)的重要優(yōu)勢(shì)。根據(jù)上文分析,選取訓(xùn)練集,測(cè)試集R2、RMSE、Traintime為評(píng)價(jià)因素。獲得這些評(píng)價(jià)指標(biāo)的數(shù)據(jù)(表4),根據(jù)各方案具體指標(biāo)求得特征向量矩陣Y。
表4 評(píng)價(jià)指標(biāo)Table 4 Evaluation index
采用梯形分布與半梯形分布函數(shù)確定隸屬度函數(shù),進(jìn)行歸一化處理,R2越大、RMSE與Traintime越小模型效果越好,根據(jù)(8)和(9)式建立隸屬度矩陣R[17]。
偏小型(越小越好),見圖12a。
偏大型(越大越好),見圖12b。
圖12 隸屬度函數(shù)計(jì)算依據(jù)Fig. 12 Calculation basis of membership function
式中,a為評(píng)價(jià)指標(biāo)最小值,b為評(píng)價(jià)指標(biāo)最大值,x為評(píng)價(jià)指標(biāo)。
對(duì)各指標(biāo)打分,建立判斷矩陣(表5),從而計(jì)算出指標(biāo)的權(quán)重值(表6)。
表5 判斷矩陣Table 5 Judgment matrix
表6 指標(biāo)權(quán)重Table 6 Index weight
采用加權(quán)平均算法,根據(jù)指標(biāo)隸屬度矩陣和各指標(biāo)總權(quán)重,計(jì)算出四種預(yù)測(cè)模型的隸屬度數(shù)值,如表7所示,根據(jù)最大隸屬度法選擇了預(yù)測(cè)效果最好的模型為ANN-5。
表7 不同模型隸屬度Table 7 Membership degrees of different models
為了進(jìn)一步驗(yàn)證該模型泛化能力,使用鄰近區(qū)塊相同層位另一口井WZ11-1E現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行粒度特征值d50的縱向剖面連續(xù)預(yù)測(cè),該數(shù)據(jù)集沒有參加模型訓(xùn)練。圖13顯示了該井的電纜測(cè)井?dāng)?shù)據(jù),其中包括伽瑪射線和體積密度測(cè)井以及應(yīng)用優(yōu)選出訓(xùn)練后的ANN-5模型預(yù)測(cè)結(jié)果。從巖芯測(cè)得的實(shí)際中值粒度也被標(biāo)繪出來,該井包含13個(gè)實(shí)驗(yàn)室測(cè)量d50值。將實(shí)際巖心粒度與預(yù)測(cè)值進(jìn)行比較,預(yù)測(cè)結(jié)果很好地捕捉了粒度變化趨勢(shì),模擬了其峰值。
圖13 WZ11-1E井測(cè)井曲線與d50預(yù)測(cè)結(jié)果Fig. 13 Logging curve and D50 prediction results of wz11-1E well
(1)本文提出了考慮儲(chǔ)層縱向連續(xù)性的地層砂粒度中值機(jī)器學(xué)習(xí)預(yù)測(cè)方法,該方法充分利用測(cè)井曲線隨深度變化的趨勢(shì)信息和以往數(shù)據(jù)空間關(guān)聯(lián)所包含的信息,從儲(chǔ)層沉積連續(xù)性角度兼顧了粒度預(yù)測(cè)問題研究中的空間尺度效應(yīng)。通過選取合適的鄰近采樣點(diǎn),確定測(cè)井?dāng)?shù)據(jù)的輸入樣本,有效利用地層的層位信息,符合地質(zhì)沉積的有序性,具有比傳統(tǒng)模型更高的準(zhǔn)確性。機(jī)器學(xué)習(xí)是建立非線性關(guān)系智能模型的有效手段,目前,機(jī)器學(xué)習(xí)與工程實(shí)踐的結(jié)合過于直接,主要是單向應(yīng)用,較少涉及具體領(lǐng)域的知識(shí)。已有研究表明,將領(lǐng)域知識(shí)轉(zhuǎn)化為模型的約束或先驗(yàn)信息加以利用可以突破提高模型效果的瓶頸,進(jìn)一步提高模型的預(yù)測(cè)精度。
(2)采 用4種 機(jī) 器 學(xué) 習(xí) 方 法(ANN、RF、SVR、XGBoost)建立了數(shù)據(jù)驅(qū)動(dòng)的d50預(yù)測(cè)模型并進(jìn)行了對(duì)比試驗(yàn),根據(jù)測(cè)井曲線趨勢(shì)和背景信息,提取縱向連續(xù)點(diǎn)作為機(jī)器學(xué)習(xí)特征參數(shù),并討論了特征點(diǎn)密度對(duì)模型精度的影響。研究結(jié)果表明,無論采用哪種機(jī)器學(xué)習(xí)方法,多個(gè)采樣點(diǎn)預(yù)測(cè)的精度都高于單點(diǎn)預(yù)測(cè)。基于5個(gè)采樣點(diǎn)的ANN模型在訓(xùn)練集和測(cè)試集中具有最高的R2和最低的RMSE。提出了模糊數(shù)學(xué)綜合評(píng)判優(yōu)選機(jī)器學(xué)習(xí)模型方法,考慮到計(jì)算時(shí)間和精度,實(shí)際應(yīng)用中,根據(jù)優(yōu)選出的ANN-5模型對(duì)臨近區(qū)塊儲(chǔ)層粒度剖面進(jìn)行預(yù)測(cè),取得了良好效果。