林魂,孫新毅,宋西翔,蒙春,熊雯欣,黃俊和,劉洪博,劉成
(1.重慶科技學(xué)院安全工程學(xué)院,重慶 401331;2.重慶地質(zhì)礦產(chǎn)研究院,重慶 401120)
頁巖氣儲層具有低孔、低滲的特點(diǎn),且儲層參數(shù)、壓裂參數(shù)與產(chǎn)量之間具有復(fù)雜的非線性關(guān)系[1?2]。目前大部分頁巖氣井產(chǎn)量的預(yù)測方法主要基于傳統(tǒng)的數(shù)學(xué)模型,不僅要耗費(fèi)大量的精力和時間去分析井的情況,而且受頁巖氣儲層不確定性和復(fù)雜性影響,預(yù)測效率和準(zhǔn)確率很難達(dá)到一個理想的效果[3?4]。
隨著人工智能技術(shù)的發(fā)展,在油氣領(lǐng)域引入機(jī)器學(xué)習(xí)方法已成為一種趨勢[5?6]。人工神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)技術(shù)方法的一種,已在非常規(guī)油氣生產(chǎn)中顯示出巨大潛力[7?8]。在人工神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練函數(shù)選取中,隨機(jī)梯度下降算法(SGD)為求解常用方法,其可以快速地收斂到一個可接受的解,但缺點(diǎn)在于收斂方向有一定的偏差,且穩(wěn)定性差、計(jì)算效率低[9?11];另一種常見的訓(xùn)練函數(shù)為批量梯度下降算法(BGD),該函數(shù)根據(jù)全部樣本構(gòu)建出代價(jià)函數(shù)的梯度,能沿著當(dāng)前最優(yōu)的下降方向收斂,但缺點(diǎn)在于計(jì)算代價(jià)較高、耗時長[12?14]。目前利用神經(jīng)網(wǎng)絡(luò)在油氣產(chǎn)量預(yù)測領(lǐng)域中,以測井參數(shù)、壓力參數(shù)等作為研究對象居多,而對壓裂參數(shù)與產(chǎn)量之間的關(guān)系研究較少[15?16]。
研究在分析頁巖氣儲層參數(shù)和壓裂參數(shù)特點(diǎn)的基礎(chǔ)上,提出基于物理意義和隨機(jī)組合的方法構(gòu)建特征參數(shù),并采用小批量梯度下降算法(MBGD),建立針對頁巖氣井產(chǎn)量預(yù)測的改進(jìn)人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型[17?19]。與傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型相比,建立的改進(jìn)模型在精確度和有效性方面都有較大提升,能為頁巖氣儲層壓裂優(yōu)化設(shè)計(jì)以及產(chǎn)能評價(jià)提供重要支持。
頁巖氣儲層參數(shù)、壓裂參數(shù)與產(chǎn)量之間具有復(fù)雜的非線性關(guān)系,常規(guī)的模擬方法難以建立各參數(shù)與產(chǎn)量之間的關(guān)系,而人工神經(jīng)網(wǎng)絡(luò)對于這種復(fù)雜的非線性映射問題具有很好的處理能力[20?22]。
網(wǎng)絡(luò)模型為多層結(jié)構(gòu)模型,由輸入層、隱藏層和輸出層構(gòu)成,各層之間通過神經(jīng)元激活函數(shù)進(jìn)行信號傳遞。網(wǎng)絡(luò)模型經(jīng)過多組數(shù)據(jù)樣本的學(xué)習(xí)訓(xùn)練,通過根據(jù)實(shí)際輸出值與期望輸出值之差,自適應(yīng)確定各神經(jīng)元的連接權(quán)重,最終達(dá)到對目標(biāo)參數(shù)的準(zhǔn)確預(yù)測。在進(jìn)行產(chǎn)量預(yù)測時,通過輸入單井各特征參數(shù),根據(jù)設(shè)定的網(wǎng)絡(luò)層數(shù)、隱藏層神經(jīng)元個數(shù)、學(xué)習(xí)率以及迭代次數(shù)等參數(shù),輸入樣本參數(shù)即可得到預(yù)測的產(chǎn)量值。
通過將頁巖氣儲層參數(shù)和壓裂參數(shù)作為網(wǎng)絡(luò)模型的輸入?yún)?shù),其中工程參數(shù)包括水平井段長、完井井段長、壓裂段數(shù)、總液量、砂量;地質(zhì)參數(shù)包括含氣量、孔隙度和滲透率等,這些參數(shù)在一定程度上可以反映頁巖氣儲層參數(shù)、壓裂參數(shù)與產(chǎn)量之間的相關(guān)信息,可以滿足網(wǎng)絡(luò)模型研究的需求。
首先將特征參數(shù)作為網(wǎng)絡(luò)模型的輸入層的神經(jīng)元:
式中:X為輸入數(shù)組;n為樣本數(shù)量;x為樣本參數(shù)數(shù)據(jù);j為輸入?yún)?shù)個數(shù)。
參數(shù)通過各層神經(jīng)元向后傳遞,上一層輸出神經(jīng)元的值為下一層輸入的神經(jīng)元的值,k層各神經(jīng)元輸出值為:
式中:Y為神經(jīng)元輸出值;k為第k層神經(jīng)元;ω為權(quán)重系數(shù);b為偏置系數(shù);h為對應(yīng)層神經(jīng)元個數(shù)。
激活函數(shù)f(x)為Sigmoig(S型函數(shù))函數(shù)如下:
通過以頁巖氣儲層參數(shù)和壓裂參數(shù)為輸入神經(jīng)元,前3 個月平均日產(chǎn)量為輸出神經(jīng)元,建立合適的人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測。
研究以國外某頁巖氣區(qū)塊生產(chǎn)井的各參數(shù)為數(shù)據(jù)集,包括水平井段長、完井井段長、壓裂段數(shù)、總液量、總砂量等工程參數(shù),含氣量、孔隙度、滲透率等地質(zhì)參數(shù)。
在數(shù)據(jù)清洗階段,通過可視化方式對各個參數(shù)進(jìn)行分析處理,包括數(shù)據(jù)的異常值處理、缺失值處理和標(biāo)準(zhǔn)化等操作。在異常值處理時,利用箱線圖對壓裂段數(shù)、總液量等參數(shù)進(jìn)行分析,對數(shù)量較少且明顯的異常值可直接刪除;在缺失值處理時,由于數(shù)據(jù)集充足,且缺失值樣本占整個樣本的比例相對較小,所以將存在缺失值的樣本直接丟棄。為使模型在學(xué)習(xí)訓(xùn)練時可以更好地收斂,采用Z?Score(標(biāo)準(zhǔn)分?jǐn)?shù))方法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,如下:
式中:zi為標(biāo)準(zhǔn)化后數(shù)據(jù);xi為原始數(shù)據(jù);u為樣本參數(shù)均值;N為樣本總數(shù)。
通過上述數(shù)據(jù)清洗過程,為后續(xù)構(gòu)建特征參數(shù)奠定基礎(chǔ)。
通過均方誤差(MSE)(式5)和修正決定系數(shù)(T)(式7)對網(wǎng)絡(luò)模型的預(yù)測泛化能力進(jìn)行評價(jià)。
均方誤差為輸出值與目標(biāo)值之間的平均平方誤差,其值越小,說明預(yù)測模型精確度越高。
式中:f(xi)為輸出值;yi為目標(biāo)值。
通常使用決定系數(shù)(R2)(式6)對網(wǎng)絡(luò)模型進(jìn)行評價(jià)。
式中:R2為決定系數(shù);Ya為真實(shí)值;Yp為預(yù)測值;Ym為真實(shí)值的平均值;為殘差平方和。
由于構(gòu)建了新的特征參數(shù),增加了樣本數(shù)量和特征數(shù)量,導(dǎo)致殘差平方和減少,決定系數(shù)(R2)增大,而網(wǎng)絡(luò)模型本身效果并非得到提升,導(dǎo)致模型評價(jià)具有欺騙性。為了消除模型評價(jià)的欺騙性,根據(jù)構(gòu)建特征參數(shù)的方法和特點(diǎn),采用修正決定系數(shù)(T)對網(wǎng)絡(luò)模型的泛化能力進(jìn)行評價(jià)。修正決定系數(shù)(T)衡量各個自變量對因變量變動的解釋程度,其取值越接近1,則變量的解釋程度就越高,即預(yù)測模型擬合越好、精確度越高。
式中:T為修正決定系數(shù);p為樣本特征數(shù)量。
網(wǎng)絡(luò)模型的訓(xùn)練樣本和訓(xùn)練函數(shù)對模型的最終預(yù)測精度有重要的影響。根據(jù)頁巖氣儲層參數(shù)和壓裂參數(shù)的特點(diǎn),從構(gòu)建特征參數(shù)和訓(xùn)練函數(shù)兩個方面對網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化改進(jìn)。
1.4.1 構(gòu)建特征參數(shù)
樣本數(shù)據(jù)代表性的強(qiáng)弱決定了網(wǎng)絡(luò)模型學(xué)習(xí)效果的好壞。通過對頁巖氣儲層參數(shù)和壓裂參數(shù)的特點(diǎn)進(jìn)行分析,采用兩種方式進(jìn)行構(gòu)建特征參數(shù):一種是基于壓裂參數(shù)的物理意義,將現(xiàn)有特征參數(shù)轉(zhuǎn)換成具有新物理意義的特征參數(shù),如通過總液量和完井井段長倍數(shù)之比得到新的特征參數(shù)每米液量,總砂量與總液量之比得到新的特征參數(shù)視砂比等;另一種是通過運(yùn)用現(xiàn)有特征參數(shù)進(jìn)行隨機(jī)組合方式得到新特征參數(shù),隨機(jī)組合得到的新特征參數(shù)不具有實(shí)際物理意義。通過對新構(gòu)建的特征參數(shù)進(jìn)行測試,選取可以提高網(wǎng)絡(luò)模型訓(xùn)練效果的特征參數(shù)作為訓(xùn)練樣本。
數(shù)據(jù)集中,原始特征參數(shù)包含水平井段長等8個工程和地質(zhì)參數(shù),如表1所示。
表1 原始特征參數(shù)Table 1 Original feature parameters
通過基于物理意義轉(zhuǎn)換和隨機(jī)組合后,構(gòu)建了每米液量等5個新的特征參數(shù),如表2所示。
表2 新構(gòu)建特征參數(shù)Table 2 Newly constructed feature parameters
通過修正決定系數(shù)(T)和均方誤差(MSE)對構(gòu)建特征參數(shù)前后模型的預(yù)測效果進(jìn)行分析,結(jié)果見表3。由表3 可知,構(gòu)建特征參數(shù)后的修正決定系數(shù)值為0.95,遠(yuǎn)高于構(gòu)建特征參數(shù)前的0.68。構(gòu)建特征參數(shù)后的均方誤差值為0.025,遠(yuǎn)低于構(gòu)建特征參數(shù)前的0.536。
以樣本外10口井作為驗(yàn)證集來檢驗(yàn)網(wǎng)絡(luò)模型預(yù)測效果(圖1)。由圖1 可知,相比構(gòu)建特征參數(shù)前,構(gòu)建特征參數(shù)后的預(yù)測產(chǎn)量與實(shí)際產(chǎn)量交會圖與45°線更貼近。
圖1 構(gòu)建特征參數(shù)前后預(yù)測產(chǎn)量與實(shí)際產(chǎn)量交會圖Fig.1 Crossplot of actual and predicted yield before and after constructing feature parameters
通過比較構(gòu)建特征參數(shù)前后的修正決定系數(shù)、均方誤差、擬合效果等方面可以得出,通過構(gòu)建特征參數(shù)后能明顯提高網(wǎng)絡(luò)模型的預(yù)測效果。
1.4.2 訓(xùn)練函數(shù)優(yōu)化
研究針對樣本數(shù)據(jù)集較多且代表性強(qiáng)的特點(diǎn),采用小批量梯度下降算法(MBGD)。該算法以損失較小部分精確度和增加一定數(shù)量的迭代次數(shù)為代價(jià),能夠有效提升網(wǎng)絡(luò)模型的總體優(yōu)化效率。
梯度下降的代價(jià)函數(shù)關(guān)于ω和b的偏導(dǎo)數(shù)公式如下:
式(8)—式(9)中:ω為權(quán)重系數(shù);b為偏置系數(shù);x為輸入值;y為真實(shí)值。
當(dāng)n為1 時,此計(jì)算代價(jià)函數(shù)梯度使用一個樣本數(shù)據(jù);當(dāng)n為樣本總量時,計(jì)算代價(jià)函數(shù)梯度使用全部樣本數(shù)據(jù);當(dāng)n為部分?jǐn)?shù)量時,計(jì)算代價(jià)函數(shù)梯度使用一小批量樣本數(shù)據(jù)。研究將小批量樣本數(shù)n設(shè)置為128。
圖2 給出了分別使用隨機(jī)梯度下降算法(SGD)(圖2a)和小批量梯度下降算法(MBGD)(圖2b)的代價(jià)函數(shù)趨勢。由圖2a可知,在訓(xùn)練集和測試集上,隨著迭代次數(shù)的增加,均方誤差值雖然整體呈下降趨勢,但代價(jià)函數(shù)曲線震蕩幅度較大,梯度下降穩(wěn)定性差、偏差大;由圖2b可知,在訓(xùn)練集和測試集上,隨著迭代次數(shù)的增加,代價(jià)函數(shù)曲線非常平滑地下降,即梯度下降穩(wěn)定性好、偏差小,并且可以較快速達(dá)到最優(yōu)值。通過結(jié)果比較可知,針對頁巖氣儲層各參數(shù)數(shù)據(jù)集特點(diǎn),采用的小批量梯度下降算法(MBGD)可以有效地提升網(wǎng)絡(luò)模型的總體穩(wěn)定性和預(yù)測精度。
隱藏層神經(jīng)元個數(shù)對網(wǎng)絡(luò)模型的擬合效果有重要影響。研究采取公式法(式10)和試算法結(jié)合的方式進(jìn)行選擇。圖3 為不同隱藏層神經(jīng)元個數(shù)的均方誤差(MSE)值折線。由圖3可知,當(dāng)隱藏層神經(jīng)元個數(shù)為25 時均方誤差(MSE)值最低,則選取隱藏層神經(jīng)元個數(shù)為25。
圖3 不同隱藏層神經(jīng)元個數(shù)的均方誤差(MSE)值折線Fig.3 Mean square error(MSE)curves of neurons in different hidden layers
式中:S為隱藏層神經(jīng)元個數(shù),m為輸入層神經(jīng)元個數(shù)。
通過構(gòu)建特征參數(shù)后,網(wǎng)絡(luò)模型的輸入神經(jīng)元由原始特征參數(shù)和新構(gòu)建的特征參數(shù)組成,分別包含水平井段長等8個原始特征參數(shù),以及每米液量等5 個新構(gòu)建特征參數(shù),共13 個參數(shù)。隱藏層神經(jīng)元個數(shù)選取為均方誤差(MSE)值最小時的神經(jīng)元個數(shù)25,最后輸出層為前3 個月平均日產(chǎn)量參數(shù),則建立的人工神經(jīng)網(wǎng)絡(luò)模型的最終結(jié)構(gòu)為13—25—1(圖4)。
圖4 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 Network model structure
研究以國外某頁巖氣區(qū)塊多口井的儲層參數(shù)、壓裂參數(shù)和產(chǎn)量作為數(shù)據(jù)集,共10 000組數(shù)據(jù),頁巖氣區(qū)塊孔隙度平均為1.5%,滲透率平均為0.002 8×10?3μm2,含氣量平均為3.1 m3/t。將整個數(shù)據(jù)集劃分為訓(xùn)練集、測試集和驗(yàn)證集。訓(xùn)練集數(shù)據(jù)用于訓(xùn)練確定網(wǎng)絡(luò)模型各層的訓(xùn)練權(quán)值,約占整個數(shù)據(jù)集的80%;測試集數(shù)據(jù)用于測試網(wǎng)絡(luò)模型在訓(xùn)練集以外的泛化性和可靠性,約占整個數(shù)據(jù)集的20%;驗(yàn)證集數(shù)據(jù)將作為樣本外數(shù)據(jù)對整體模型的準(zhǔn)確性進(jìn)行驗(yàn)證。另選取樣本外10 口井作為驗(yàn)證集,用于檢驗(yàn)預(yù)測值與真實(shí)值之間的匹配程度。
網(wǎng)絡(luò)預(yù)測模型采用典型的三層神經(jīng)網(wǎng)絡(luò)模型,將原始特征參數(shù)和新構(gòu)建特征參數(shù)共13個特征參數(shù)作為網(wǎng)絡(luò)模型的輸入層神經(jīng)元,隱藏層神經(jīng)元為25個,前3個月平均日產(chǎn)量作為輸出層神經(jīng)元。根據(jù)多次學(xué)習(xí)訓(xùn)練較好的結(jié)果為參考,將網(wǎng)絡(luò)模型最大迭代次數(shù)設(shè)定為1 000,將學(xué)習(xí)率設(shè)定為0.07,每次學(xué)習(xí)最小數(shù)據(jù)集設(shè)定為128。
通過利用驗(yàn)證集數(shù)據(jù),對比分析了改進(jìn)人工神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果。
表4 為驗(yàn)證集10 口井前3 個月實(shí)際平均日產(chǎn)量值與改進(jìn)的網(wǎng)絡(luò)模型方法預(yù)測產(chǎn)量值和傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)方法預(yù)測產(chǎn)量值的對比。由表4 可知,首先,通過比較每口井的實(shí)際產(chǎn)量值和預(yù)測產(chǎn)量值,結(jié)果顯示,相比傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)模型方法預(yù)測產(chǎn)量值,改進(jìn)的網(wǎng)絡(luò)模型方法預(yù)測產(chǎn)量值更加接近實(shí)際產(chǎn)量值;其次,通過比較分析表中相對誤差值可知,傳統(tǒng)BP網(wǎng)絡(luò)模型方法的預(yù)測值最大偏差程度為35.57%,最小為15.59 %,而改進(jìn)網(wǎng)絡(luò)模型方法預(yù)測值的最大、最小偏差程度分別為9.00%、1.12%,均遠(yuǎn)低于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測值的偏差程度。這表明,相比于傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)模型,改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果最大、最小相對誤差值的振幅有較大的降低,建立的改進(jìn)網(wǎng)絡(luò)模型方法在預(yù)測精度及穩(wěn)定性方面明顯得到提升。
表4 日實(shí)際產(chǎn)量與改進(jìn)的網(wǎng)絡(luò)模型方法和傳統(tǒng)BP方法預(yù)測結(jié)果對比Table 4 Comparison of daily actual yield with prediction results of proposed method and traditional BP method
圖5 為實(shí)際產(chǎn)量值與改進(jìn)的網(wǎng)絡(luò)模型方法預(yù)測產(chǎn)量值和傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)方法預(yù)測產(chǎn)量值的折線。由圖5可知,改進(jìn)后的網(wǎng)絡(luò)模型預(yù)測的產(chǎn)量值與實(shí)際產(chǎn)量值折線更加貼合,其預(yù)測精確度遠(yuǎn)高于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測產(chǎn)量值。
圖5 實(shí)際產(chǎn)量值與改進(jìn)的網(wǎng)絡(luò)模型方法預(yù)測產(chǎn)量值和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)方法預(yù)測產(chǎn)量值的折線Fig.5 The line chart of actual yield value and the improved network model method to predict the yield value and traditional BP neural network method
表5給出了改進(jìn)的網(wǎng)絡(luò)模型和傳統(tǒng)BP網(wǎng)絡(luò)模型的均方誤差(MSE)和修正決定系數(shù)(T)對比結(jié)果。由表5 可知,改進(jìn)的網(wǎng)絡(luò)模型方法均方誤差值為0.006,遠(yuǎn)低于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)模型均方誤差值0.132;修正決定系數(shù)值為0.95,遠(yuǎn)遠(yuǎn)高于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)模型的修正決定系數(shù)值0.73。
表5 2種模型結(jié)果評價(jià)Table 5 Evaluation of two models
綜上所述,通過驗(yàn)證結(jié)果顯示,改進(jìn)的網(wǎng)絡(luò)模型方法在分析頁巖氣儲層參數(shù)、壓裂參數(shù)與產(chǎn)量關(guān)系時,其預(yù)測產(chǎn)量值與實(shí)際產(chǎn)量值吻合度較高,并且在相對誤差、均方誤差(MSE)和修正決定系數(shù)(T)結(jié)果對比后發(fā)現(xiàn),其準(zhǔn)確率和穩(wěn)定性均高于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)模型。
1)研究設(shè)計(jì)了基于物理意義和隨機(jī)組合兩種構(gòu)建特征參數(shù)的方法,使訓(xùn)練樣本特征參數(shù)數(shù)據(jù)代表性更強(qiáng),且更加擬合網(wǎng)絡(luò)模型,可以進(jìn)一步提高網(wǎng)絡(luò)模型的學(xué)習(xí)效果。通過對比構(gòu)建特征參數(shù)前后的修正決定系數(shù)、均方誤差以及擬合效果,可得構(gòu)建特征參數(shù)后的預(yù)測產(chǎn)量值與實(shí)際產(chǎn)量值更貼近。
2)針對頁巖氣儲層參數(shù)和壓裂參數(shù)的數(shù)據(jù)集特點(diǎn),采用了小批量梯度下降法(MBGD)作為訓(xùn)練函數(shù),可以有效提升網(wǎng)絡(luò)預(yù)測模型的穩(wěn)定性和總體優(yōu)化效率。
3)建立的改進(jìn)人工神經(jīng)網(wǎng)絡(luò)模型能較好地?cái)M合頁巖氣儲層參數(shù)、壓裂參數(shù)與產(chǎn)量之間復(fù)雜的非線性關(guān)系。且相比傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)模型,改進(jìn)人工神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度和穩(wěn)定性都具有明顯優(yōu)勢。