曹 沖 程林松 張向陽 賈 品 時(shí)俊杰
(中國石油大學(xué)(北京)石油工程學(xué)院,北京 102249)
地下流體在多孔介質(zhì)中的流動往往涉及多尺度、多變量、多物理場的耦合.現(xiàn)有的產(chǎn)量預(yù)測方法包括經(jīng)驗(yàn)曲線法[1-3]、(半)解析方法[4-6]及數(shù)值模擬法[7-11].因?yàn)槟P偷募僭O(shè)條件及方程的局限性,無法真實(shí)準(zhǔn)確地刻畫實(shí)際油藏生產(chǎn)過程,從而造成了產(chǎn)量預(yù)測結(jié)果不確定性.盡管低滲,特低滲及非常規(guī)油氣資源的開發(fā)已成為當(dāng)前研究熱點(diǎn)問題,人們對地下復(fù)雜的油氣滲流機(jī)理的認(rèn)識仍不完善[12-15],這也限制了這些傳統(tǒng)方法的適用性.此外,綜合考慮多種力學(xué)問題的耦合滲流問題存在機(jī)理表征困難,模型求解難度大,計(jì)算不收斂等問題.因此,實(shí)際油田中的多變量,多尺度和非線性數(shù)據(jù)給傳統(tǒng)產(chǎn)量預(yù)測模型帶來了巨大的挑戰(zhàn)[16-18].
近年來,人工智能技術(shù),大數(shù)據(jù)分析方法由于其強(qiáng)大的學(xué)習(xí)及預(yù)測能力在工業(yè)界得到了廣泛應(yīng)用.同時(shí),油田中存在的地質(zhì)?油藏?流體?工藝數(shù)據(jù)給數(shù)據(jù)建模技術(shù)應(yīng)用在石油行業(yè)提供了可能性.吳新根等[19]應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)預(yù)測羅馬什金油田年產(chǎn)量,與Weng 旋回模型預(yù)測結(jié)果相比,人工神經(jīng)網(wǎng)絡(luò)是一種可行的石油產(chǎn)量外推預(yù)測方法.李留仁等[20]采用3 層BP 神經(jīng)網(wǎng)絡(luò)預(yù)測了12 個(gè)月的月產(chǎn)油量,預(yù)測月產(chǎn)油量誤差在10%以內(nèi).邢明海等[21]以多層前饋神經(jīng)網(wǎng)絡(luò)和函數(shù)連接神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),研究了5 種不同的組合方式下的油田總產(chǎn)量.Chithra 等[22]利用高階神經(jīng)網(wǎng)絡(luò)模型預(yù)測10 個(gè)月的累積產(chǎn)量,誤差在5%以內(nèi).高階神經(jīng)網(wǎng)絡(luò)包含傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的線性相關(guān)項(xiàng)(突觸操作)及神經(jīng)輸入與突觸權(quán)重的高階相關(guān)項(xiàng)(n階相關(guān)項(xiàng)).馬林茂等[23]利用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)連接權(quán)值和閾值,并將該算法用于預(yù)測大慶油田BED 試驗(yàn)區(qū)高含水階段的油田產(chǎn)量預(yù)測.李彥尊等[24]基于靜態(tài)地質(zhì),油藏及工程參數(shù),利用人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測頁巖油氣的投產(chǎn)5年內(nèi)的產(chǎn)量.神經(jīng)網(wǎng)絡(luò)強(qiáng)大的預(yù)測能力往往依賴于大量樣本數(shù)據(jù)庫,對于小樣本數(shù)據(jù)(數(shù)據(jù)量小于1000)的訓(xùn)練,容易出現(xiàn)明顯的過擬合現(xiàn)象.而實(shí)際油田開發(fā)過程中由于區(qū)塊限制,記錄不全,操作不當(dāng)?shù)纫蛩仉y以獲取較為準(zhǔn)確的大量樣本數(shù)據(jù).近年來,眾多學(xué)者探索了機(jī)器學(xué)習(xí)算法在產(chǎn)量預(yù)測中的應(yīng)用,并取得了一定的效果.Bhattacharya 等[25]和Wang 等[26]等綜合多類型油藏?cái)?shù)據(jù),建立機(jī)器學(xué)習(xí)模型,預(yù)測頁巖氣單井日產(chǎn)量.宋宣毅等[27]利用隨機(jī)森林方法確定了影響產(chǎn)能的主控因素.Xue 等[28]以頁巖氣藏的多段壓裂水平井為例,綜合影響頁巖氣產(chǎn)量的9 個(gè)主控參數(shù)及生產(chǎn)動態(tài)中的最大產(chǎn)氣量數(shù)據(jù),對比多目標(biāo)隨機(jī)森林回歸和多輸出回歸鏈算法對日產(chǎn)氣量進(jìn)行預(yù)測.
針對地下流體在多孔介質(zhì)中的滲流機(jī)理復(fù)雜,滲流模型求解難度大,產(chǎn)量預(yù)測結(jié)果不確定性強(qiáng)等問題,本文以特低滲透油藏開發(fā)過程中搜集到的小樣本數(shù)據(jù)為例(樣本量 <1000),探究一種適用于預(yù)測產(chǎn)量的數(shù)據(jù)代理模型,它可以省去復(fù)雜物理建模過程,簡化模型求解問題,兼顧計(jì)算效率與預(yù)測精度.此外,給出了數(shù)據(jù)代理模型預(yù)測產(chǎn)量的詳細(xì)流程,并對比分析三種代理模型在產(chǎn)量預(yù)測中應(yīng)用效果.最后,針對小樣本多變量產(chǎn)量預(yù)測問題,給出能有效提高模型預(yù)測效果的針對性建議,為滲流代理模型在石油行業(yè)的應(yīng)用提供了理論指導(dǎo).
滲流代理模型能否準(zhǔn)確預(yù)測油氣產(chǎn)量往往取決于可靠的油田數(shù)據(jù).而真實(shí)的油田數(shù)據(jù)資料往往存在數(shù)據(jù)跳躍,數(shù)據(jù)缺失等問題.因此,數(shù)據(jù)預(yù)處理,作為建立代理模型的第一步,能將原始油田數(shù)據(jù)進(jìn)行加工、降噪、歸一化等一系列處理形成產(chǎn)量預(yù)測數(shù)據(jù)庫.為了保證計(jì)算精度的前提下盡可能節(jié)省代理模型的計(jì)算時(shí)間,模型的超參數(shù)優(yōu)化在數(shù)據(jù)建模中也至關(guān)重要.最后,經(jīng)過訓(xùn)練后的最優(yōu)代理模型能用于油氣產(chǎn)量預(yù)測.本文將數(shù)據(jù)建模技術(shù)預(yù)測油氣產(chǎn)量的一般流程劃分為數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,代理模型建立與優(yōu)化三個(gè)部分,如圖1 所示.
圖1 數(shù)據(jù)建模技術(shù)預(yù)測油氣產(chǎn)量的一般流程Fig.1 A general flow of data modeling techniques for predicting oil and gas production
為了獲得準(zhǔn)確可靠的產(chǎn)量預(yù)測結(jié)果,應(yīng)盡可能廣泛地收集影響油氣產(chǎn)量的油田數(shù)據(jù).本文結(jié)合地質(zhì)背景,在充分理解油藏開發(fā)規(guī)律和生產(chǎn)工藝的基礎(chǔ)上,將影響產(chǎn)量預(yù)測的實(shí)際油田數(shù)據(jù)歸為以下八類(如圖2 所示).針對產(chǎn)量預(yù)測這類回歸問題,類別數(shù)據(jù)需通過獨(dú)熱編碼技術(shù),圖像數(shù)據(jù)通過卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化后便于代理提取和學(xué)習(xí).
圖2 油田數(shù)據(jù)庫的建立Fig.2 Establishment of oilfield database
為了使機(jī)器學(xué)習(xí)算法具有更好的預(yù)測能力,需要有足夠數(shù)量和質(zhì)量的訓(xùn)練數(shù)據(jù).實(shí)際油田數(shù)據(jù)存在著記錄不完整、數(shù)據(jù)噪聲大等問題.這些實(shí)際數(shù)據(jù)在輸入機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練之前需要進(jìn)行預(yù)處理.本文將數(shù)據(jù)預(yù)處理的過程分為四個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)標(biāo)準(zhǔn)化、相關(guān)性分析和數(shù)據(jù)集劈分.數(shù)據(jù)清理是數(shù)據(jù)預(yù)處理的第一步,其中包括刪除或填充丟失的記錄和異常值,對分類數(shù)據(jù)進(jìn)行編碼和對數(shù)據(jù)集進(jìn)行平滑處理等.此外,對輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化是獲得可靠的訓(xùn)練模型所必不可少的步驟,它可以消除不同維度的變量之間的差異.在訓(xùn)練滲流代理模型之前,通過均值和方差對數(shù)據(jù)進(jìn)行歸一化.特征工程是構(gòu)建滲流代理模型的基礎(chǔ),應(yīng)基于影響石油生產(chǎn)的理論知識和現(xiàn)場專業(yè)知識進(jìn)行初步提取.此外,低相關(guān)性的變量會降低模型的準(zhǔn)確性,而高相關(guān)性的變量會大大降低模型的復(fù)雜度并提高預(yù)測準(zhǔn)確率.因此,變量間的相關(guān)性分析和重要性排序?qū)τ蜌猱a(chǎn)量預(yù)測具有重要意義,可用于主成分分析,灰色關(guān)聯(lián)分析,隨機(jī)森林進(jìn)行分析.數(shù)據(jù)劈分是防止模型過擬合并提高模型泛化能力的方法之一.通過從產(chǎn)量預(yù)測模型數(shù)據(jù)集中隨機(jī)抽取訓(xùn)練數(shù)據(jù),然后將訓(xùn)練,測試和驗(yàn)證數(shù)據(jù)集通過交叉驗(yàn)證進(jìn)行劃分,交叉驗(yàn)證可用于評估和預(yù)測油井的性能.
建立數(shù)據(jù)庫后,將訓(xùn)練數(shù)據(jù)輸入到數(shù)據(jù)驅(qū)動的模型中進(jìn)行訓(xùn)練,通過優(yōu)化算法對超參數(shù)進(jìn)行優(yōu)化.當(dāng)訓(xùn)練誤差達(dá)到期望值或沒有減少時(shí),可以通過驗(yàn)證集驗(yàn)證訓(xùn)練模型.最后,通過隨機(jī)選擇測試數(shù)據(jù)對模型進(jìn)行盲測.在本文中,均方誤差(mean square error)Ems和準(zhǔn)確率R2被用來評估代理模型,其具體表達(dá)式如下
式中,yi表示實(shí)際值,yi表示模型預(yù)測值,n為樣本量 ,y表示實(shí)際值yi平均.
決策樹(decision tree)通過拆分預(yù)測變量并遞歸劃分?jǐn)?shù)據(jù)集來描述因變量與一個(gè)或多個(gè)自變量之間的關(guān)系[29].在決策樹的每個(gè)分支上,觀察數(shù)據(jù)通過自變量的閾值分配給左右路徑.在回歸樹中,通過最小化誤差指標(biāo)劈分?jǐn)?shù)據(jù)集并在葉子節(jié)點(diǎn)上獲得預(yù)測值.基于CART 樹和裝袋法的隨機(jī)森林,通過聚集大量決策樹來近似表征任意復(fù)雜的非線性曲面,這使得它成為一個(gè)強(qiáng)大的預(yù)測工具[30-31],能用于解決復(fù)雜的非線性回歸和分類問題.它能從訓(xùn)練數(shù)據(jù)集中獲得預(yù)定數(shù)量的小樣本用于并行估計(jì),通過簡單的參數(shù)優(yōu)化,便可獲得較高的預(yù)測精度.如圖3 所示,通過分割每個(gè)節(jié)點(diǎn)并隨機(jī)選擇給定節(jié)點(diǎn)的子集來構(gòu)建隨機(jī)森林模型進(jìn)行訓(xùn)練,并且未經(jīng)過剪枝的樹在每個(gè)節(jié)點(diǎn)處隨機(jī)增長.這種隨機(jī)化特征使得模型能夠避免過擬合問題.最終預(yù)測值是RF 算法中每個(gè)決策樹的平均值.此外,隨機(jī)森林方法也可以對變量的重要性進(jìn)行排序,便于抽提產(chǎn)量主控因素,有助于分析油田生產(chǎn)動態(tài)分析.
圖3 隨機(jī)森林預(yù)測產(chǎn)量示意圖Fig.3 Schematic diagram of random forest forecast oil production
梯度提升樹(gradient boosting decision tree,GBDT)通過多輪迭代,每輪迭代產(chǎn)生一個(gè)弱學(xué)習(xí)器(CART 回歸樹),每個(gè)學(xué)習(xí)器通過降低上一輪的殘差進(jìn)行訓(xùn)練[32-33].最終的預(yù)測結(jié)果通過將每輪訓(xùn)練得到的弱學(xué)習(xí)器進(jìn)行加權(quán)求和得到,這種通過集合多個(gè)弱學(xué)習(xí)器形成一個(gè)強(qiáng)化模型的集成學(xué)習(xí)方法能大大減少模型的訓(xùn)練時(shí)間,同時(shí)可以有效避免過擬合問題.近年來,由陳天奇等[34-35]提出的極限梯度爬升算法(extreme gradient boosting,XGBoost)對GBDT進(jìn)行了優(yōu)化,進(jìn)一步提升了算法的計(jì)算速度和預(yù)測性能,成為了當(dāng)前數(shù)據(jù)挖掘算法中的熱點(diǎn).其主要優(yōu)點(diǎn)如下[36-37].
(1)目標(biāo)函數(shù)優(yōu)化利用了損失函數(shù)關(guān)于待求函數(shù)的二階導(dǎo)數(shù),加快優(yōu)化進(jìn)程,增加模型準(zhǔn)確性.
(2)支持并行化,對于某個(gè)節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)選擇最佳分裂點(diǎn),候選分裂點(diǎn)計(jì)算增益用多線程并行.訓(xùn)練速度快.
(3)通過引入正則化項(xiàng),增加模型的泛化能力,能有效防止過擬合問題.
人工神經(jīng)網(wǎng)絡(luò) (artificial neural network),作為功能強(qiáng)大的機(jī)器學(xué)習(xí)算法,可以充分挖掘隱藏在數(shù)據(jù)背后的非線性關(guān)系.多個(gè)相互連接的并行神經(jīng)元組成的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)一般包括輸入層,隱藏層和輸出層.僅包含輸入和輸出層的神經(jīng)網(wǎng)絡(luò)也稱為單層感知器,通常用于解決線性問題.多層感知器可能包含多個(gè)隱藏層,用來探索因變量和自變量之間復(fù)雜非線性關(guān)系[38-39].神經(jīng)元之間的連接可以用等式(3)表示,當(dāng)輸入信號通過時(shí),神經(jīng)元根據(jù)其權(quán)重交換消息.每個(gè)神經(jīng)元的輸入信息通過線性加權(quán)組合在一起,通過不斷調(diào)整權(quán)重和偏差以使輸出與輸入變量相關(guān).最后,通過激活函數(shù)獲得計(jì)算結(jié)果的輸出
式中yi是神經(jīng)元i的輸出;f(·)是激活函數(shù),可用于控制神經(jīng)元的狀態(tài)(興奮或抑制);wij是后一層的神經(jīng)元j和當(dāng)前層的神經(jīng)元i之間的連接權(quán)重;xj表示上一層神經(jīng)元j的輸出值;bi是神經(jīng)元i的偏差.
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包括兩個(gè)階段:信號的前饋傳輸和誤差的反向傳播[40-41].在第一階段,信號從輸入層傳遞到隱藏層或輸出層.在第二階段,將從預(yù)測值和實(shí)際值計(jì)算出的誤差信號傳播回輸入層,并更新輸入層中神經(jīng)元之間的連接權(quán)重和偏差.最后,需要一個(gè)具有濾波器功能的傳遞函數(shù)來激活該單元并產(chǎn)生輸出.人工神經(jīng)網(wǎng)絡(luò)中的常用激活函數(shù)包括Sigmoid 函數(shù),tanh 函數(shù)和ReLU 函數(shù).為了節(jié)省模型優(yōu)化時(shí)間,本文采用文獻(xiàn)報(bào)道中普遍適用的ReLU函數(shù)作為產(chǎn)量預(yù)測的激活函數(shù)[42-44].
本文以國內(nèi)某特低滲透油田為例,盡可能地搜集了該油田242 口壓裂水平井的6 個(gè)月累積產(chǎn)油量及影響產(chǎn)量的地質(zhì)?油藏?工藝變量,主要包括孔隙度(φ),滲透率(K),含水飽和度(Sw),泥質(zhì)含量(Sh),電阻率(R),射孔厚度(hperf),有效厚度(h),井底流壓(pwf),生產(chǎn)壓差(ΔP),油藏位置(邊部),入地總液量(Vfrac)及六個(gè)月的平均產(chǎn)量(Q6?m).為了準(zhǔn)確評估壓后效果及訓(xùn)練模型,選取6 個(gè)月平均月產(chǎn)量作為預(yù)測指標(biāo),通過函數(shù)插值填補(bǔ)缺失值、降噪、類別數(shù)據(jù)獨(dú)熱編碼等技術(shù)手段對數(shù)據(jù)進(jìn)行預(yù)處理,獲得了12 個(gè)變量的統(tǒng)計(jì)分析結(jié)果,主要包括均值(mean),標(biāo)準(zhǔn)差(std),最小值(min),第一四分位數(shù)(25%),中位數(shù)(50%),第三四分位數(shù)(75%),最大值(max),具體結(jié)果如表1 所示.
表1 產(chǎn)量數(shù)據(jù)庫統(tǒng)計(jì)分析Table 1 Statistical analysis of oilfield database
針對油田所搜集到的242 口壓裂水平井?dāng)?shù)據(jù)的產(chǎn)量預(yù)測問題,本文的工作流程如下.
(1)首先通過填補(bǔ)缺失值,類別數(shù)據(jù)(如油藏位置)進(jìn)行獨(dú)熱編碼進(jìn)行數(shù)據(jù)預(yù)處理;
(2)為了獲得較為可靠的預(yù)測結(jié)果,在數(shù)據(jù)預(yù)處理的基礎(chǔ)上先對數(shù)化處理再進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,獲得符合高斯分布特征的無量綱數(shù)據(jù),形成產(chǎn)量預(yù)測數(shù)據(jù)庫;
(3)為了對比驗(yàn)證三種代理模型的預(yù)測效果,利用隨機(jī)劈分方法將數(shù)據(jù)切分為訓(xùn)練集和測試集;
(4)經(jīng)過模型訓(xùn)練后的數(shù)據(jù),為了減少模型訓(xùn)練過程中預(yù)測結(jié)果的差異性,采用十折交叉驗(yàn)證方法評估三種代理模型(隨機(jī)森林、XGBoost、人工神經(jīng)網(wǎng)絡(luò))的預(yù)測效果.
(5)為了評估小樣本數(shù)據(jù)下數(shù)據(jù)預(yù)處理對模型預(yù)測效果的影響,考慮經(jīng)過數(shù)據(jù)對數(shù)化處理和不經(jīng)過對數(shù)化處理兩種條件下評估代理模型的預(yù)測效果.
數(shù)據(jù)預(yù)處理是獲得準(zhǔn)確可靠的預(yù)測結(jié)果的關(guān)鍵,針對本案例中偏度較大的變量,本文采用對數(shù)函數(shù)進(jìn)行轉(zhuǎn)化,利用核密度估計(jì)方法獲取轉(zhuǎn)換前后的概率密度分布
式中,f為概率密度函數(shù),K(·)為核函數(shù)(非負(fù)、積分為1,符合概率密度性質(zhì),并且均值為0),h>0 為一個(gè)平滑參數(shù),稱作帶寬.結(jié)果表明,對數(shù)化處理后的數(shù)據(jù)更加服從高斯分布(見圖4,圖5 所示).
圖4 轉(zhuǎn)換前數(shù)據(jù)分布(以孔隙度為例)Fig.4 Data distribution before transformation(taking porosity as an example)
圖5 轉(zhuǎn)換后數(shù)據(jù)分布(以孔隙度為例)Fig.5 Data distribution after transformation (taking porosity as an example)
為了消除不同變量之間的量綱影響,采用基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,其表達(dá)為
式中,x表示原始數(shù)據(jù),μ表示數(shù)據(jù)的均值,σ表示數(shù)據(jù)的標(biāo)準(zhǔn)差,x*為標(biāo)準(zhǔn)化后的數(shù)據(jù).
經(jīng)過預(yù)處理的數(shù)據(jù)可輸入到機(jī)器學(xué)習(xí)算法中進(jìn)行訓(xùn)練,為了評估模型效果并對比分析隨機(jī)森林、XGBoost、人工神經(jīng)網(wǎng)絡(luò)之間的差異,本文采用隨機(jī)劈分方法將產(chǎn)量預(yù)測數(shù)據(jù)庫劃分為訓(xùn)練集(70% 數(shù)據(jù)集)和測試集(30% 數(shù)據(jù)集),通過十折交叉驗(yàn)證的均方誤差和準(zhǔn)確率來評估模型的預(yù)測效果.
正如前文所述,本文采用適用于小樣本的集成學(xué)習(xí)模型(隨機(jī)森林及XGBoost)進(jìn)行訓(xùn)練,并與人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比.為了獲取高效準(zhǔn)確的優(yōu)化模型,通過十折交叉驗(yàn)證對滲流代理模型進(jìn)行超參數(shù)優(yōu)化,優(yōu)化后的模型結(jié)構(gòu)如表2 所示.
表2 模型參數(shù)優(yōu)化結(jié)果Table 2 Model parameter optimization results
產(chǎn)量主控因素分析及排序是油井性能評估的一個(gè)重要步驟,本文基于數(shù)據(jù)建模技術(shù)及前文建立的產(chǎn)量模型數(shù)據(jù)庫,采用皮爾遜相關(guān)系數(shù)分析各個(gè)變量對6 個(gè)月累積產(chǎn)油量的影響.皮爾遜相關(guān)系數(shù)能定量分析不同自變量與因變量之間的相關(guān)程度并排序,其值越接近1,相關(guān)性越強(qiáng);其值越接近0,相關(guān)性越弱.皮爾遜相關(guān)系數(shù)的表達(dá)式為
式中, ρX,Y表示變量X,Y之間的相關(guān)系數(shù);c ov(X,Y),σX, σY分別表示協(xié)方差、變量X的標(biāo)準(zhǔn)差、變量Y的標(biāo)準(zhǔn)差;μX, μY分別表示變量X、變量Y的均值.通過數(shù)據(jù)建模分析得到的皮爾遜相關(guān)系數(shù)矩陣如圖6 所示.從圖中可以看到,該特低滲透油藏,影響6 個(gè)月累積產(chǎn)油量前四個(gè)因素分別為入地液量,儲層厚度,生產(chǎn)壓差,油藏有無邊水.
圖6 產(chǎn)量影響因素分析Fig.6 Analysis of factors affecting oil production
此外,為了說明數(shù)據(jù)預(yù)處理步驟在數(shù)據(jù)驅(qū)動預(yù)測產(chǎn)量過程中的重要性,本文對比了三種滲流代理模型在經(jīng)過數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)和不經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化的兩種場景下的預(yù)測效果,如圖7~圖9 所示.
從圖7~圖9 可以看出,未經(jīng)過標(biāo)準(zhǔn)化的數(shù)據(jù)直接輸入到模型中會產(chǎn)量較大誤差,嚴(yán)重影響模型預(yù)測效果.對比三種滲流代理模型來看,數(shù)據(jù)標(biāo)準(zhǔn)化對神經(jīng)網(wǎng)絡(luò)模型影響最大;而對于集成學(xué)習(xí)模型,未進(jìn)行標(biāo)準(zhǔn)化也能取得一定的效果.因此,利用滲流代理模型進(jìn)行回歸預(yù)測時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化是模型取得較高準(zhǔn)確率的關(guān)鍵,尤其是對于神經(jīng)網(wǎng)絡(luò),未經(jīng)數(shù)據(jù)標(biāo)準(zhǔn)化的數(shù)據(jù)會模型會嚴(yán)重影響產(chǎn)量預(yù)測效果.
圖7 隨機(jī)森林模型標(biāo)準(zhǔn)化對比Fig.7 Standardization comparison of random forest models
圖8 XGBoost 模型標(biāo)準(zhǔn)化對比Fig.8 Standardization comparison of XGBoost models
圖9 人工神經(jīng)網(wǎng)絡(luò)模型標(biāo)準(zhǔn)化對比Fig.9 Standardization comparison of artificial neural network models
將隨機(jī)劈分的產(chǎn)量預(yù)測數(shù)據(jù)庫分別輸入到優(yōu)化的隨機(jī)森林、XGBoost 回歸樹及人工神經(jīng)網(wǎng)絡(luò)模型中,通過指數(shù)化及反歸一化可以得到產(chǎn)量模型的預(yù)測結(jié)果.所得訓(xùn)練集,測試集及整個(gè)數(shù)據(jù)集的均方誤差及準(zhǔn)確率結(jié)果如表3 所示.為了更加直觀對比三種機(jī)器學(xué)習(xí)算法的預(yù)測性能,繪制了目標(biāo)值與模型值的交會圖如圖10~圖12 所示.
圖10 隨機(jī)森林目標(biāo)值與預(yù)測值交會圖Fig.10 Cross plot of target and predicted values of random forest
圖11 XGBoost 目標(biāo)值與預(yù)測值交會圖Fig.11 Cross plot of target and predicted values of XGBoost
圖12 人工神經(jīng)網(wǎng)絡(luò)目標(biāo)值與預(yù)測值交會圖Fig.12 Cross plot of target and predicted values of artificial neural networks
表3 滲流代理模型結(jié)果對比Table 3 Comparison of results of seepage proxy model
結(jié)合兩種模型評估指標(biāo)(均方誤差,Ems、準(zhǔn)確率,R2)來看,總體而言三種滲流代理模型均能取得較好的預(yù)測效果(R2>0.8,Ems<0.2),這說明滲流代理模型能被用來挖掘多變量油田數(shù)據(jù)之間復(fù)雜非線性關(guān)系.從測試集的均方誤差結(jié)果可以看出,人工神經(jīng)網(wǎng)絡(luò)針對小樣本數(shù)據(jù)的預(yù)測的過擬合現(xiàn)象十分嚴(yán)重(Ems= 0.45,R2= 0.54),不太適合小樣本數(shù)據(jù)的預(yù)測,而隨機(jī)森林算法和極限梯度提升數(shù)的預(yù)測效果明顯優(yōu)于神經(jīng)網(wǎng)絡(luò),進(jìn)一步說明集成學(xué)習(xí)算法在處理小樣本數(shù)據(jù)時(shí)表現(xiàn)出來的優(yōu)越性,對比隨機(jī)森林和極限梯度提升樹來看,隨機(jī)森林在測試集上略低于極限梯度提升樹,而在總體預(yù)測結(jié)果來看,隨機(jī)森林算法仍具有明顯的優(yōu)勢,因此,隨機(jī)森林算法能較好地用于小樣本多變量的油田數(shù)據(jù)分析.
本文針對地下多孔介質(zhì)滲流過程中存在的非線性、多尺度、多物理場等耦合滲流機(jī)理難以準(zhǔn)確刻畫與表征,考慮多機(jī)理耦合的滲流模型求解難度大,計(jì)算效率低等滲流力學(xué)發(fā)展面臨的瓶頸問題,探索了一種利用大數(shù)據(jù)分析方法建立滲流代理模型預(yù)測石油產(chǎn)量的方法與流程,所得結(jié)論如下.
(1)本文建立的三種滲流代理模型不需要建立復(fù)雜的物理模型及假設(shè)便能挖掘油田數(shù)據(jù)之間復(fù)雜的非線性關(guān)系,高效準(zhǔn)確地預(yù)測產(chǎn)量,兼顧計(jì)算效率的同時(shí)能實(shí)現(xiàn)產(chǎn)量的準(zhǔn)確預(yù)測.
(2)滲流代理模型預(yù)測石油產(chǎn)量包括油田數(shù)據(jù)收集、數(shù)據(jù)清洗(缺失值填充、數(shù)據(jù)標(biāo)準(zhǔn)化與對數(shù)化等)、產(chǎn)量預(yù)測數(shù)據(jù)庫建立、代理模型優(yōu)化、產(chǎn)量預(yù)測等步驟.針對油田開發(fā)過程中的多變量小樣本問題,在模型開始訓(xùn)練前,數(shù)據(jù)對數(shù)化及歸一化處理能明顯提升模型的預(yù)測效果.
(3)代理模型能快速分析多變量之間的相關(guān)性,抽提影響產(chǎn)量的主控因素.相比于神經(jīng)網(wǎng)絡(luò)模型,隨機(jī)森林具有更好的泛化性能,能更好地適用于小樣本多變量的產(chǎn)量預(yù)測問題.