赫俊民 李亞傳
(1.中石化勝利油田物探院 東營(yíng) 257100)(2.中國(guó)石油大學(xué)(華東) 青島 266580)
油藏資源是油田企業(yè)發(fā)展的基礎(chǔ),油氣儲(chǔ)量的分析與預(yù)測(cè)是油氣企業(yè)發(fā)展中不可或缺的基礎(chǔ)工作。只有通過(guò)科學(xué)分析,量化投入產(chǎn)出關(guān)系,才能盡可能在有限的資源下創(chuàng)造最大收益。因此,在勘探數(shù)據(jù)分析的基礎(chǔ)上,準(zhǔn)確預(yù)測(cè)油藏年度規(guī)劃儲(chǔ)量,對(duì)優(yōu)化勘探規(guī)劃結(jié)構(gòu)、提高油藏發(fā)現(xiàn)效率都具有重大意義。在油氣開(kāi)采的過(guò)程中,相關(guān)專(zhuān)家一直在探索一種準(zhǔn)確、高效的資源預(yù)測(cè)方法。然而由于對(duì)不確定因素難以準(zhǔn)確地量化,預(yù)測(cè)結(jié)果與實(shí)際產(chǎn)出之間存在較大誤差。本文在勘探規(guī)劃數(shù)據(jù)分析的基礎(chǔ)上,提出了一種基于深度學(xué)習(xí)的儲(chǔ)量預(yù)測(cè)方法——基于RNNs(Recurrent Neural Networks)的油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)網(wǎng)絡(luò),是利用RNNs在油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)方面的第一次嘗試。通過(guò)建立不同級(jí)別地質(zhì)單元的的預(yù)測(cè)模型,利用近幾十年的歷史數(shù)據(jù),實(shí)現(xiàn)對(duì)不同地質(zhì)單元不同勘探階段的中短期年份油氣儲(chǔ)量的預(yù)測(cè)。實(shí)驗(yàn)證明,基于RNNs的油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)網(wǎng)絡(luò)在油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)上的效果明顯優(yōu)于傳統(tǒng)的預(yù)測(cè)方法[1~2],而且計(jì)算效率有大幅提高。
油氣田年度規(guī)劃儲(chǔ)量預(yù)測(cè)的結(jié)果準(zhǔn)確度,取決于預(yù)測(cè)方法和所建立的數(shù)學(xué)模型??偟貋?lái)講,規(guī)劃儲(chǔ)量預(yù)測(cè)方法分為數(shù)學(xué)模型法、歷史擬合法、時(shí)間序列預(yù)測(cè)分析法等幾大類(lèi)[3~4]。
數(shù)學(xué)模型法從模型的理論思想、數(shù)學(xué)表達(dá)式、求解方法、適用范圍、應(yīng)用效果等方面進(jìn)行分析,并實(shí)際應(yīng)用于油田的年度規(guī)劃儲(chǔ)量預(yù)測(cè)[5]。
歷史擬合法[6]基本原理為:構(gòu)建一個(gè)反映油藏模型計(jì)算值與實(shí)際觀測(cè)值偏差的目標(biāo)函數(shù),通過(guò)優(yōu)化算法,自動(dòng)尋找最優(yōu)油藏參數(shù),最小化目標(biāo)函數(shù)[7]。自動(dòng)歷史擬合利用少量的動(dòng)態(tài)觀測(cè)數(shù)據(jù),求解模型中的參數(shù),從而得到完整的預(yù)測(cè)模型,用來(lái)預(yù)測(cè)將來(lái)的數(shù)據(jù)[8]。
時(shí)間序列預(yù)測(cè)分析法是根據(jù)事物發(fā)展的連續(xù)性原理,應(yīng)用數(shù)理統(tǒng)計(jì)方法將過(guò)去的歷史數(shù)據(jù)按時(shí)間順序排列,然后再運(yùn)用一定的數(shù)字模型來(lái)預(yù)計(jì)未來(lái)的一種預(yù)測(cè)方法[9]。
然而,傳統(tǒng)油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)方法預(yù)測(cè)精度低、人工要求高、難以復(fù)現(xiàn)、效率低[10]。因此,亟需一種新的方法,在提高儲(chǔ)量預(yù)測(cè)的速度和精度的同時(shí)降低預(yù)測(cè)成本。
深度學(xué)習(xí)的概念由Hinton等于2006年提出。基于深度置信網(wǎng)絡(luò)提出非監(jiān)督貪心逐層訓(xùn)練算法,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來(lái)希望,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法[11]。近年來(lái),深度學(xué)習(xí)方法在數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測(cè)等領(lǐng)域表現(xiàn)出卓越的性能,目前以深度學(xué)習(xí)為核心的某些機(jī)器學(xué)習(xí)應(yīng)用在某些應(yīng)用場(chǎng)景下性能已經(jīng)遠(yuǎn)超傳統(tǒng)算法[12]。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)是一種節(jié)點(diǎn)定向連接成環(huán)的人工神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的內(nèi)部狀態(tài)可以展示動(dòng)態(tài)時(shí)序行為。RNN可以利用它內(nèi)部的記憶來(lái)處理任意時(shí)序的輸入序列,當(dāng)前時(shí)刻的輸出結(jié)果跟輸入和上一時(shí)刻的輸出有關(guān)[13]。這讓它可以更容易處理與時(shí)間序列有關(guān)的任務(wù)。
響預(yù)測(cè)結(jié)果的數(shù)據(jù)多種多樣,只有抓住關(guān)鍵因素,才能準(zhǔn)確預(yù)測(cè)。經(jīng)過(guò)數(shù)據(jù)分析,發(fā)現(xiàn)了影響預(yù)測(cè)模型建立的關(guān)鍵因素:探井勘探程度、資源探明程度、累計(jì)油藏個(gè)數(shù)。以東營(yíng)凹陷為例,圖1分別為東營(yíng)凹陷地區(qū)年累計(jì)資源探明程度、年累計(jì)探井勘探程度以及年累計(jì)油藏個(gè)數(shù),通過(guò)分析發(fā)現(xiàn),三項(xiàng)數(shù)據(jù)大體呈現(xiàn)增長(zhǎng)趨勢(shì)。這是油田工作者在數(shù)十年的工作中總結(jié)出來(lái)的對(duì)油藏年度規(guī)劃儲(chǔ)量影響較大的因素,具有較強(qiáng)的指導(dǎo)意義。因此在該方法中,也主要關(guān)注這三個(gè)數(shù)據(jù)指標(biāo)[14]。
圖1 處理后的數(shù)據(jù)結(jié)果
對(duì)勘探基礎(chǔ)數(shù)據(jù)的處理主要包括三部分:整理基礎(chǔ)數(shù)據(jù)、排除干擾因素、規(guī)范數(shù)據(jù)格式。
1)整理基礎(chǔ)數(shù)據(jù):由上一節(jié)勘探數(shù)據(jù)分析可知,整個(gè)預(yù)測(cè)過(guò)程要用到的數(shù)據(jù)有探井勘探程度、資源探明程度、累計(jì)油藏個(gè)數(shù)這三組數(shù)據(jù),計(jì)算這些數(shù)據(jù)還需要包括探井完鉆日期、區(qū)域面積在內(nèi)的一系列輔助數(shù)據(jù)。首先要從油田數(shù)據(jù)庫(kù)中將數(shù)據(jù)整理出來(lái),選擇出其中可用的年份(1964-2013)來(lái)準(zhǔn)備建模。
2)排除干擾因素:在勘探基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)過(guò)程中,遇到了小油藏(即油藏儲(chǔ)量小于15萬(wàn)t的油藏)的問(wèn)題。在油藏年度規(guī)劃儲(chǔ)量問(wèn)題中小油藏問(wèn)題不可避免,由于其產(chǎn)量較小,對(duì)未來(lái)儲(chǔ)量預(yù)測(cè)指導(dǎo)意義不大,如果不進(jìn)行單獨(dú)處理,會(huì)對(duì)預(yù)測(cè)模型產(chǎn)生較大的影響,進(jìn)而影響模型的預(yù)測(cè)結(jié)果。處理方法是將小油藏進(jìn)行相互合并,合并的規(guī)則是如果若干油藏具有相同的油田名、時(shí)間和斷塊區(qū)名,并且這若干油藏中有小油藏,則將這若干油藏進(jìn)行合并,將其作為一個(gè)油藏來(lái)處理。
3)規(guī)范數(shù)據(jù)格式:其中主要工作是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)類(lèi)型和精度調(diào)整成適應(yīng)模型需要的形式。將數(shù)值類(lèi)型數(shù)據(jù)統(tǒng)一保存成浮點(diǎn)數(shù)(小數(shù)點(diǎn)后保留八位有效數(shù)字)。不規(guī)范形式的數(shù)據(jù)會(huì)在計(jì)算過(guò)程中產(chǎn)生較大計(jì)算誤差,因此規(guī)范化輸入數(shù)據(jù)在建模過(guò)程必不可少[14]。
根據(jù)對(duì)油田儲(chǔ)量序列的實(shí)際分析,可以將油田儲(chǔ)量序列的預(yù)測(cè)問(wèn)題看作是一個(gè)時(shí)間序列建模的問(wèn)題。影響油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)的主要因素有年累計(jì)資源探明程度、年累計(jì)探井勘測(cè)程度、年累計(jì)油藏個(gè)數(shù)。
時(shí)間序列是按時(shí)間順序的一組油田的相關(guān)信息。時(shí)間序列分析就是利用這組油田數(shù)列,應(yīng)用數(shù)理統(tǒng)計(jì)方法加以處理,以預(yù)測(cè)未來(lái)油藏年度規(guī)劃儲(chǔ)量,考慮到油藏年度規(guī)劃儲(chǔ)量探測(cè)過(guò)程中的隨機(jī)性,需要利用統(tǒng)計(jì)分析中加權(quán)平均法對(duì)之前獲取的油田數(shù)據(jù)進(jìn)行處理。時(shí)間序列預(yù)測(cè)反映油藏年度規(guī)劃儲(chǔ)量勘探的趨勢(shì)變化和隨機(jī)性變化[15]。
RNNs將前一個(gè)狀態(tài)的輸出當(dāng)作當(dāng)前狀態(tài)的輸入,體現(xiàn)了模型數(shù)據(jù)的時(shí)間先后順序以及互相的影響。理論上,RNNs能夠?qū)θ我忾L(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理。但是在實(shí)際的應(yīng)用過(guò)程中,由于GPU、顯存等條件限制,需要減少參數(shù)降低問(wèn)題的復(fù)雜性,往往假設(shè)當(dāng)前的狀態(tài)只與前面的幾個(gè)狀態(tài)有關(guān)。理論上,時(shí)間上距離當(dāng)前數(shù)據(jù)越遠(yuǎn)的數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)的影響就越小,因此該假設(shè)是符合實(shí)際使用需求的。
建立的RNNs模型如圖2所示,深度模型包含輸入單元,用于接收油田的歷史數(shù)據(jù)(年累計(jì)資源探明程度、年累計(jì)探井勘測(cè)程度、年累計(jì)油藏個(gè)數(shù)),圖中可視層即為即為接受歷史數(shù)據(jù)輸入的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)接受一維數(shù)據(jù)。圖中可視層共9個(gè)節(jié)點(diǎn),故輸入的向量為長(zhǎng)度為9維的特征向量。圖中輸出層即為網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果輸出單元,共有一個(gè)節(jié)點(diǎn),輸出一個(gè)關(guān)于儲(chǔ)量的預(yù)測(cè)結(jié)果;特征映射層從這些歷史數(shù)據(jù)中提取出數(shù)據(jù)之間內(nèi)在的規(guī)律,并進(jìn)行下一步的輸出預(yù)測(cè),圖中的中間部分的三層即為特征映射層。網(wǎng)絡(luò)的輸入向量維度比較低(相比更復(fù)雜的多維數(shù)據(jù)輸入來(lái)說(shuō))而且訓(xùn)練數(shù)據(jù)較少,限制了網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)。由于輸出節(jié)點(diǎn)數(shù)小于輸入節(jié)點(diǎn)數(shù)(只有一個(gè)),因此網(wǎng)絡(luò)整體呈金字塔形狀。
圖2 深度學(xué)網(wǎng)絡(luò)結(jié)構(gòu)
用勘探基礎(chǔ)數(shù)據(jù)處理一節(jié)中的方法整理好的數(shù)據(jù)應(yīng)該是[x,y]的數(shù)據(jù)對(duì)形式,其中x是一個(gè)9維向量,包含了要輸入的信息,y是與x數(shù)據(jù)同年的油藏年度規(guī)劃儲(chǔ)量結(jié)果,將x輸入到網(wǎng)絡(luò)中,會(huì)得到一個(gè)輸出結(jié)果out,利用交叉熵?fù)p失函數(shù):
來(lái)訓(xùn)練網(wǎng)絡(luò)模型,最小化out和y之間的誤差。利用深度學(xué)習(xí)中的反向傳播機(jī)制,對(duì)模型進(jìn)行迭代訓(xùn)練,自動(dòng)調(diào)整權(quán)值參數(shù),直至損失函數(shù)收斂,完成模型訓(xùn)練。
實(shí)驗(yàn)的數(shù)據(jù)是油田1964年到2013年的實(shí)測(cè)數(shù)據(jù)。模型的訓(xùn)練過(guò)程就是參數(shù)調(diào)整的過(guò)程,當(dāng)模型訓(xùn)練完成,參數(shù)固定,在使用預(yù)測(cè)過(guò)程中不會(huì)改變,但是這與油田的實(shí)際情況不相符。油田產(chǎn)量至少存在一個(gè)增長(zhǎng)-穩(wěn)定-衰減過(guò)程。如果只用增長(zhǎng)過(guò)程的數(shù)據(jù)預(yù)測(cè)整個(gè)周期的儲(chǔ)量,誤差勢(shì)必會(huì)逐漸增大,因此,模型只能預(yù)測(cè)短時(shí)間內(nèi)的油藏年度規(guī)劃儲(chǔ)量,如果繼續(xù)使用該模型,需要用每年新增的數(shù)據(jù)重新訓(xùn)練網(wǎng)絡(luò)模型,更新權(quán)重參數(shù)。
眾所周知,學(xué)習(xí)率的大小對(duì)實(shí)驗(yàn)結(jié)果影響巨大,學(xué)習(xí)率過(guò)小損失函數(shù)收斂過(guò)慢,并且容易陷入局部最優(yōu)化;學(xué)習(xí)率過(guò)大,使得損失值產(chǎn)生震蕩。實(shí)驗(yàn)學(xué)習(xí)率對(duì)模型誤差的影響結(jié)果見(jiàn)表1。
表1 學(xué)習(xí)率對(duì)模型誤差的影響
由表1分析可得,學(xué)習(xí)率在6以內(nèi)時(shí)誤差呈先下降再上升的整體趨勢(shì),在3時(shí)模型的精度達(dá)到最佳(在所有選擇的學(xué)習(xí)率中)。但是,在實(shí)際建模過(guò)程中,還要考慮到模型的效率問(wèn)題,一定范圍內(nèi),學(xué)習(xí)率越大,模型的效率就越低,在誤差不大幅上升的情況下要選取較小的學(xué)習(xí)率,經(jīng)過(guò)進(jìn)一步的實(shí)驗(yàn),最終確定學(xué)習(xí)率為2.1,在不損失太多精度的情況下,盡可能提高效率。
為評(píng)價(jià)本深度學(xué)習(xí)模型的效果,以東營(yíng)凹陷的年累計(jì)探明儲(chǔ)量序列數(shù)據(jù)為例,對(duì)深度模型的效果進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果見(jiàn)圖3。
圖3 模型效果評(píng)價(jià)曲線
由圖3(a)可知,該模型能夠?qū)W習(xí)到年累計(jì)儲(chǔ)量的總體變化趨勢(shì),在數(shù)據(jù)變化不劇烈的時(shí)模型能夠達(dá)到較高的準(zhǔn)確度,誤差曲線圖3(b)所示,對(duì)于每一個(gè)年份的油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè),該模型的誤差都在10%以內(nèi)。
同時(shí),為了更直觀表現(xiàn)本深度模型在儲(chǔ)量預(yù)測(cè)上的效果,本文對(duì)東營(yíng)凹陷的儲(chǔ)量增長(zhǎng)曲線作了對(duì)比,對(duì)比情況如圖4所示。從圖中可以觀察到,該模型的預(yù)測(cè)曲線(圖4(a))在儲(chǔ)量的變化趨勢(shì)上與實(shí)際的儲(chǔ)量(圖4(b))基本吻合,在局部?jī)?chǔ)量變化比較劇烈的年份(如1983年),預(yù)測(cè)效果稍差。
圖4 東營(yíng)凹陷真實(shí)儲(chǔ)量變化曲線與預(yù)測(cè)儲(chǔ)量變化曲線對(duì)比
據(jù)所知,目前基于深度模型的油田發(fā)現(xiàn)儲(chǔ)量增長(zhǎng)趨勢(shì)預(yù)測(cè)是深度學(xué)習(xí)在油田勘探規(guī)劃分析決策過(guò)程中的首次嘗試。實(shí)驗(yàn)證明,該模型效果顯著,相比傳統(tǒng)方法在預(yù)測(cè)的精度、速度上都有大幅提高。該模型對(duì)今后深度學(xué)習(xí)在油藏年度規(guī)劃儲(chǔ)量預(yù)測(cè)方面的研究與應(yīng)用有一定的參考意義。