宋建國 楊 璐 高強山 劉 炯
(①中國石油大學(華東)地球科學與技術學院,山東青島 266580; ②海洋礦產資源評價與探測技術功能實驗室,山東青島 266071; ③中國科學院地球化學研究所月球與行星科學研究中心,貴州貴陽 550081; ④中國石化石油勘探開發(fā)研究院,北京 100083)
綜合地震、測井與地質資料進行解釋與分析是油氣勘探和開發(fā)過程中最基本、最重要的一種手段,也是油藏描述最基本的分析方法[1]。地震儲層預測方法以地震屬性數(shù)據(jù)為基礎[2],結合測井與地質信息進行儲層特征參數(shù)預測[3],可深入地研究特征參數(shù)的空間分布規(guī)律,減少地球物理反演問題的多解性,利用不同類型的資料優(yōu)勢,提高解釋的可靠性[4-6]。
地震方法與測井方法在實際觀測過程中受到各種干擾因素的影響,觀測數(shù)據(jù)不可避免存在噪聲,因而用于解釋的數(shù)據(jù)不是完全的確定數(shù)據(jù)。地球物理各種反演方法都是建立在正演的基礎上,對地下的復雜地質問題做了“模型理想化”處理,對于實際數(shù)據(jù)中的有效信號與噪聲信號的界限很難有一個明確的數(shù)學關系去直接界定[7,8],濾波等去噪方法能夠一定程度的消除地震數(shù)據(jù)中噪聲,但無法完全消除噪聲,使用一種對地震數(shù)據(jù)噪聲具有較高容忍度的儲層預測方法就顯得非常重要。
隨機森林是Breiman[9,10]于2001年提出的一種組合預測算法,即通過組合大量決策樹的預測結果作為一個整體的輸出,有效地克服了單一決策樹容易出現(xiàn)過擬合的問題。理論和實際數(shù)據(jù)的測試證明隨機森林在很多領域對異常值和噪聲具有很強的容忍度,克服了傳統(tǒng)預測方法信息和知識的獲取方式間接、費時且效率低下的缺點[11]。針對隨機森林的容噪性,Dietterich[12]證明對訓練樣本的部分輸出數(shù)據(jù)加入隨機噪聲后,Bagging方法和隨機分割選擇方法具有較強容噪性。Breiman通過很多不同實際類型的數(shù)據(jù)對隨機森林的容噪性進行了試驗,結果表明隨機森林對噪聲數(shù)據(jù)有很好的容忍度[13]。顯然,兩位專家均是對輸出數(shù)據(jù)加入隨機噪聲,但所使用的多個輸入變量是未加噪聲的。其他學者在對隨機森林的研究中,通過實際數(shù)據(jù)和理論推導指出了輸入變量在隨機森林模型占有重要的地位,并未對輸入變量含有噪聲時的情況進行分析[14-16]。
目前,在與儲層、巖性等預測相關的方面,已有一些文獻[17-20]對隨機森林算法做了應用性的研究,展現(xiàn)了隨機森林分類或回歸算法的優(yōu)異性能,相比神經網(wǎng)絡算法,隨機森林算法操作簡單,運算效率較高[21],與支持向量機相比,它需要設置的參數(shù)較少[22,23]。但這些文獻并未對輸入變量或者屬性數(shù)據(jù)含有噪聲時對模型影響進行專門研究。地震數(shù)據(jù)和測井數(shù)據(jù)實質上均含有噪聲,即輸入和輸出變量均受到了噪聲干擾,隨機森林對于輸入數(shù)據(jù),即地震屬性數(shù)據(jù)含有噪聲時,容噪性如何有待研究和分析。
基于以上的研究現(xiàn)狀,有針對性地分析隨機森林算法在地震儲層預測方面的容噪性顯得很有必要。本文采用F3工區(qū)的實際數(shù)據(jù)研究隨機森林回歸算法(RRF)的容噪性。F3工區(qū)原始地震數(shù)據(jù)含有較大噪聲,基于傾角導向濾波處理能夠有效壓制噪聲,得到高信噪比數(shù)據(jù)。從含噪聲的原始數(shù)據(jù)和傾角導向濾波之后的高信噪比數(shù)據(jù)中分別提取樣本并建立回歸模型,將這兩個隨機森林回歸模型分別作用于原始數(shù)據(jù)和高信噪比數(shù)據(jù),預測儲層特征參數(shù),用于對比分析。在建立隨機森林回歸模型和儲層特征參數(shù)預測中,提取了8種不同的地震屬性作為隨機森林回歸算法的輸入變量,以孔隙度數(shù)據(jù)作為預測的特征參數(shù),即輸出變量。兩個隨機森林回歸模型分別作用于兩個數(shù)據(jù)體,計算得到4個孔隙度參數(shù)的數(shù)據(jù)體,通過已知的地質信息分析這4個數(shù)據(jù)體之間的相關性,發(fā)現(xiàn)樣本是否含有噪聲對回歸模型的建立影響較大,從而對預測結果的影響也較大。用高信噪比數(shù)據(jù)建立的回歸模型對預測階段數(shù)據(jù)中的噪聲具有較好的容噪性。
決策樹是構成隨機森林的基礎,在回歸問題中,決策樹為回歸樹,回歸樹的缺點主要在于容易出現(xiàn)過擬合,只有少量的幾個數(shù)值輸出,處理連續(xù)型變量問題能力局限性較大,隨機森林回歸算法正是為解決這些問題而提出的。
隨機森林回歸算法利用bootstrap技術從原始樣本集隨機重復抽取多個樣本子集,對每個樣本子集分別進行決策樹建模,預測時每棵決策樹均給出一個預測結果,將所有決策樹輸出值的平均作為森林預測值。隨機森林基于統(tǒng)計學習理論,融合了bagging方法和隨機子空間方法兩大機器學習算法。
回歸森林的基本方法為:
(1)Bagging思想:首先,利用bootstrap重復抽樣方法從原始的訓練樣本中抽取k個樣本子集,且每個樣本子集的容量與原始訓練集的一樣,k個樣本子集分別建立k個回歸樹模型,預測時對k個回歸樹輸出值通過取平均得到回歸森林輸出值。該做法使每棵樹的訓練子集樣本存在一定的重復,目的是避免隨機森林的決策樹產生局部最優(yōu)解。
(2)隨機子空間方法:在生成每棵回歸樹時,每個節(jié)點分裂不是考察所有可能的分割,而是每個節(jié)點隨機選取部分輸入變量的可能分割并找出其中的最優(yōu)分割進行分裂,即隨機特征選取方法。
通過重復抽樣和隨機特征選取兩大隨機方式,其構建每棵回歸樹的樣本和構建模型的過程均存在差異,組合很多不同的回歸樹而形成森林,從而提高了模型的外推預測能力。Breiman通過理論和大量實際數(shù)據(jù)測試證明了隨機森林算法不會輕易產生過擬合的問題,隨機森林的泛化誤差小于決策樹的平均泛化誤差,對數(shù)據(jù)中的噪聲和異常值具有很好的容忍度,對噪聲具有很好的穩(wěn)健性。
分別采用模擬數(shù)據(jù)和實際數(shù)據(jù)分析,說明隨機森林回歸算法對噪聲具有很好的容忍度。
采用的模擬數(shù)據(jù)由以下非線性函數(shù)生成
y= 10sin(πx1x2)+20(x3-0.5)2+
10x4+5x5-7x6+3x7-2x8
(1)
式中x1~x8是由計算機生成的具有高斯分布的模擬數(shù)據(jù),其樣本點共計400個。對這8個變量分別加入信噪比為10∶1的高斯白噪聲,其中一個變量加入噪聲前、后的對比情況如圖1所示。
將變量x加噪前、后數(shù)據(jù)與y值分別組成樣本集,從樣本中選取3/4的數(shù)據(jù)作為訓練樣本,1/4數(shù)據(jù)作為測試樣本,利用訓練樣本分別建立不含噪與含噪模型,分別以加噪前、后的變量作為輸入數(shù)據(jù)預測函數(shù)值,實際值與預測值對比情況如圖2所示。
基于不含噪模型對不加噪數(shù)據(jù)和加噪數(shù)據(jù)進行預測,預測值與實際值的相關值分別為91.07%和92.90%。含噪模型對不加噪數(shù)據(jù)和加噪數(shù)據(jù)的預測,預測值與實際值的相關值分別為92.09%和91.23%。由以上分析可知,不含噪模型對噪聲具有很好的容忍性。但是當隨機森林模型的輸入數(shù)據(jù)受到噪聲污染時,預測過程中即使經過了去噪處理,預測結果依然包含大量的噪聲。
圖1 變量加噪前、后對比圖
圖2 實際值與預測值對比圖
采用公開的國外海上F3工區(qū)實際數(shù)據(jù)研究隨機森林在處理回歸問題中的容噪性,以預測結果能否有效刻畫儲層的地質特征作為評價標準。
F3是北海位于荷蘭部分的一個區(qū)塊,數(shù)據(jù)體上部1200ms內的反射層屬于中新統(tǒng)、上新統(tǒng)和更新統(tǒng)。地震剖面上有一個非常明顯的大型S型反射,是一個大型河控三角洲體系沉積體。工區(qū)內儲層孔隙度總體很高(0.20~0.30),從地震剖面上可以看到典型的下超、頂超、上超和削截構造現(xiàn)象,生物成因氣藏引起的亮點反射也清晰可見[24]。工區(qū)所有井中的孔隙度數(shù)據(jù)均由密度計算得到
(2)
F3工區(qū)演示數(shù)據(jù)體的原始地震數(shù)據(jù)體包含相當大的噪聲,適合于分析當輸入數(shù)據(jù)受到噪聲干擾情況下,隨機森林對噪聲的容忍度或穩(wěn)健性。
3.2.1 地震數(shù)據(jù)濾波前、后信噪比分析比較
F3演示數(shù)據(jù)體除了提供原始地震數(shù)據(jù)之外,還有由Opendtect軟件傾角控制模塊進行中值濾波去噪處理的數(shù)據(jù)體,濾波去噪前后地震剖面如圖3所示,可以看出經過濾波處理后,地震剖面上的同相軸更加清晰,更有利于解釋構造特征。在隨后的試驗分析中以原始地震數(shù)據(jù)作為含噪聲數(shù)據(jù),濾波處理后的地震數(shù)據(jù)作為去噪數(shù)據(jù)。傾角中值濾波是對地震數(shù)據(jù)做平滑處理,消除了其中的相關性較低的噪聲,信噪比得到提高,但分辨率有一定程度的降低[25,26]。
圖4為兩個數(shù)據(jù)體在層位(Demo6)切片上的平均信噪比,由SMI地震波形特征指示反演軟件分析獲得。圖中淺藍色曲線為SMI軟件分析信噪比的一系列控制點,可見濾波處理后大部分區(qū)域地震數(shù)據(jù)信噪比得到明顯提高,個別區(qū)域資料信噪比改善微弱。
圖3 去噪前(a)、后(b)地震剖面
圖4 去噪前(a)、后(b)地震數(shù)據(jù)信噪比分析結果
3.2.2 試驗方法及結果分析
將隨機森林回歸方法應用于地震儲層預測,提取F03-2井上的孔隙度數(shù)據(jù)作為預測的儲層特征參數(shù),并與對應的井旁道地震屬性組成390個原始樣本,孔隙度參數(shù)的極值為0.0568和0.3893,平均值為0.3192。地震數(shù)據(jù)中的亮點反射比較明顯,提取的地震屬性以振幅類為主,包括8種常見的地震屬性:平均絕對值振幅、平均振幅、均方根振幅、弧長、平均能量以及“三瞬”屬性。將孔隙度數(shù)據(jù)與含噪聲的地震屬性數(shù)據(jù)和去噪后的地震屬性數(shù)據(jù)分別組成兩個樣本集——含噪聲樣本集與不含噪聲樣本集。
從兩個樣本集中隨機提取3/4作為訓練樣本,用于構建隨機森林模型,剩下的1/4作為測試樣本檢驗泛化性能,決策樹設置為500棵,隨機特征選取個數(shù)設置為3,得到兩個隨機森林孔隙度預測模型,一個為含噪的隨機森林模型,一個為不含噪的隨機森林模型。將這兩個模型應用于含噪數(shù)據(jù)(原始地震數(shù)據(jù))和不含噪數(shù)據(jù)(中值濾波數(shù)據(jù)),就得到四個孔隙度預測結果。從含噪數(shù)據(jù)(原始地震數(shù)據(jù))和不含噪數(shù)據(jù)(中值濾波數(shù)據(jù))對應的層位(Demon6)切片中分別截取同一位置進行顯示(圖4),從孔隙度數(shù)據(jù)體中提取的層位(Demo6)切片如圖5所示。
圖6展示的是由含噪聲樣本建立的RF模型,分別使用濾波前、后的地震數(shù)據(jù)所提取的地震屬性為輸入,估算得到的兩個孔隙度數(shù)據(jù)。圖7是不含噪RF模型應用于濾波前、后的地震數(shù)據(jù)所提取的地震屬性,估算得到的兩個孔隙度數(shù)據(jù)體。
比較預測結果可知,這四個預測結果在橫向上所展示的孔隙度分布特點大致相似,均能有效地刻畫在該層位上發(fā)育的南北向分布的河道特征[27,28],同時孔隙度數(shù)值主要為0.25~0.35,與實際的孔隙度(主要為0.20~0.30)情況是符合的。結合圖4中的信噪比,可以看出在信噪比相對較高的區(qū)域,四個預測結果所刻畫的儲層特征是基本相同的,但在信噪比較低的區(qū)域,預測結果所反映的地質信息存在較大差異,由圖6和圖7可知導致出現(xiàn)差異的原因為所使用的模型樣本數(shù)據(jù)是否含有噪聲,表明樣本的模型訓練過程中輸入數(shù)據(jù)是否含有噪聲對預測結果影響較大,而在估算數(shù)據(jù)體的過程中地震屬性數(shù)據(jù)中是否含有噪聲對預測結果的干擾程度較小。
從地震剖面上分析,如圖8和圖9所示,可以看出RF模型的樣本數(shù)據(jù)是否含有噪聲對預測結果影響較大,圖中黑色線為層位Demo6,該層位處于前積反射、超覆構造的上部。比較圖8與圖9的預測結果可知,當?shù)卣饘傩詷颖緮?shù)據(jù)不含有噪聲時,預測結果更加符合實際情況,對F3工區(qū)的超覆現(xiàn)象刻畫效果更好,去噪模型的預測結果(圖9)分辨率有所降低,其原因在于所使用的濾波去噪方法為傾角中值濾波,提高信噪比的同時付出了降低分辨率的代價。
試驗結果表明輸入數(shù)據(jù)在隨機森林建模中起很重要的作用,訓練樣本的輸入數(shù)據(jù)受到噪聲污染時,輸出結果受到噪聲的影響較大,而在模型建立之后,估算數(shù)據(jù)體時地震屬性數(shù)據(jù)是否做了去噪處理對預測結果的影響較小,可知當對樣本的輸入數(shù)據(jù)做了濾波處理,即在建立的模型受到噪聲污染較少情況下,能表現(xiàn)出很好的容噪性。
圖5 去噪前(a)、后(b)地震數(shù)據(jù)層位切片
圖6 含噪模型對地震數(shù)據(jù)濾波前(a)、后(b)預測的孔隙度層位切片
圖7 不含噪模型對地震數(shù)據(jù)濾波前(a)、后(b)預測的孔隙度層位切片
圖8 含噪模型對地震數(shù)據(jù)濾波前(a)、后(b)預測的孔隙度剖面
通過F3工區(qū)實際數(shù)據(jù)的容噪性試驗分析,表明當訓練樣本的輸入數(shù)據(jù)不含噪時,隨機森林回歸算法具有很強的容噪性,在預測過程中隨機森林模型受噪聲干擾較小。當訓練樣本的輸入數(shù)據(jù)受噪聲污染時,即使在預測過程中進行去噪處理,地震儲層預測結果依然可能包含大量噪聲。容噪性試驗結果同時證明了隨機森林算法具有較強穩(wěn)健性,用于構建隨機森林模型的樣本數(shù)據(jù)在儲層預測中占據(jù)很重要地位;在模型建立之后進行預測時,隨機森林模型對異于樣本信息的數(shù)據(jù)具有較強的容忍度。因此采用隨機森林算法進行地震儲層預測時,關鍵是提取不含噪聲的樣本數(shù)據(jù)。