饒驍馳, 楊 昊, 喻 輝, 文 武, 周 航, 陳 敏
(1.成都信息工程大學(xué) 計(jì)算機(jī)學(xué)院,成都 610225;2.78111部隊(duì),成都 610011)
隨著勘探程度的增加,一些易于發(fā)現(xiàn)的油氣藏已勘探殆盡,深??碧健⒎浅R?guī)油氣藏勘探已逐步成為勘探熱點(diǎn)。十幾年前,人們主要關(guān)注儲(chǔ)層的研究,即儲(chǔ)層物性(主要是孔隙度)究竟如何,儲(chǔ)層厚度和范圍的大小等。常規(guī)的地震屬性分析、阻抗反演等方法在這些研究領(lǐng)域起了很大作用。近十年來,一些學(xué)者逐漸將目光轉(zhuǎn)向儲(chǔ)層內(nèi)流體的識(shí)別,油、氣、水的識(shí)別,這些研究目前已取得了很大地進(jìn)展,疊前反演、AVO分析、低頻伴影分析等技術(shù)相繼產(chǎn)生、發(fā)展。但隨著致密油、頁巖油等勘探領(lǐng)域逐漸進(jìn)入 人們的視野,一些新的需求隨之出現(xiàn)。相對(duì)于常規(guī)油氣藏,以上提到的這些非常規(guī)油氣藏孔隙度低、非均質(zhì)性強(qiáng)、流體粘滯性偏高、地震響應(yīng)特征不明顯。因此,僅憑借單一屬性、參數(shù)或方法進(jìn)行流體識(shí)別存在較大的不確定性,多屬性融合進(jìn)行流體識(shí)別是大勢(shì)所趨。
在儲(chǔ)層流體識(shí)別中傳統(tǒng)非機(jī)器學(xué)習(xí)方法限于效率低和工作量大,僅應(yīng)用于對(duì)有利區(qū)或目標(biāo)區(qū)的研究。同時(shí)不同的流體因子對(duì)不同區(qū)域儲(chǔ)層含流體的敏感程度表現(xiàn)不同,傳統(tǒng)非機(jī)器學(xué)習(xí)方法需要依靠人為干預(yù),因此人為主觀因素過多,干擾因素較多,不確定性強(qiáng)。
Fung[1](2001)在支持向量機(jī)(SVM)的基礎(chǔ)上提出了近似支持向量機(jī)(PSVM),該機(jī)器語言可以利用目標(biāo)體的多種屬性計(jì)算出反映該目標(biāo)體屬性特征的最優(yōu)規(guī)則。在對(duì)大數(shù)據(jù)訓(xùn)練集進(jìn)行處理時(shí),近似支持向量機(jī)在判別準(zhǔn)確度不低于支持向量機(jī)的前提下,在計(jì)算效率上具有明顯優(yōu)勢(shì),適合對(duì)具有海量數(shù)據(jù)特征的疊前地震資料進(jìn)行判別處理。
近年來,機(jī)器學(xué)習(xí)已被證明在工程中具有廣泛的用途(如金融領(lǐng)域、制造領(lǐng)域和零售領(lǐng)域),并且正在穩(wěn)步發(fā)展推進(jìn)到新的領(lǐng)域。氣象領(lǐng)域Han L等[2]利用機(jī)器學(xué)習(xí)進(jìn)行實(shí)時(shí)風(fēng)暴運(yùn)動(dòng)預(yù)測;視覺心理學(xué)領(lǐng)域,Robert M. French等[3]利用機(jī)器學(xué)習(xí)進(jìn)行視覺心理預(yù)測;生物學(xué)領(lǐng)域,Crozier T W M等[4]利用機(jī)器學(xué)習(xí)預(yù)測蛋白質(zhì)的構(gòu)成;地學(xué)領(lǐng)域,Vedangi Godse等[5]也利用機(jī)器學(xué)習(xí)預(yù)測地震活動(dòng)。
目前在儲(chǔ)層預(yù)測領(lǐng)域應(yīng)用比較廣泛的機(jī)器學(xué)習(xí)方法有支持向量機(jī)[6-8]、神經(jīng)網(wǎng)絡(luò)[9-12]、隨機(jī)森林[13]等方法。這些方法主要是通過從測井資料中提取揭示儲(chǔ)層特征的參數(shù)作為輸入?yún)?shù),利用這些智能方法建立多參數(shù)與儲(chǔ)層物性之間的映射關(guān)系,進(jìn)而開展儲(chǔ)層預(yù)測。但值得注意的是,目前這些方法在流體識(shí)別方面的應(yīng)用還較少見。為此,筆者充分比較了常見的幾種機(jī)器學(xué)習(xí)算法在流體識(shí)別中的應(yīng)用效果,最終選取了極端隨機(jī)樹方法(Extremely Randomized Trees)進(jìn)行流體識(shí)別,該方法具有幾個(gè)顯著特征:
1)數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的, 對(duì)于不平衡的數(shù)據(jù)集,可以平衡誤差。其他的技術(shù)要求先把數(shù)據(jù)標(biāo)準(zhǔn)化(如去掉多余的或者空白的屬性)。
2)易于理解和實(shí)現(xiàn),在學(xué)習(xí)過程中不需要使用者了解很多的背景知識(shí),能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),通過解釋后都有能力去理解決策樹所表達(dá)的意義。
3)易于通過靜態(tài)測試來對(duì)模型進(jìn)行評(píng)測,可以測定模型可信度。如果給定一個(gè)觀察的模型,則根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。
1.1.1 算法介紹
Geurts P等[14]提出ET或Extra-Trees(Extremely randomized trees,極端隨機(jī)樹方法)。根據(jù)經(jīng)典的自上而下的方法,極端隨機(jī)樹構(gòu)建了一系列“自由生長”的回歸樹集合。該方法中的每一棵回歸樹用的都是全部訓(xùn)練樣本,用{T(K,X,S)}表示。其中T表示最后的分類器模型,S為數(shù)據(jù)樣本集,K為基分類器的數(shù)量(基分類器數(shù)量根據(jù)所要區(qū)分的結(jié)果確定,其中基分類器數(shù)量為3,用以區(qū)分水層、氣層和油層)。每個(gè)基分類器根據(jù)輸入樣本X={x1,x2…,xn}產(chǎn)生預(yù)測結(jié)果,最終通過投票確定最后的分類類別。
1.1.2 算法實(shí)現(xiàn)
Step1:給點(diǎn)原始樣本數(shù)據(jù)集S,樣本數(shù)量為N,特征數(shù)量為M,在極端隨機(jī)樹的分類模型中,每個(gè)基分類器都使用全部的樣本進(jìn)行訓(xùn)練。
Step2:基于訓(xùn)練數(shù)據(jù)集生成決策樹,生成的決策樹要盡量大。
選擇具有最小Gain_GINI的屬性及其屬性值,作為最優(yōu)分裂屬性以及最優(yōu)分裂屬性值。Gain_GINI值越小,說明二分之后的子樣本的“純凈度”越高,即說明選擇該屬性(值)作為分裂屬性(值)的效果越好。
GINI計(jì)算如下[15]:
(1)
其中,Pk表示分類結(jié)果中第k個(gè)類別出現(xiàn)的頻率(數(shù)量在所有樣本中所占的比例)。
對(duì)于含有N個(gè)樣本的樣本數(shù)據(jù)集S,根據(jù)屬性A的第i個(gè)屬性值,將樣本數(shù)據(jù)集S劃分成兩部分,則劃分成兩部分之后,Gain_GINI計(jì)算如下[14]:
(2)
其中:n1、n2分別為樣本子集S1、S2的樣本個(gè)數(shù)。
對(duì)于屬性A,分別計(jì)算任意屬性值將數(shù)據(jù)集劃分成兩部分之后的Gain_GINI,選取其中的最小值,作為屬性A得到的最優(yōu)二分方案:
min(Gain_GINIA,i(S1))
(3)
對(duì)于樣本集S,計(jì)算所有屬性的最優(yōu)二分方案,選取其中的最小值,作為樣本集S的最優(yōu)二分方案:
(4)
所得到的屬性A及其第i屬性值,即為樣本集S的最優(yōu)分裂屬性以及最優(yōu)分裂屬性值。
Step3:用驗(yàn)證數(shù)據(jù)集對(duì)已生成的樹進(jìn)行剪枝并選擇最優(yōu)子樹,這時(shí)損失函數(shù)最小作為剪枝的標(biāo)準(zhǔn)。
從原始決策樹T0開始生成第一個(gè)子樹序列{T0,T1,...,Tn},其中Ti+1從Ti產(chǎn)生,Tn為根節(jié)點(diǎn)。在剪枝的過程中,計(jì)算損失函數(shù)[14]:
Cα(T)=C(T)+α|T|
(5)
α≥0,C(T) 為訓(xùn)練數(shù)據(jù)的預(yù)測誤差,|T|為模型的復(fù)雜度。
將α在其取值空間內(nèi)劃分為一系列區(qū)域,在每個(gè)區(qū)域都取一個(gè)α然后得到相應(yīng)的最優(yōu)樹,最終選擇損失函數(shù)最小的最優(yōu)樹。
在選出α之后,計(jì)算該α對(duì)應(yīng)的使損失函數(shù)最小的子樹。即從樹的根節(jié)點(diǎn)出發(fā),逐層遍歷每個(gè)內(nèi)部節(jié)點(diǎn),計(jì)算每個(gè)內(nèi)部節(jié)點(diǎn)處是否需要剪枝。
Step4:重復(fù)執(zhí)行Step 1、Step 2和Step3迭代K次,生成K棵決策樹,生成極端隨機(jī)樹。
Step5:將生成的極端隨機(jī)樹使用測試樣本生成預(yù)測結(jié)果,將所有基分類器的預(yù)測結(jié)果進(jìn)行統(tǒng)計(jì),經(jīng)過投票決策的方法產(chǎn)生最終的分類結(jié)果。
1.2.1 BP神經(jīng)網(wǎng)絡(luò)
BP算法是一種最有效的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,其主要特點(diǎn)是信號(hào)前向傳遞,而誤差后向傳播,通過不斷調(diào)節(jié)網(wǎng)絡(luò)權(quán)重值,使得網(wǎng)絡(luò)的最終輸出與期望輸出盡可能接近,以達(dá)到訓(xùn)練的目的。其優(yōu)點(diǎn)是:①并行分布處理能力強(qiáng),分布存儲(chǔ)及學(xué)習(xí)能力強(qiáng);②具備聯(lián)想記憶的功能;③對(duì)噪聲數(shù)據(jù)魯棒性和容錯(cuò)性較強(qiáng);④能逼近任意非線性關(guān)系。
神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值。不能觀察之間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會(huì)影響到結(jié)果的可信度和接受程度。學(xué)習(xí)時(shí)間過長,甚至可能達(dá)不到學(xué)習(xí)的目的。
1.2.2 支持向量機(jī)(SVM)
支持向量機(jī)是Vapnik等[16]在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出的一種采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的新的學(xué)習(xí)方法。 相對(duì)于傳統(tǒng)采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法,支持向量機(jī)具有更強(qiáng)的泛化能力。由于支持向量機(jī)是一個(gè)凸二次優(yōu)化問題,所以它可以找到作為全局最優(yōu)解的極值解。支持向量機(jī)可以用于對(duì)目標(biāo)工區(qū)的判別分類。
此方法的優(yōu)點(diǎn)是可用于線性/非線性分類,也可以用于回歸,泛化錯(cuò)誤率低,計(jì)算開銷不大,結(jié)果容易解釋??梢越鉀Q小樣本情況下的機(jī)器學(xué)習(xí)問題,高維問題,避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問題。缺點(diǎn)是對(duì)缺失數(shù)據(jù)敏感,對(duì)于類域的交叉或重疊較多的待分樣本集較難分類。
1.2.3 K最近鄰(KNN)
KNN是通過測量不同特征值之間的距離進(jìn)行分類。它的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。其中k通常是不大于20的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。
此方法的優(yōu)點(diǎn)是簡單、有效,重新訓(xùn)練的代價(jià)較低。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類。其缺點(diǎn)是樣本不平衡時(shí),預(yù)測偏差比較大(即某一類的樣本比較少,而其它類樣本比較多)。計(jì)算量大,每一次分類都會(huì)重新進(jìn)行一次全局運(yùn)算。
1.3 極端隨機(jī)樹的優(yōu)點(diǎn)
極端隨機(jī)樹不同于傳統(tǒng)機(jī)器學(xué)習(xí)方法,它對(duì)于數(shù)據(jù)的準(zhǔn)備工作較為簡單甚至不是必要的,極端隨機(jī)樹不需要預(yù)處理數(shù)據(jù),并且在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。各種機(jī)器學(xué)習(xí)方法對(duì)比如表1所示[17]。
表1 常用機(jī)器學(xué)習(xí)方法對(duì)比
神經(jīng)網(wǎng)絡(luò)方法在進(jìn)行調(diào)參時(shí)需要調(diào)整網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值、學(xué)習(xí)率、迭代次數(shù)等參數(shù),調(diào)參過程較為復(fù)雜。支持向量機(jī)調(diào)參時(shí)需要考慮懲罰系數(shù)、核函數(shù)、核函數(shù)系數(shù)等參數(shù)。K最近鄰方法在調(diào)整參數(shù)時(shí)需要考慮選取幾個(gè)鄰居、鄰居權(quán)值、距離等參數(shù)。而極端隨機(jī)樹只需要調(diào)整好合適的最大迭代次數(shù)就可以了,因此是一種簡單有效的分類方法。
研究區(qū)域位于南海某油氣田,儲(chǔ)層巖性是砂巖,上方覆蓋為泥巖,地質(zhì)資料顯示該地區(qū)為淺海三角洲沉積。儲(chǔ)層的層系為珠江組,巖石物理試驗(yàn)的儲(chǔ)層平均孔隙度為17.41%, 平均滲透率為 80 mD,平均密度為 2.17 g/cm2,總體而言儲(chǔ)層的物性較好。其中井A 和井C 在目的層頂部鉆遇氣層,井B在目的層鉆遇含水層。為了檢驗(yàn)方法的有效性,我們首先利用A井、B井的測井?dāng)?shù)據(jù)進(jìn)行分析,優(yōu)選方法并建立訓(xùn)練集,C井留作驗(yàn)證井。表2為井A、井B和井C的測井解釋表[18]。
表2 研究區(qū)鉆井的測井解釋表Tab.2 Log interpretation table of drilling in the study area
CPU: intel core i7-7700k 4.4G;內(nèi)存: 4X8G;顯示卡: 兩個(gè)NV GTX 1070;硬盤: HDD一個(gè), SSD兩個(gè)。
模型設(shè)計(jì)流程見圖1。
圖1 模型設(shè)計(jì)流程Fig.1 Model design filow
2.4.1 均方誤差
(6)
2.4.2 錯(cuò)誤率
當(dāng)數(shù)據(jù)重疊較多的時(shí)候,很難從均方誤差來分辨算法的效果,因此引入了錯(cuò)誤率(error rate)配合度量。錯(cuò)誤率是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。錯(cuò)誤率是使用最普遍、最簡單同時(shí)又是最直接的分類指標(biāo)。其計(jì)算方法為[19]:
設(shè)測試樣本集T={(x1,y1),…(xn,yn)},其中xn為該樣本i的輸入特征,yi為樣本的真實(shí)標(biāo)簽。
T的預(yù)測結(jié)果:pyn={py1,py2,…,pyn},其中pyi表示模型對(duì)T中第i個(gè)樣本的預(yù)測結(jié)果。
(7)
對(duì)比極端隨機(jī)樹與傳統(tǒng)的機(jī)器學(xué)習(xí)算法分類預(yù)測的效果。筆者主要利用了泊松比(σ)、高靈敏度流體識(shí)別因子(high sensitive fluid identification factor,HSFIF)、流體屬性(Mobility Attribution,MA)對(duì)流體進(jìn)行識(shí)別。
1)泊松比[20]:
(8)
式中:σ為泊松比;λ為拉梅常數(shù);μ為剪切模量,泊松比屬于波阻抗量綱的零次方類流體識(shí)別因子。大量的研究和應(yīng)用表明,泊松比對(duì)儲(chǔ)層的含氣性有很好的響應(yīng),在相同的孔隙度的情況下,當(dāng)砂巖儲(chǔ)層含氣時(shí),泊松比可以從0.3~0.4左右降至0.1左右,而自然界中的巖石泊松比變化范圍在0~0.5之間,所以泊松比經(jīng)常被應(yīng)用于含氣儲(chǔ)層的識(shí)別與刻畫中。
2)高靈敏度流體識(shí)別因子:
(9)
(10)
式(10)將波阻抗量綱的零次方類與流體屬性的優(yōu)點(diǎn)結(jié)合起來,突出了縱波阻抗IP的作用。
3)流體屬性:
(11)
式(11)由Russell等[22]提出,式(11)中的f代表Gassman方程中的流體因子項(xiàng),C為調(diào)節(jié)參數(shù)。
對(duì)評(píng)價(jià)結(jié)果進(jìn)行研究,將屬性兩兩組合進(jìn)行計(jì)算并顯示。
1)高靈敏度流體識(shí)別因子與泊松比交會(huì)分析。
數(shù)據(jù)來自井A、井B的目的層段。從表3及圖2的結(jié)果顯示可以看出,對(duì)于本類數(shù)據(jù)集合極端隨機(jī)樹的預(yù)測結(jié)果較其他幾種方法優(yōu)秀。支持向量機(jī)、最近鄰方法對(duì)這類數(shù)據(jù)集錯(cuò)誤率很高。而神經(jīng)網(wǎng)絡(luò)則達(dá)不到預(yù)測要求,原因主要在于原始數(shù)據(jù)中不同特征屬性的度量單位不一樣,相比較而言,極端隨機(jī)樹算法具有較強(qiáng)的魯棒性。
圖2 基本方法Fig.2 Basic method
表3 4種方法結(jié)果比較
對(duì)數(shù)據(jù)進(jìn)行正態(tài)化處理,將訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換處理,所有的數(shù)據(jù)特征值轉(zhuǎn)化成“0”為中位值、標(biāo)準(zhǔn)差為“1”的數(shù)據(jù)。數(shù)據(jù)優(yōu)化結(jié)果如表4、圖3所示。
圖3 正態(tài)化數(shù)據(jù)Fig.3 Normalized data
表4 正態(tài)化數(shù)據(jù)后結(jié)果比較
通過對(duì)于數(shù)據(jù)進(jìn)行正態(tài)化處理以后,可以看出,支持向量機(jī)方法和神經(jīng)網(wǎng)絡(luò)方法效果得到了明顯地提升,極端隨機(jī)樹的效果盡管提升不明顯,但其分類結(jié)果仍然優(yōu)于其他幾種方法(表5)。
表5 算法調(diào)參優(yōu)化后結(jié)果比較
表6 流體屬性與泊松比交會(huì)分析算法優(yōu)化后結(jié)果比較
表7 高靈敏度流體識(shí)別因子與流體屬性交會(huì)分析優(yōu)化結(jié)果比較Tab.7 Comparison of optimization results of high-sensitivity fluid identification factor and fluid attribute intersection analysis
對(duì)這些方法進(jìn)行調(diào)參優(yōu)化。從圖4可以看出,當(dāng)?shù)螖?shù)大于20次后,誤差基本接近穩(wěn)定,迭代34次后,極端隨機(jī)樹方法達(dá)到最優(yōu)解。后續(xù)均方誤差在(-0.158~ -0.172)附近震蕩,錯(cuò)誤率在(0.15~0.175)附近震蕩,將34設(shè)置為本類數(shù)據(jù)應(yīng)用極端隨機(jī)樹分類的最終迭代次數(shù)。
圖4 極端隨機(jī)樹迭代變化Fig.4 Extreme random tree iterative change
圖5 優(yōu)化后高靈敏度流體識(shí)別因子與泊松比交會(huì)分析Fig.5 Intersection analysis of optimized high sensitivity fluid identification factor and Poisson's ratio
圖6 高靈敏度流體識(shí)別因子與泊松比分析真實(shí)結(jié)果Fig.6 Real result of high sensitivity fluid identification factor and Poisson's ratio analysis
通過與正確分類結(jié)果比較可以看出,使用極端隨機(jī)樹算法不需要進(jìn)行數(shù)據(jù)歸一化和參數(shù)優(yōu)化,就可以得到很好的預(yù)測效果,同時(shí)優(yōu)化后結(jié)果依然優(yōu)于其他方法。
2)流體屬性與泊松比交會(huì)分析。前面分析可以看出,極端隨機(jī)樹算法在沒有進(jìn)行數(shù)據(jù)正態(tài)化處理和參數(shù)優(yōu)化前,效果明顯優(yōu)于其他幾種方法,對(duì)各個(gè)方法的最終優(yōu)化結(jié)果進(jìn)行分析,比較幾種方法的預(yù)測效果。
從圖7可以看出,迭代次數(shù)大于20次后,誤差基本穩(wěn)定,通過迭代36次,極端隨機(jī)樹方法達(dá)到最優(yōu)解。后續(xù)均方誤差在(-0.131~ -0.148)附近震蕩,錯(cuò)誤率在(0.12~0.14)附近震蕩,將36設(shè)置為本類數(shù)據(jù)應(yīng)用極端隨機(jī)樹分類的最終迭代次數(shù)。
圖7 流體屬性與泊松比交會(huì)分析迭代變化Fig.7 Iterative variation of fluid properties and Poisson's ratio intersection analysis
從圖9與圖8可以看出,極端隨機(jī)樹效果優(yōu)于其他幾種方法。
圖8 算法優(yōu)化后流體屬性與泊松比交會(huì)分析Fig.8 Intersection analysis of fluid properties and Poisson's ratio after algorithm optimization
圖9 流體屬性與泊松比交會(huì)分析真實(shí)結(jié)果Fig.9 Real results of intersection analysis of fluid properties and poisson's ratio
3)高靈敏度流體識(shí)別因子與流體屬性交會(huì)數(shù)據(jù)。從圖10中可以看出,通過迭代81次,極端隨機(jī)樹方法達(dá)到最優(yōu)解。為了簡化計(jì)算過程,也可以將迭代36次的次最優(yōu)解設(shè)置為最優(yōu)解,與最終結(jié)果差距不大。均方誤差在(-0.27~ -0.30)附近震蕩,錯(cuò)誤率在(0.208~0.232)附近震蕩,將36設(shè)置為極端隨機(jī)樹的最終迭代次數(shù)。
圖10 高靈敏度流體識(shí)別因子與流體屬性交會(huì)分析迭代變化Fig.10 Iterative changes in intersection analysis of high sensitivity fluid identification factors and fluid attributes
通過圖12與圖11的比較可以看出,盡管支持向量機(jī)通過參數(shù)優(yōu)化,可以保證均方誤差達(dá)到較優(yōu)的值,但最終準(zhǔn)確率上未能超過極端隨機(jī)樹算法。通過以上測試可以看出,極端隨機(jī)樹算法在一些類域的交叉或重疊較多的待分樣本集分類有較明顯的優(yōu)勢(shì),且實(shí)現(xiàn)簡單,因此選擇極端隨機(jī)樹作為本研究的數(shù)據(jù)分類方法。
圖11 算法優(yōu)化后高靈敏度流體識(shí)別因子與流體屬性交會(huì)數(shù)據(jù)Fig.11 High sensitivity fluid identification factor and fluid attribute intersection data after algorithm optimization
圖12 高靈敏度流體識(shí)別因子與流體屬性交會(huì)數(shù)據(jù)真實(shí)結(jié)果Fig.12 High sensitivity fluid identification factor and real results of fluid attribute intersection data
將高靈敏度流體識(shí)別因子、泊松比、流體屬性作為學(xué)習(xí)因子,流通屬性作為預(yù)測因子,以井A、井B數(shù)據(jù)為訓(xùn)練數(shù)據(jù),井C數(shù)據(jù)為最終的驗(yàn)證數(shù)據(jù),應(yīng)用極端隨機(jī)樹方法進(jìn)行學(xué)習(xí)(表8)。
表8 樣本訓(xùn)練結(jié)果比較
表9 實(shí)例預(yù)測結(jié)果比較
從圖13可以看出,與前面2維參數(shù)類似,3屬性數(shù)據(jù)通過迭代36次可以達(dá)到最優(yōu)解,將36設(shè)置為極端隨機(jī)樹的最終迭代次數(shù),確定為最終模型,部署后應(yīng)用于最終實(shí)例。
圖13 樣本訓(xùn)練迭代變化Fig.13 Sample training iteration changes
圖14~圖18分別為原始地震剖面、近似支持向量機(jī)分類剖面、神經(jīng)網(wǎng)絡(luò)分類剖面、KNN分類剖面、極端隨機(jī)數(shù)分類剖面,比較四幅圖可以發(fā)現(xiàn),原始剖面、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)分類剖面根本無法區(qū)分氣層與水層,KNN分類方法中氣層與水層有一定差異,但差異不明顯,而引入的極端隨機(jī)數(shù)分類能很好地區(qū)分出氣層和水層。
圖14 原始地震剖面Fig.14 Primary seismic profile
圖15 神經(jīng)網(wǎng)絡(luò)分類剖面Fig.15 Neural network classification profile
圖16 支持向量機(jī)分類剖面Fig.16 Classification profile of support vector machine
圖17 K最近鄰分類剖面Fig.17 K nearest neighbor classification profile
圖18 極端隨機(jī)數(shù)分類剖面Fig.18 Extreme random number classification profile
以上結(jié)果可以得出,在實(shí)際儲(chǔ)層的氣-水劃分、氣-水-油劃分中,采用基于極端隨機(jī)數(shù)的方法,對(duì)流體識(shí)別因子融合所劃分的含氣層、含水層、含油層,都與測井資料一一對(duì)應(yīng),但其他方法在做此區(qū)域的流體識(shí)別時(shí)會(huì)存在一定的不確定性,所以極端隨機(jī)數(shù)所刻畫的儲(chǔ)層流體性質(zhì)更加準(zhǔn)確。從實(shí)例準(zhǔn)確率分析數(shù)據(jù)及分類剖面圖可以看出,極端隨機(jī)數(shù)分類能很好地區(qū)分出氣層和水層。
在流體識(shí)別領(lǐng)域引入了一種有效的機(jī)器學(xué)習(xí)方法——極端隨機(jī)數(shù),本方法對(duì)于一些類域的交叉或重疊較多的待分樣本集分類有較明顯的優(yōu)勢(shì),與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比較,極端隨機(jī)樹對(duì)于數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的,不需要預(yù)處理數(shù)據(jù),并且在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。通過實(shí)例測試,可以看出本方法不僅部署簡單,對(duì)于流體識(shí)別也有很好的效果。