方全全,曹軍,張國(guó)強(qiáng),許吉俊,任宏
1.中海油能源發(fā)展股份有限公司工程技術(shù)分公司(天津 300451)
2.中海石油(中國(guó))有限公司天津分公司工程技術(shù)作業(yè)中心(天津 300451)
渤中34-9油田表現(xiàn)為一個(gè)復(fù)雜斷塊構(gòu)造,位于黃河口凹陷中洼南部斜坡帶上,在明化鎮(zhèn)組、東營(yíng)組和沙河街組形成了大型復(fù)雜斷塊圈閉群。已鉆井揭示了在沙河街組與東營(yíng)組存在多期火山活動(dòng),該區(qū)鉆遇的火成巖分布廣泛但不連續(xù),巖石類型多樣。其中又以玄武巖、安山巖、沉凝灰?guī)r等中-基性火成巖與火山碎屑巖最為典型。此外,在油田開發(fā)過程中廣泛采取隨鉆4 條線(自然伽馬、電阻率、中子、密度)的測(cè)井方式錄取測(cè)井資料[1-2],實(shí)現(xiàn)了全區(qū)測(cè)井?dāng)?shù)據(jù)的可對(duì)比性與標(biāo)準(zhǔn)化。常規(guī)任取2條測(cè)井曲線(如伽馬、密度)進(jìn)行兩兩交會(huì)的方式劃分火成巖巖性精度較差,故有必要對(duì)該區(qū)進(jìn)行多參數(shù)綜合分析巖性評(píng)價(jià)。
線性判別分析(LDA)與K最近鄰(KNN)方法是當(dāng)前比較流行的監(jiān)督式機(jī)器學(xué)習(xí)方法[3-4]。劉得芳等應(yīng)用決策樹方法提高了利用單一信息判別的準(zhǔn)確性[5],張銀德等結(jié)合測(cè)井資料和試采資料利用支持向量機(jī)方法準(zhǔn)確識(shí)別了油、氣、水層[6],展示了機(jī)器學(xué)習(xí)方法在油氣勘探的巨大潛力。通過對(duì)目標(biāo)區(qū)5口評(píng)價(jià)井的隨鉆測(cè)井?dāng)?shù)據(jù)進(jìn)行多元線性判別分析,4條測(cè)井曲線降維至平面坐標(biāo)系,建立了二維可視化巖性識(shí)別圖版。另外通過與KNN 分類模型的結(jié)合,減少了歐式距離計(jì)算量并提高了分類模型的準(zhǔn)確性,取得了良好的應(yīng)用效果。
線性判別分析(LDA)是一種常用的判別、分類的多元統(tǒng)計(jì)方法,其基本原理是使用統(tǒng)計(jì)學(xué)及機(jī)器學(xué)習(xí)方法,在多維特征空間中尋找物體或事件特征的最佳線性組合,即空間投影向量[7]。該投影向量能夠特征化或區(qū)分樣本數(shù)據(jù),作為一個(gè)線性分類器將待分類的對(duì)象與已知類型的對(duì)象進(jìn)行對(duì)比,根據(jù)最大隸屬原則劃分待判對(duì)象的歸屬。
KNN方法的基本思路是:事先給定常數(shù)K(通常為奇數(shù)),在特征空間中如果距離待分類樣本最近的K個(gè)樣本中的大多數(shù)屬于某一個(gè)類別,則該待分類樣本也屬于這個(gè)類別[8]。
通過前期研究,收集BZ34-9區(qū)塊5口評(píng)價(jià)井并統(tǒng)計(jì)了鉆遇的厚層、典型的與火山成因相關(guān)的巖層如下:沉凝灰?guī)r、玄武巖、安山巖、凝灰質(zhì)砂巖、凝灰質(zhì)泥巖、玄武質(zhì)泥巖。對(duì)于后3種砂泥巖,結(jié)合常規(guī)巖屑錄井與測(cè)井響應(yīng)特征區(qū)分度高,能夠很好識(shí)別。故篩選出沉凝灰?guī)r、玄武巖、安山巖共計(jì)3 258個(gè)數(shù)據(jù)樣本(其中1 927個(gè)沉凝灰?guī)r樣本,1 100個(gè)玄武巖樣本,232 個(gè)安山巖樣本),將每個(gè)樣本寫成向量形式x=[x1,x2,x3,x4],x1~x4分別表示樣本的4個(gè)特征,(自然伽馬、電阻率、中子、密度),樣本數(shù)據(jù)見表1。預(yù)處理階段對(duì)原始4 條線的測(cè)井?dāng)?shù)據(jù)做歸一化處理,歸一化公式見式(1)[9]。歸一化前、后的樣本數(shù)據(jù)統(tǒng)計(jì)指標(biāo)見表2。
表1 基于隨鉆4條線測(cè)井?dāng)?shù)據(jù)構(gòu)建的樣本數(shù)據(jù)集
表2 樣本數(shù)據(jù)基本統(tǒng)計(jì)指標(biāo)
線性判別分析的目標(biāo)是在特征空間中尋找最能把各類樣本區(qū)分開的投影向量,這要求投影后的同類樣本簇更聚集和緊湊,且不同類別的樣本簇之間盡可能遠(yuǎn)離。統(tǒng)計(jì)學(xué)中用類間散度(Sb)描述不同類別樣本簇之間的遠(yuǎn)離或區(qū)分程度,用類內(nèi)散度(Sw)描述同類別樣本簇之間的聚集程度。根據(jù)樣本類間散度和樣本類內(nèi)散度的比值(Sw-1×Sb)最大的目標(biāo)選擇線性變換矩陣W[10]。對(duì)目標(biāo)矩陣Sw-1×Sb進(jìn)行特征值分解,選取較大的特征值對(duì)應(yīng)的特征向量即為做投影的線性變換矩陣W。以常見的c分類問題(c≥2)定義Sb、Si和Sw矩陣分別為:
式中:N表示總樣本數(shù);μi表示第i類樣本的均值,μ為總樣本均值;Ni為第i類的樣本數(shù);xik為第i類的第k個(gè)樣本;c表示類別數(shù);Si為第i類樣本的類內(nèi)散度。從公式上看散度的定義與協(xié)方差矩陣的效果一致:協(xié)方差越大表明樣本越分散,類間或類內(nèi)散度也越大。
KNN 所選擇的距離最近樣本是已經(jīng)正確分類的對(duì)象,根據(jù)最鄰近的K個(gè)樣本的類別來決定待分樣本所屬的類別,這是一種多數(shù)表決的分類決策規(guī)則,在最優(yōu)化理論中多數(shù)表決規(guī)則等價(jià)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,也即模型的誤分類率最小[11]。通常使用歐幾里得距離作為樣本之間距離的衡量指標(biāo),n維空間中樣本xi到樣本xj的歐式距離定義如下:
式中:xik指樣本xi的第k個(gè)維度(特征)。實(shí)踐中K取奇數(shù),避免出現(xiàn)K個(gè)樣本中恰有的樣本隸屬于不同類別而無法分類決策。由于KNN 方法主要依賴周圍有限的K個(gè)鄰近的樣本,避免了依靠判別類域的方法來確定所屬類別,因此對(duì)于類域的交叉或重疊較多的待分樣本集,KNN方法效率更高。KNN主要步驟如下:
1)將總體樣本劃分為訓(xùn)練樣本(帶類標(biāo)簽)與測(cè)試樣本(未知所屬類別)。
2)對(duì)于每個(gè)待測(cè)試樣本,根據(jù)式(5)計(jì)算其到每個(gè)訓(xùn)練樣本的距離。
3)選擇距離最近的K個(gè)訓(xùn)練樣本,并分別統(tǒng)計(jì)K個(gè)樣本中屬于各類的個(gè)數(shù)。
4)K個(gè)樣本中出現(xiàn)最多的類別決定了該測(cè)試樣本所屬類別。
使用開源軟件python的numpy庫(kù)和pandas庫(kù)對(duì)3 258 個(gè)樣本歸一化后的數(shù)據(jù)樣本進(jìn)行判別分析。總樣本具有4 個(gè)維度(每條測(cè)井曲線看作一個(gè)維度)。由線性判別分析的基本原理可知:對(duì)于劃分N類的情況,線性判別分析處理之后可將數(shù)據(jù)降至N-1維度。本文區(qū)分3類巖性,因此經(jīng)線性判別分析處理后樣本數(shù)據(jù)呈現(xiàn)2 維特征,可以利用交會(huì)圖的形式呈現(xiàn)分類效果。
使用numpy 包的np.linalg.svd 函數(shù)對(duì)目標(biāo)矩陣Sw-1×Sb做特征值分解,取非零特征值對(duì)應(yīng)的特征向量組成投影向量記作B,將沉凝灰?guī)r、玄武巖、安山巖對(duì)應(yīng)的歸一化后的測(cè)井?dāng)?shù)據(jù)以此投影向量做線性變換(X×B,X為3 258 行/4 列,B為2 行/4 列),原始的4維測(cè)井?dāng)?shù)據(jù)降至2維,記為B1,B2,見表3。其中GR,RT,CN,DEN 分別表示預(yù)處理后的自然伽馬、電阻率、中子與密度值。
表3 線性判別降維結(jié)果
以B1,B2 分別作為橫、縱坐標(biāo)繪制2 維可視化解釋圖版(圖1)。在圖1 中,3 類巖性區(qū)分度很高,安山巖最易于區(qū)分開來,玄武巖與沉凝灰?guī)r利用設(shè)定B2閾值的方式也能很好區(qū)分,但閾值兩側(cè)仍存在一些誤分類點(diǎn),這是由于在巖性界面測(cè)井曲線突變或劇烈波動(dòng)造成的,針對(duì)這種現(xiàn)象,有必要通過KNN方法將分類距離定量化,消除閾值設(shè)置的主觀性與不確定性。
圖1 線性判別二維可視化圖版
K 近鄰方法需要對(duì)樣本數(shù)據(jù)做貼標(biāo)簽處理:首先將樣本數(shù)據(jù)劃分為訓(xùn)練集與測(cè)試集,見表4。在給定的訓(xùn)練數(shù)據(jù)集(已知類標(biāo)簽),對(duì)于新輸入的實(shí)例(測(cè)試樣本,待分類)在數(shù)據(jù)集中找到與該實(shí)例最近鄰的K個(gè)實(shí)例,以K個(gè)實(shí)例中的多數(shù)類別賦予待分類實(shí)例。對(duì)于歐式距離的計(jì)算,分別在兩種空間維度上進(jìn)行:方式1,4 維空間上使用原始4 條線測(cè)井?dāng)?shù)據(jù)(預(yù)處理后);方式2,2 維空間上使用判別分析投影后的B1 和B2。相較于前者,后者的距離計(jì)算能節(jié)省一半的計(jì)算量,這也體現(xiàn)了將線性判別分析與KNN方法融合的一項(xiàng)優(yōu)勢(shì)。
表4 數(shù)據(jù)集構(gòu)建方式
將兩種維度空間上的距離計(jì)算分別代入KNN原理步驟1,綜合考慮計(jì)算時(shí)效與精度實(shí)踐,取K=5(即只觀察距離待分類樣本最近的5個(gè)樣本),3種巖性類別分別賦予類別標(biāo)簽:“1=玄武巖,2=沉凝灰?guī)r,3=安山巖”,最后畫出桿狀圖顯示分類結(jié)果,如圖2所示。
圖2 兩種方式KNN分類結(jié)果對(duì)比
由圖2 可見,KNN 分類模型在類1、類3 識(shí)別準(zhǔn)確率很高,即可以較好地區(qū)分玄武巖與安山巖,錯(cuò)誤分類主要集中在類2(沉凝灰?guī)r)的識(shí)別上,具體分類結(jié)果與分類評(píng)價(jià)指標(biāo)見表5。
表5 兩種方式分類效果
對(duì)比兩種方式下模型分類能力的主要評(píng)價(jià)指標(biāo),結(jié)果顯示,以自然伽馬、電阻率、中子、密度4 條線預(yù)處理的測(cè)井?dāng)?shù)據(jù)作為KNN模型的輸入(方式1)其分類正確率為90.36%;而以線性判別分析后的數(shù)據(jù)B1,B2作為KNN模型輸入(方式2)其分類正確率為92.50%。綜合分類正確率與召回率兩個(gè)評(píng)價(jià)指標(biāo),方式2 的分類模型優(yōu)于方式1,且方式2 的分類模型減少了歐式距離的計(jì)算量。
1)多元線性判別方法克服了常規(guī)多參數(shù)火成巖巖性識(shí)別的局限性與多解性。本文建立的基于線性判斷分析火成巖分類交會(huì)圖版有助于現(xiàn)場(chǎng)利用隨鉆測(cè)井?dāng)?shù)據(jù)快速、準(zhǔn)確識(shí)別巖性。
2)融合LDA 與KNN 技術(shù)建立了區(qū)塊火成巖的分類模型,模型分類正確率達(dá)到92.50%,在降低原始KNN 模型距離計(jì)算量的同時(shí)提高了巖性分類準(zhǔn)確率。
3)KNN模型中的K值選取則依賴經(jīng)驗(yàn)。K值很大會(huì)增加計(jì)算量同時(shí)造成模型的欠擬合;K值太小會(huì)造成模型的過擬合。最后,不同機(jī)器學(xué)習(xí)方法的適用環(huán)境與應(yīng)用目的側(cè)重不同,需要結(jié)合問題有針對(duì)性地設(shè)計(jì)模型,通過有機(jī)地融合機(jī)器學(xué)習(xí)的不同方法建立高效、穩(wěn)定、泛化能力強(qiáng)的模型是今后應(yīng)用的一個(gè)重要方向。
石油工業(yè)技術(shù)監(jiān)督2024年4期