余秋均
(中國石油遼河油田分公司勘探開發(fā)研究院,遼寧盤錦 124010)
巖性識別是地質(zhì)研究的重要內(nèi)容,對于沉積相刻畫、儲層特征研究、儲層預測和地質(zhì)建模等均具有重要意義,如何綜合利用多種資料來實現(xiàn)巖性快速、高效識別,一直是油藏地質(zhì)工作者關心的課題。通常的做法是基于錄井、巖心等地質(zhì)資料,結(jié)合理論圖版對關鍵井的巖性進行人工劃分,然后通過多參數(shù)交會圖分析確定不同巖性的測井響應特征,建立巖性識別圖版及定量解釋標準,進而對未取心井進行巖性判別。該方法能夠較好地進行大的巖類區(qū)分,但對于較為精細的巖性識別存在困難,尤其對于復雜巖性,識別界限模糊、識別率低,且在測井讀值、圖版制作及定量判別標準建立等方面工作量也較大?;贛RGC(Multi–Resolution Graph–Based Clustering)聚類的測井相分析和巖性識別方法,是通過MRGC多分辨率聚類方法實現(xiàn)測井相的自動劃分及優(yōu)選,利用巖相刻度測井相來建立巖性識別模型,并通過KNN(K-Nearest Neighbor)算法傳播器將模型快速推廣至關鍵井以外的所有井,從而能夠在短時間內(nèi)完成多口井的巖性解釋,幫助地質(zhì)人員快速獲得地層巖性縱向發(fā)育情況和橫向展布特征等信息,為下一步的各類地質(zhì)研究奠定基礎。
MRGC是在吸收了KNN算法和圖論算法優(yōu)點的基礎上提出的一種非監(jiān)督的聚類算法[1]。該方法中有兩個重要參數(shù),分別是近鄰指數(shù)NI(Neighbor Index)和核心代表指數(shù)KRI(Kernel Representative Index),將樣本集看成是具有吸引關系的吸引集,近鄰指數(shù)NI表示一個樣本點對吸引集中其他所有樣本點吸引的能力(也代表樣本點與其他所有點的相似度),其值越大,表明該點就越接近某一類的核心[2,3];核心代表指數(shù)KRI表示當前的吸引集可以作為一個核去融合其他吸引集的能力,核心代表指數(shù)越大的吸引集,會在融合過程中保持其主導地位而一直存在,而核心代表指數(shù)較小的吸引集則會在融合過程中被核心代表指數(shù)較大的吸引集“吞并”。MRGC方法首先計算樣本點的近鄰指數(shù)NI,然后根據(jù)吸引方程將待分類樣本集初始劃分成很多個小吸引集,并計算每個小吸引集中心點的核心代表指數(shù)KRI,最后根據(jù)融合算法不斷地去融合各個小吸引集,從而得到不同分類層次下的聚類結(jié)果。
設待分類樣本集S中有N個樣本點,S= {x1,x2, ···,xi,···xN},x為樣本集S中的一個樣本點,它是一個具有多個屬性的向量,y是樣本集S中樣本點x的第n個鄰近樣本點,n≤N-1。設定閾值K,認為在第K個最近鄰之后的樣本點之間就不再存在吸引作用。定義如下:
式中:δn(x)為樣本點x對其第n個鄰近樣本點y的吸引能力,是一個隨著樣本點之間距離而變化的遞減函數(shù)(當m=0時,δn(x)=1;當m值增大時,δn(x)逐漸趨近于0,但不能為0);α為平滑因子,α≥0(α與待分類樣本集中樣本點的數(shù)量有關,樣本點數(shù)越多,α的取值越大,通常取α=N100;Smin和Smax分別為S(x)函數(shù)的最小值和最大值;NI(x)為樣本點x的近鄰指數(shù),是S(x)函數(shù)的歸一化值,0 ≤NI(x)≤1。
吸引方程用于判斷樣本點之間的吸引與被吸引的關系,通過吸引方程可將樣本集分割為多個由中心點、吸附點和邊界點組成的小吸引集。其中,中心點在其K最近鄰范圍內(nèi)只吸引其他樣本點,它是集合的核心;吸附點在其K最近鄰范圍內(nèi)與其他樣本點有著吸引和被吸引的雙重關系,它是集合的主體;而邊界點在其K最近鄰范圍內(nèi)只被其他樣本點吸引,它對集合邊界進行了界定,將集合與其他集合區(qū)分開來。吸引方程的表達式為:
式中:Vx(y)為吸附函數(shù),當樣本點y屬于樣本點x的K最近鄰集合時,其值取1,否則其值取0;Attrx(y)為樣本點y對樣本點x的吸引結(jié)果,其值為正數(shù)時表明樣本點y吸引樣本點x,其值為負數(shù)時則表明樣本點y不吸引樣本點x。
近鄰指數(shù)NI是核心代表指數(shù)KRI的一個局部指標,核心代表指數(shù)不僅考慮了當前樣本點的近鄰指數(shù),同時還考慮了樣本間的近鄰關系和空間距離,它是由近鄰指數(shù)NI(x)、鄰近序數(shù)M(x,y)、距離函數(shù)D(x,y)三個因子組成的復合型函數(shù)。核心代表指數(shù)的表達式為:
式中:z為樣本點x的K個最近鄰樣本中第一個比x的近鄰指數(shù)大的樣本點;M(x,z)為樣本點z相對于樣本x的鄰近序數(shù),當z是x的第n個最近鄰時,M(x,z) =n;D(x,z)為距離函數(shù),常采用歐氏距離公式(在距離度量之前需要對樣本的每個屬性值做歸一化處理,以消除樣本屬性因量綱以及數(shù)量級不同造成的影響);a、b、c為權(quán)重指數(shù),用于控制每個因子對于核心代表指數(shù)KRI的權(quán)重,一般取a=b=c=1。
對核心代表指數(shù)KRI按降序排列形成一條曲線,在這個降序排列的曲線上,曲線從一個平穩(wěn)段變化到另一個平穩(wěn)段時對應有多個拐點,每一個拐點意味著一個分類層次的突變,對應不同層次的聚類結(jié)果[4]。通過求取該曲線一階導數(shù)的最小值點可確定這些拐點,進而得到當前待分類樣本集的最優(yōu)聚類數(shù)。最優(yōu)聚類數(shù)實際是一個“分辨率”的函數(shù),即高分辨率(分類數(shù)多)的聚類結(jié)果是在低分辨率(分類數(shù)少)的聚類結(jié)果基礎上進一步細分得來的[4]。用戶根據(jù)實際測井相分析的需求來設定聚類的最大類別數(shù)、最小類別數(shù)、最佳聚類方案的最大數(shù)目等參數(shù),MRGC算法便可通過分析和計算自動優(yōu)選出若干個最優(yōu)的聚類方案供用戶進行對比和選擇,進而幫助用戶快速完成測井相劃分。
巖性識別模型建立好后,最終需要利用KNN算法傳播器將模型推廣應用于所有未取心井。KNN算法是一種有監(jiān)督學習的分類和預測算法,它所選擇的相鄰數(shù)據(jù)都是經(jīng)過正確分類的對象,該算法既能基于已有的聚類知識庫對新樣本進行快速分類,還能對新樣本屬性值進行有效預測。
利用KNN算法進行分類的基本思想是:從已有聚類集合中搜索樣本的K個最近鄰樣本作為樣本點的代表,對該樣本所屬類別進行“多數(shù)投票表決”,如果一個樣本在特征空間中的K個最相似的點對象中的大多數(shù)屬于某一個類別,那么該樣本也屬于這個類別[5,6]。利用KNN算法進行數(shù)據(jù)預測的基本原理是:找出樣本的K個最近鄰樣本,認為這K個最近鄰樣本對該樣本的屬性值有著不同的“貢獻”,首先,對每個樣本屬性的數(shù)值進行歸一化處理以消除量綱影響,選用合理的距離公式對樣本點進行距離度量;然后,將不同距離的最近鄰樣本對該樣本的影響用不同的權(quán)值表示,采用合理的轉(zhuǎn)換函數(shù)(如高斯函數(shù))將特征空間中的距離轉(zhuǎn)換為權(quán)值,從而為每個最近鄰樣本分配權(quán)重;最后,將K個最近鄰樣本的屬性值加權(quán)平均并賦給新樣本,便得到新樣本的屬性值。
傳統(tǒng)KNN算法存在一些不足,當樣本數(shù)據(jù)分布很不均衡(如一個類的樣本容量很大而其他類的樣本容量很?。r,可能導致分類及預測結(jié)果產(chǎn)生偏差;此外,由于對每個新樣本都要計算它到全體已知樣本的距離,所以運算量較大。在傳統(tǒng)算法基礎上產(chǎn)生了多種改進算法,例如基于交叉驗證的加權(quán)KNN算法,它以循環(huán)遍歷的方式將樣本集按比例拆分為訓練子集和驗證子集,對不同K值下模型的誤差率進行估計,根據(jù)平均誤差率對K值進行優(yōu)選[7];類重心法也是一種改進KNN算法,通過計算訓練集中每個聚類的重心,根據(jù)新樣本與各個聚類重心的距離來判斷其所屬的分類[8]。當然,隨著計算機的速度越來越快,改進KNN算法的版本越來越多[9],算法也越來越復雜和成熟,使KNN算法在分類及預測領域的應用越來越廣泛。
測井相分析和巖性識別的關鍵流程包括測井曲線預處理及標準化、巖性敏感曲線優(yōu)選及測井相的劃分、巖相庫的建立及測井相的標定、巖性識別模型的推廣等[10–13],其流程如圖1所示。對一組能反映巖性特征的測井曲線,基于其數(shù)值變化及數(shù)據(jù)分布特征,按照MRGC聚類方法將地層剖面劃分為若干個抽象的相類別(即測井相);然后,根據(jù)錄井和巖心等地質(zhì)資料建立巖相數(shù)據(jù)庫并對測井相進行標定,通過數(shù)學統(tǒng)計、知識推理等手段建立測井相與巖相之間的映射關系,最終達到利用測井資料來判斷巖性的目的。
圖1 基于MRGC聚類的測井相分析和巖性識別流程
第一步:測井曲線預處理及標準化。對所選曲線進行質(zhì)量檢驗,如果測井曲線存在深度誤差或受到井眼等環(huán)境因素影響較大,則必須對測井曲線進行深度誤差校正、環(huán)境影響校正等預處理,確保曲線質(zhì)量可靠。由于測井相分析的樣本數(shù)據(jù)來自多口關鍵井,且基于測井相分析所建立的巖性識別模型最后會應用于關鍵井以外的多口未取心井,所以,需要預先對全油田范圍內(nèi)所有井的測井曲線進行標準化處理以提高井間曲線資料的一致性,只有多井測井資料具有相同的標準,多井間的分析和計算才是有意義的,根據(jù)關鍵井所建立的巖性識別模型才能在多井工區(qū)內(nèi)推廣使用。
第二步:測井相的劃分。不同的測井曲線具有不同的巖性、物性、流體性質(zhì)等反映能力,在進行測井相分析之前,應先根據(jù)測井相分析的目的合理地選取測井組合,如測井相分析的目的是進行巖性識別,那么就應該選擇對巖性反應靈敏的測井曲線組合,且選用的曲線質(zhì)量要能確保測井響應值可以真實地反映地層巖石情況。將選擇的測井組合作為輸入曲線,提取輸入曲線在目的層段的測井數(shù)據(jù)作為樣本數(shù)據(jù),利用MRGC方法對樣本數(shù)據(jù)進行聚類分析,從而實現(xiàn)對目的層段的測井相劃分。
第三步:測井相的標定。測井相劃分完成后,要進一步進行巖性識別,需要建立巖相數(shù)據(jù)庫并對測井相進行標定。測井相是抽象的概念,而巖相則是具體的有實際地質(zhì)意義的概念,利用巖心等資料建立巖相數(shù)據(jù)庫并對測井相進行標定,是實現(xiàn)測井相到巖相轉(zhuǎn)換的橋梁。首先,需要收集巖屑錄井、巖心描述、薄片分析等反映巖性的地質(zhì)資料,并對這些資料數(shù)據(jù)進行深度歸位,以確保不同深度的巖性與其測井響應特征完全對應;然后,根據(jù)歸位后的巖性地質(zhì)資料對關鍵井的目的層巖性進行定性判斷,如果巖性地質(zhì)資料不夠充足,則可結(jié)合測井軟件中自帶的中子–密度交會圖版等進行分析和劃分巖性,建立關鍵井在目標地層的巖相數(shù)據(jù)庫,巖相數(shù)據(jù)庫應盡可能地完備,以確保其中的巖性樣本對目的層段可能出現(xiàn)的各種巖類都具有代表性;最后,用關鍵井的巖相對測井相進行標定,建立測井相與巖相的對應關系,從而賦予測井相對應的巖性含義,在此過程中,若存在一種巖性對應多個測井相的情況,可將這些測井相劃歸同一類進行合并。通常,將巖相曲線選為伴隨曲線,使用MRGC方法對關鍵井的測井響應值和巖相同時進行聚類,從而建立起有監(jiān)督的聚類機制,根據(jù)聚類結(jié)果中的權(quán)值系數(shù)可快速判定每一個測井相所對應的巖性。
第四步:模型推廣應用。以關鍵井巖相標定后的測井相為基礎,運行KNN算法傳播器,將巖性識別模型推廣應用于油田范圍內(nèi)的所有未取心井,進行多井分析和處理,從而獲得所有井在目的層段連續(xù)的巖相剖面。
以Z油田潛山地層為例,采用MRGC方法建立測井相和巖性識別模型。Z油田自下而上分別為古生界、中生界侏羅系和白堊系及新生界地層。其中,古生界基巖出露地表后曾經(jīng)歷過長期風化、剝蝕和地表水淋濾作用,在潛山頂部形成了具有豐富次生孔隙的有利儲層發(fā)育帶,即潛山風化殼。油田有多口井鉆遇潛山,潛山風化殼和基巖是其主要的含油層系。潛山儲層發(fā)育程度與其巖性有著密切的聯(lián)系,巖性的差異性是造成Z油田潛山儲層非均質(zhì)性的重要因素。
在完成Z油田測井曲線預處理及標準化后,選擇自然伽馬(GR)、密度(DEN)、中子孔隙度(CNC)、聲波時差(DT)、光電吸收截面指數(shù)(PE)共5條常規(guī)曲線作為輸入曲線,這些曲線都蘊含有一定的巖性信息,具有不同的巖性區(qū)分能力。Z油田還測量了陣列感應測井曲線,但考慮到地層電阻率受巖石孔隙中氣、油、水等流體因素影響,故不選為輸入曲線。利用Z油田的錄井、巖心及薄片分析等資料確定巖性并建立巖相數(shù)據(jù)庫,確定角礫巖、硅質(zhì)砂巖、硅質(zhì)粉砂巖、硅質(zhì)泥巖為風化殼主要巖類,確定灰?guī)r、泥質(zhì)灰?guī)r、灰質(zhì)泥巖、生物灰?guī)r為基巖主要巖類(圖2),風化殼中少量發(fā)育的變質(zhì)砂巖等巖性則不予以識別。設置各類輸入曲線的刻度范圍,剔除正??潭确秶獾臄?shù)據(jù),避免異常數(shù)值對聚類產(chǎn)生干擾,然后,提取目標地層的測井數(shù)據(jù)作為測井相分析的樣本數(shù)據(jù)。在此過程中,將錄井、巖心和薄片分析等資料確定的實際地層巖相曲線作為伴隨曲線,對樣本數(shù)據(jù)進行有監(jiān)督的學習訓練。
圖2 部分巖石鑄體薄片特征
通過MRGC方法對測井相進行劃分,由于風化殼與下覆基巖地層巖性類別差異較大,為了提高巖性區(qū)分精度,對其分層段進行聚類分析。對風化殼和基巖分別進行處理并得到多個最優(yōu)的聚類方案,再參考巖相數(shù)據(jù)庫中的巖相數(shù)目對聚類方案進行選擇,一般選擇原則為:確保測井相的個數(shù)多于巖相的個數(shù),但不宜選擇測井相個數(shù)過多的聚類方案,因為測井相劃分太細有可能增大誤差,而且在測井相標定時對不同的相進行合并會變得繁瑣,與此同時,還要兼顧不同聚類方案下的巖石測井響應分布特征是否合理。綜合分析后,對風化殼和基巖分別選擇測井相個數(shù)為6和10的聚類方案,即將二者的初始測井相分為6類和10類。接下來,通過巖相對測井相進行標定,標定過程中發(fā)現(xiàn),相同的巖性通常具有相似的測井相特征,由于所劃分的測井相數(shù)多于巖相數(shù),所以存在一個巖相與多個測井相匹配的情況,因此,需要將相同的巖相對應的測井相合并為同一類,合并后的測井相數(shù)目與巖相數(shù)目基本一致,分別為4類和5類,其中,與生物灰?guī)r對應的兩個測井相未被合并,代表了該類巖石的孔隙性差異。圖3為關鍵井巖相與測井響應的對應關系,其中,巖相曲線被程序自動轉(zhuǎn)換成了相應的巖性數(shù)字符號,從圖中可以看出風化殼和基巖主要巖類的測井響應值分布情況。例如,風化殼角礫巖表現(xiàn)為中–低伽馬,三孔隙度曲線整體上表現(xiàn)為高聲波時差、高中子、低密度特征,指示孔隙十分發(fā)育,其光電吸收截面指數(shù)較低;灰?guī)r表現(xiàn)為低伽馬特征,三孔隙度曲線指示巖性較為致密;生物灰?guī)r的巖性較為疏松,表現(xiàn)為中–高伽馬、中–高聲波時差、中–高中子、中–低密度特征。生物灰?guī)r與風化殼角礫巖這兩類巖性物性最好,是主要的儲層發(fā)育段。
圖3 兩種MRGC聚類方案下的關鍵井巖相與測井響應的對應關系
圖4和圖5分別是基于MRGC方法得到的潛山風化殼和基巖的巖性聚類圖版,聚類數(shù)分別為4類和5類。從圖4和圖5可以看出,基于MRGC方法得到的巖性聚類圖版實際上是以多張圖的二維平面顯示模式來展示測井參數(shù)之間的多維交會關系,它通過多維立體的界限劃分對測井參數(shù)交會的疊置區(qū)間進行了較好處理,而常規(guī)單一的交會圖分析方法則難以對疊置區(qū)間進行界定,因此,其巖性劃分較常規(guī)交會圖分析法更精細、更合理。
圖4 基于MRGC方法得到的潛山風化殼4類巖性聚類圖版
圖5 基于MRGC方法得到的潛山基巖地層5類巖性聚類圖版
圖6、圖7分別是Z油田X1井、X2井基于MRGC方法進行測井相分析所得到的巖性解釋成果圖,X1井和X2井是兩口未參加樣本學習但具備錄井巖性及巖心描述資料的驗證井,用于對巖性解釋成果進行檢驗。其中,第6道是通過MRGC方法進行測井相劃分得到的原始測井相曲線,該曲線采用不同的顏色填充進行方波化顯示,曲線沒有具體的地質(zhì)含義;第7道是與測井相對應的預測巖相,它被賦予了巖性含義,故用巖性符號進行表示;第9道是根據(jù)歸位后的巖屑錄井、巖心描述等巖性地質(zhì)資料所建立的實際地層巖相剖面。從圖6、圖7可以看出,基于MRGC聚類方法所預測的巖性與實際地層巖性剖面相比,無論在巖性類別還是在巖性深度區(qū)間上,都具有較好的匹配關系,驗證井的符合率均在80%以上,證實了模型的準確性,同時也證實了該方法在潛山巖性識別中的可行性。將基于關鍵井建立的巖性識別模型推廣應用于Z油田所有未取心井,從而實現(xiàn)全油田范圍內(nèi)潛山風化殼和基巖地層的巖性快速識別及劃分。
圖6 Z油田X1井潛山地層巖性解釋成果
圖7 Z油田X2井潛山地層巖性解釋成果
(1)MRGC是一種快速、高效的凝聚型多層次聚類方法,它基于近鄰指數(shù)和核心代表指數(shù)兩個關鍵參數(shù)進行聚類分析,根據(jù)降序排列的核心代表指數(shù)曲線上的突變來確定不同分辨率下的最優(yōu)聚類數(shù)。該方法能夠不依賴分析者的主觀偏好,也不需要任何聚類數(shù)據(jù)結(jié)構(gòu)的先驗知識,分析人員可以很方便地結(jié)合實際需求對地層參數(shù)進行多層次聚類分析,通過不同尺度的聚類以及不同聚類數(shù)的方案優(yōu)選來靈活地控制測井相的具體級別。
(2)KNN傳播算法是在已知訓練樣本基礎上的學習算法,對訓練樣本集中的數(shù)據(jù)多樣性及數(shù)據(jù)分布有一定的要求。在建立巖相數(shù)據(jù)庫時,應充分挖掘各種巖性相關的地質(zhì)資料以獲取盡可能多的巖性樣本,確保關鍵井的巖性樣本能較為全面地代表目標地層巖性,從而提高KNN傳播算法的準確率。
(3)將采用MRGC聚類方法建立的模型推廣應用于Z油田潛山地層。結(jié)果表明,淺層風化殼儲層主要巖性為角礫巖,是由疏松巖石垮塌堆積形成的儲集性能良好的角礫型儲集體,其次為硅質(zhì)砂巖、硅質(zhì)粉砂巖、硅質(zhì)泥巖;風化殼以下的潛山地層主要以灰?guī)r和泥質(zhì)灰?guī)r為主,間或發(fā)育灰質(zhì)泥巖,局部發(fā)育儲集空間較為豐富的生物灰?guī)r。該方法得到的巖性剖面同錄井、巖心等資料確定的實際地層巖相剖面相比,具有很好的一致性,可以作為地層巖性判別及劃分的重要方法。