韓 晟 韓堅(jiān)舟 趙 璇 王小玄 范立紅 梅 杰
(①中國(guó)石油華北油田勘探開發(fā)研究院,河北任丘 062550; ②中國(guó)石油華北油田第五采油廠,河北辛集 052360;③中國(guó)石油集團(tuán)渤海鉆探工程有限公司第二錄井分公司,河北任丘 062552)
相關(guān)系數(shù)是一種定量描述兩組隨機(jī)變量的統(tǒng)計(jì)學(xué)相關(guān)性的指標(biāo)。相關(guān)系數(shù)的計(jì)算方法有很多種,其中比較經(jīng)典的有Pearson[1]、Spearman[2]和Kendall[3]等相關(guān)系數(shù)法。這些計(jì)算方法都有其適用范圍: Pearson相關(guān)系數(shù)適用于二元高斯分布; Spearman和Kendall相關(guān)系數(shù)適用于非線性分布[4]。雖然計(jì)算過程不同,但是以上三種相關(guān)系數(shù)有相似性,它們都可以抽象為廣義相關(guān)系數(shù)[5],即通過比較數(shù)組中的每個(gè)數(shù)對(duì)以確定兩組數(shù)據(jù)整體間的相關(guān)程度。
相關(guān)系數(shù)在油氣勘探中應(yīng)用最多的是數(shù)據(jù)優(yōu)選,如利用有效性開展屬性優(yōu)選[6-7]、地球化學(xué)取樣中的多自由度分析[8]、烴源巖的預(yù)測(cè)[9]等。同時(shí),還有學(xué)者將相關(guān)系數(shù)應(yīng)用到多種數(shù)據(jù)的聯(lián)合預(yù)測(cè)[10]和磁法勘探的低緯度化極算法[11]中。
在地球物理學(xué)中應(yīng)用相關(guān)系數(shù)的基本原理是不同地球物理參數(shù)的同源性[12],即在一片區(qū)域觀測(cè)的不同類型的物理量(重、磁、電、震、測(cè)井?dāng)?shù)據(jù)等)是同一套地質(zhì)體的不同響應(yīng)。所以,研究不同數(shù)據(jù)的相關(guān)性的大小有助于優(yōu)選出與地質(zhì)體有關(guān)的變量,從而揭示地質(zhì)體與觀測(cè)量之間關(guān)系的規(guī)律。
在油氣勘探領(lǐng)域,變量常受多種因素影響,因而兩組變量的相關(guān)情況比較復(fù)雜。為了盡量減少影響,可以選擇計(jì)算地理位置較近點(diǎn)(兩組特定變量)的相關(guān)性。當(dāng)兩個(gè)取樣點(diǎn)的地理位置較近時(shí),它們受同一因素影響的可能性更高,因此比較地理位置較近的樣點(diǎn)更有助于控制變量數(shù)目。為了研究數(shù)據(jù)在空間分布上的特征,本文在廣義相關(guān)系數(shù)的基礎(chǔ)上,引入空間權(quán)重的概念,在比較每組數(shù)據(jù)時(shí)加入與空間距離有關(guān)的權(quán)重改進(jìn)比較結(jié)果。在空間數(shù)據(jù)學(xué)中,有應(yīng)用類似的權(quán)重計(jì)算空間自相關(guān)的方法,比如Moran自相關(guān)[13]和Geary自相關(guān)[14],前者經(jīng)過宋馬林等[15]改進(jìn)也可以應(yīng)用到非網(wǎng)格型數(shù)據(jù)的相關(guān)計(jì)算中。
如果將廣義相關(guān)系數(shù)看作一種全局相關(guān)系數(shù),那么這種距離權(quán)重改進(jìn)的相關(guān)系數(shù)則是一種局部相關(guān)系數(shù)。本文將詳細(xì)說明局部相關(guān)系數(shù)的原理及其性質(zhì),并利用模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)檢驗(yàn)該相關(guān)系數(shù)的應(yīng)用效果。
假設(shè)有兩組隨機(jī)變量X和Y,它們各自經(jīng)歷了n次獨(dú)立觀測(cè)。Xi和Yi表示第i次觀測(cè)值, (xi,yi)是第i次觀測(cè)的大地坐標(biāo)。
Pearson、Spearman、Kendall相關(guān)系數(shù)都可以抽象為以下計(jì)算模式[4,16]
(1)
如果aij=Xj-Xi、bij=Yj-Yi,式(1)為Pearson相關(guān)系數(shù)計(jì)算公式;
如果aij=Pj-Pi、bij=Qj-Qi,P為X在本組變量中的序次,Q為Y在本組變量中的序次,此時(shí)式(1)為Spearman相關(guān)系數(shù)計(jì)算公式;
如果aij=sgn(Xj-Xi)、bij=sgn(Yj-Yi),sgn(·)表示符號(hào)函數(shù),此時(shí)式(1)為Kendall相關(guān)系數(shù)計(jì)算公式。
式(1)說明了這三種相關(guān)系數(shù)的計(jì)算方法都可以看成是比較隨機(jī)變量中的每一組數(shù)對(duì)后再求和的形式。每組數(shù)對(duì)的比較都會(huì)給計(jì)算結(jié)果貢獻(xiàn)一個(gè)值,最后求和是為了得到各個(gè)數(shù)對(duì)的比較結(jié)果的整體趨勢(shì)。
廣義相關(guān)系數(shù)的取值范圍為[-1,1]。當(dāng)相關(guān)系數(shù)的絕對(duì)值越大,說明兩組隨機(jī)變量的相關(guān)性越強(qiáng)。符號(hào)為正時(shí)稱為正相關(guān),即一組變量隨著另一組變量的增大而增大;符號(hào)為負(fù)時(shí)稱為負(fù)相關(guān),即一組變量隨著另一組變量的增大而減小。
如果應(yīng)用具地理意義的距離權(quán)重,需要符合“地理上距離越近的事物關(guān)聯(lián)性越強(qiáng)”[17]這一條地理學(xué)第一定律,即權(quán)重矩陣與數(shù)對(duì)之間的距離為負(fù)相關(guān),也說是說,兩點(diǎn)間的距離越近,權(quán)重越大。這里僅討論一種比較簡(jiǎn)單的距離權(quán)重選取方式
(2)
(3)
式中:λij為距離權(quán)重,值域?yàn)閇0,1];dij為i與j點(diǎn)之間的距離;σ為搜索半徑(距離閾值)。式(2)、式(3)表明,只比較兩點(diǎn)之間的距離小于一定值的點(diǎn),且在這個(gè)距離范圍內(nèi)賦予各點(diǎn)等權(quán)重。
若計(jì)算兩組數(shù)據(jù)在空間上的相關(guān)情況,需將空間(距離)權(quán)重引入到相關(guān)計(jì)算中。以Pearson相關(guān)系數(shù)為模板
(4)
將Pearson相關(guān)系數(shù)結(jié)合空間權(quán)重推廣到空間內(nèi)
I′=
(5)
式(4)為Pearson相關(guān)系數(shù),該式通過比較數(shù)據(jù)中的每組數(shù)對(duì),再累加求和,從而體現(xiàn)數(shù)據(jù)的整體趨勢(shì)(單調(diào)性)。
式(4)的核心是(Xj-Xi)(Yj-Yi),即比較數(shù)據(jù)中任意一個(gè)數(shù)對(duì)的X變量和Y變量,并將其結(jié)果相乘。如果數(shù)對(duì)(Xj-Xi)與(Yj-Yi)異號(hào),則說明X較大值對(duì)應(yīng)Y的較小值(或X較小值對(duì)應(yīng)Y的較大值);如果數(shù)對(duì)(Xj-Xi)與(Yj-Yi)同號(hào),則說明X的較大值對(duì)應(yīng)Y的較大值(或X的較小值對(duì)應(yīng)Y的較小值)。分子通過兩次求和計(jì)算以統(tǒng)計(jì)數(shù)據(jù)中每組數(shù)對(duì)的符號(hào)異、同性。如果這組數(shù)據(jù)具有單調(diào)性,則每組數(shù)對(duì)的比較結(jié)果(Xj-Xi)(Yj-Yi)出現(xiàn)同一種符號(hào)的數(shù)量多,此時(shí)累加求和的結(jié)果的絕對(duì)值就大。而當(dāng)(Xj-Xi)(Yj-Yi)出現(xiàn)不同符號(hào)的數(shù)量越多時(shí),則累加求和的結(jié)果越接近0。
式(4)的分母可以看作是這組數(shù)據(jù)的(Xj-Xi)與(Yj-Yi)分別求均方根、再相乘的形式。分母并不影響式(4)的符號(hào),只是將分子的結(jié)果進(jìn)行歸一化。
通過(Xj-Xi)(Yj-Yi)可以看出,Pearson相關(guān)系數(shù)只比較了數(shù)據(jù)中的X和Y變量,但沒有考慮不同數(shù)據(jù)的取樣的位置。
式(5)表示,在比較每組數(shù)對(duì)時(shí),將其結(jié)果乘以相應(yīng)的距離權(quán)重,最后再求和計(jì)算。權(quán)重的取值總為正,它只改變每組比較結(jié)果的取值大小,而不改變符號(hào)。需要注意的是雖然權(quán)重不影響每組數(shù)對(duì)的符號(hào),但是最后的匯總結(jié)果的符號(hào)會(huì)受權(quán)重影響。
式(5)的取值范圍為[-1,1]。由于距離權(quán)重的各向同性,可以將加權(quán)后的數(shù)據(jù)比較看成兩組新數(shù)據(jù)做比較,所以式(5)的取值范圍和Pearson相關(guān)系數(shù)的取值范圍相同。當(dāng)距離權(quán)重全部相同時(shí),式(5)退化為Pearson相關(guān)系數(shù)計(jì)算公式(式(4))。
Pearson相關(guān)系數(shù)不考慮數(shù)據(jù)取樣點(diǎn)遠(yuǎn)近,比較全部數(shù)據(jù)的X與Y變量的相關(guān)性;而距離權(quán)重改進(jìn)的相關(guān)系數(shù)突出了距離較近的取樣點(diǎn)的X與Y變量的相關(guān)性,針對(duì)每個(gè)樣點(diǎn)來說,比較了該樣點(diǎn)附近的樣點(diǎn)。因此,在空間上Pearson相關(guān)系數(shù)是平等考慮所有樣點(diǎn)的“全局相關(guān)系數(shù)”,而距離加權(quán)的相關(guān)系數(shù)是一種突出局部相關(guān)性的“局部相關(guān)變量”。
局部相關(guān)系數(shù)雖然能體現(xiàn)距離較近樣點(diǎn)的相關(guān)性(圖1a),但是需要人工確定搜索半徑。搜索半徑?jīng)Q定了樣點(diǎn)的個(gè)數(shù),因此在很大程度上影響了局部相關(guān)系數(shù)的大小。
為了解決人工選擇搜索半徑的困難,可以將搜索半徑作為一個(gè)變化值,并以固定步長(zhǎng)為增量,計(jì)算該組數(shù)據(jù)樣點(diǎn)之間最小距離到最大距離內(nèi)所有搜索半徑的局部相關(guān)系數(shù)。將每個(gè)搜索半徑對(duì)應(yīng)其局部相關(guān)系數(shù)做成一張折線圖,這張圖即為距離—相關(guān)性頻譜(圖1b)。
通過距離—相關(guān)性頻譜圖,所有搜索半徑下的局部相關(guān)系數(shù)得以展示。然后可以通過分析折線圖挖掘兩組數(shù)據(jù)被距離關(guān)系掩蓋的相關(guān)性,并研究在不同尺度下兩組數(shù)據(jù)相關(guān)性的變化規(guī)律。
圖1 取樣點(diǎn)位置(a)及局部相關(guān)性頻譜(b) 數(shù)據(jù)來源于表1
綜上所述,距離權(quán)重改進(jìn)前、后的相關(guān)系數(shù)主要不同之處有:改進(jìn)前相關(guān)系數(shù)是所有樣點(diǎn)都參與計(jì)算,每個(gè)數(shù)對(duì)對(duì)結(jié)果的影響相同,最終結(jié)果為一個(gè)數(shù)值;而距離權(quán)重改進(jìn)后相關(guān)系數(shù)計(jì)算時(shí),距離較近的數(shù)對(duì)對(duì)結(jié)果的影響大,體現(xiàn)最終結(jié)果的是距離—相關(guān)性頻譜圖,反映的是很少樣點(diǎn)的相關(guān)性。
為了測(cè)試改進(jìn)后相關(guān)系數(shù)的效果,應(yīng)用二維模擬數(shù)據(jù)(表1)進(jìn)行檢驗(yàn)。
該模擬數(shù)據(jù)的目的是體現(xiàn)局部相關(guān)系數(shù)的重要性。由于Pearson相關(guān)系數(shù)在計(jì)算時(shí)對(duì)每個(gè)數(shù)據(jù)的采樣點(diǎn)賦予相等權(quán)重,而且最后的結(jié)果也僅是一個(gè)取值范圍[-1,1]的數(shù)值。這就使得可能在小范圍內(nèi)存在相關(guān)性的兩組數(shù)據(jù)被大范圍內(nèi)的非相關(guān)性掩蓋。
該模擬數(shù)據(jù)由周期函數(shù)加隨機(jī)噪聲構(gòu)成,模仿在空間上周期出現(xiàn)的數(shù)據(jù),如地質(zhì)構(gòu)造、井距與產(chǎn)量關(guān)系等類似數(shù)據(jù)。
表1 模擬數(shù)據(jù)
表1中x與y是地理位置,X與Y變量無單位。距離權(quán)重選用式(2)。圖1a展示了數(shù)據(jù)取樣點(diǎn)的地理位置,圖1b為采用不同的搜索半徑得到的局部相關(guān)系數(shù)的折線圖。這種研究空間內(nèi)相關(guān)性變化趨勢(shì)的曲線類似于克里金插值中用到的變差函數(shù)[18],也是一種距離和某種屬性的距離頻譜。
根據(jù)斜率,圖1b中的曲線可以大致分為三個(gè)階段:第一階段,搜索半徑從0到100,曲線的下降速度快,這說明這組模擬數(shù)據(jù)在小范圍內(nèi)相關(guān)關(guān)系不穩(wěn)定,隨著數(shù)據(jù)點(diǎn)個(gè)數(shù)的增多,相關(guān)性快速降低;第二階段,搜索半徑從100到300,曲線下降速度變慢,這說明在中等范圍內(nèi)可以維持一定的相關(guān)性;第三階段,搜索半徑從300到600,曲線較為平緩,這說明在大范圍內(nèi)數(shù)據(jù)呈現(xiàn)穩(wěn)定的相關(guān)性,相關(guān)系數(shù)隨著半徑的變大不會(huì)出現(xiàn)較大的變化。當(dāng)包含全部樣點(diǎn)時(shí),曲線收斂為Pearson相關(guān)系數(shù)。
局部相關(guān)和全局相關(guān)的差別可以通過圖2說明。圖2a是全局相關(guān)視角下X與Y兩變量的交會(huì)圖,從中很難發(fā)現(xiàn)X與Y變量的相關(guān)性。利用相同的兩組數(shù)據(jù),先通過數(shù)據(jù)點(diǎn)的空間位置對(duì)數(shù)據(jù)進(jìn)行分組(以距離100為閾值),將距離較近的樣點(diǎn)分為一組;再將X變量在每組內(nèi)歸一化,最后再制做與Y變量的交會(huì)圖,即可得到圖2b。該圖為局部相關(guān)視角下的交會(huì)圖,可以清楚地發(fā)現(xiàn)兩組變量的相關(guān)性。從相關(guān)系數(shù)上來看,搜索半徑為100的局部相關(guān)系數(shù)為0.4;而未改進(jìn)的Pearson(全局)相關(guān)系數(shù)為0.21,可見全局相關(guān)系數(shù)掩蓋了數(shù)據(jù)的局部相關(guān)性。
圖2 全局相關(guān)與局部相關(guān)比較(a)全局相關(guān)系數(shù)視角下的交會(huì)圖; (b)局部相關(guān)系數(shù)視角下的交會(huì)圖 數(shù)據(jù)來源于表1
實(shí)際資料來自沁水盆地南部某區(qū)塊,有若干生產(chǎn)井,三維地震勘探覆蓋全區(qū)。山西組3號(hào)煤層為主要產(chǎn)氣層之一,由北東向南西方向逐漸變??;頂板泥巖較為發(fā)育,煤層氣封存條件較好;煤層主要受燕山期和喜山期運(yùn)動(dòng)影響而發(fā)育裂縫,該煤層的產(chǎn)氣量受裂縫和煤的厚度影響較大。
表2為該區(qū)塊井點(diǎn)的數(shù)據(jù)資料,井位坐標(biāo)相對(duì)位置關(guān)系見圖3。日產(chǎn)氣量為統(tǒng)計(jì)的實(shí)際信息。方位各向異性由疊前地震數(shù)據(jù)計(jì)算而得,煤厚度由儲(chǔ)層參數(shù)反演而得,應(yīng)力由疊后地震數(shù)據(jù)根據(jù)構(gòu)造和速度場(chǎng)計(jì)算而得。通過方位各向異性、厚度和應(yīng)力三種數(shù)據(jù)的篩選與融合以獲得和日產(chǎn)氣量相關(guān)性較高的融合數(shù)據(jù)。
首先,計(jì)算方位各向異性(圖3a)、厚度(圖3c)和應(yīng)力(圖3e)三組數(shù)據(jù)和日產(chǎn)氣量的全局相關(guān)系數(shù)。方位各向異性的全局相關(guān)系數(shù)為0.28;煤厚度的全局相關(guān)系數(shù)為0.53; 應(yīng)力的全局相關(guān)系數(shù)為-0.52。從全局相關(guān)系數(shù)看,應(yīng)該選用煤厚度與應(yīng)力融合以預(yù)測(cè)日產(chǎn)氣量,圖4c為其融合結(jié)果。
下面介紹用距離權(quán)重改進(jìn)后的Pearson相關(guān)系數(shù)方法優(yōu)選數(shù)據(jù)。
圖3b是方位各向異性與日產(chǎn)氣量的局部相關(guān)頻譜。方位各向異性是一種微裂縫(煤層中的割理縫)的指示標(biāo)志。因?yàn)檩^大的比表面積和較小的孔隙度,一般認(rèn)為割理縫有利于煤層氣的儲(chǔ)存。從圖3b可以看出,在使用小搜索半徑時(shí),日產(chǎn)氣量與方位各向異性有比較弱的負(fù)相關(guān)性;而當(dāng)搜索半徑比較大時(shí),這兩組數(shù)據(jù)又有比較弱的正相關(guān)性,這一點(diǎn)與前人的認(rèn)識(shí)相符。因?yàn)閮山M數(shù)據(jù)的較弱的相關(guān)性,所以不用方位各向異性進(jìn)行下一步的預(yù)測(cè)工作。
從圖3d可以看出,在考察鄰近某口井一定范圍內(nèi)的井時(shí),也就是在小范圍內(nèi),原生煤厚度與日產(chǎn)氣量的相關(guān)性不明顯。但如果從整體上考察,原生煤厚度與日產(chǎn)氣量的相關(guān)性達(dá)到了0.5以上。
表2 山西組3號(hào)煤層井點(diǎn)數(shù)據(jù)
從圖3f可以看出,當(dāng)搜索半徑在10個(gè)點(diǎn)左右時(shí),局部相關(guān)系數(shù)為0.26;當(dāng)搜索半徑較大時(shí),全局相關(guān)系數(shù)為-0.52。這種現(xiàn)象說明,應(yīng)力和產(chǎn)氣量在小范圍內(nèi)正相關(guān),應(yīng)力越大對(duì)產(chǎn)氣有利;但在大范圍內(nèi)為負(fù)相關(guān),應(yīng)力越大越不利于產(chǎn)氣。這種現(xiàn)象的原因可能是,在小尺度下應(yīng)力越大越容易形成小規(guī)模裂隙,此時(shí)有利于煤層氣賦存;而在大范圍內(nèi),應(yīng)力越大越容易形成大規(guī)模裂縫,會(huì)導(dǎo)致煤層氣逸散,此時(shí)不利于煤層氣的賦存[19]。
以上三種地球物理參數(shù)和產(chǎn)氣量的距離加權(quán)相關(guān)性研究結(jié)果表明,這三種地球物理參數(shù)各有其特點(diǎn)。應(yīng)力在小尺度范圍與產(chǎn)氣量相關(guān)性好,而原生煤厚度在大尺度范圍與產(chǎn)氣量相關(guān)性強(qiáng)。因此在應(yīng)用屬性融合進(jìn)行產(chǎn)氣預(yù)測(cè)時(shí),可以使用不同尺度的空間濾波,取應(yīng)力的較高頻部分(局部特征)和煤層厚度的較低頻部分(背景場(chǎng))進(jìn)行融合,以達(dá)到最好的效果。這種分尺度研究數(shù)據(jù)的方法,陳文浩等[20]在變差函數(shù)的估算中曾經(jīng)應(yīng)用。
圖4a展示了用改進(jìn)優(yōu)選方法的融合平面圖。從圖4b可以看出融合后在搜索半徑為12時(shí)即可到達(dá)0.3的相關(guān)程度,而且在大搜索半徑上仍然保持較高的相關(guān)程度。與應(yīng)用未改進(jìn)方法優(yōu)選再融合的結(jié)果圖4c、圖4d比較,利用本文方法優(yōu)選指導(dǎo)融合的結(jié)果在各個(gè)尺度上的相關(guān)性均優(yōu)于按Pearson相關(guān)方法指導(dǎo)的融合結(jié)果。通過其他開發(fā)井進(jìn)行檢驗(yàn),本文方法的結(jié)果的產(chǎn)氣量吻合率更高。
圖4 煤層厚度與應(yīng)力屬性空間頻率濾波后融合屬性及其與日產(chǎn)氣量的局部相關(guān)性頻譜 本文改進(jìn)相關(guān)方法篩選的融合平面圖(a)及其與日產(chǎn)氣量的局部相關(guān)性頻譜(b); Pearson相關(guān)方法篩選的融合平面圖(c)及其與日產(chǎn)氣量的局部相關(guān)性頻譜(d)
(1)距離權(quán)重改進(jìn)的相關(guān)系數(shù)具有計(jì)算兩組變量局部空間相關(guān)性的作用,可以用于挖掘被距離關(guān)系掩蓋的相關(guān)性。
(2)在選擇空間權(quán)重的函數(shù)類型之后,多數(shù)情況下并不清楚數(shù)據(jù)在多大的搜索半徑內(nèi)具有相關(guān)性。如果搜索半徑是一個(gè)固定值,則其對(duì)應(yīng)的局部相關(guān)系數(shù)僅代表在這個(gè)搜索范圍內(nèi)的相關(guān)系數(shù)。因此,把搜索半徑當(dāng)成一個(gè)自變量,計(jì)算不同搜索半徑下的相關(guān)性,并以折線圖(距離-相關(guān)性頻譜)表示。通過折線圖的變化特征可以分析這兩組變量在空間分布下的相關(guān)性。
(3) 局部相關(guān)變量和距離-相關(guān)性頻譜具有指導(dǎo)數(shù)據(jù)優(yōu)選和數(shù)據(jù)融合的作用。