趙 銘,金大權(quán),張 艷,高世臣,仲婷婷
1(中國地質(zhì)大學(xué)(北京)數(shù)理學(xué)院,北京 100083)
2(中國石油長慶油田公司第四采氣廠,西安 710016)
3(中國地質(zhì)大學(xué)(北京)地球物理與信息技術(shù)學(xué)院,北京 100083)
貝葉斯網(wǎng)絡(luò)源于概率統(tǒng)計(jì)學(xué),作為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的重要方法之一,被人們廣泛的應(yīng)用.樸素貝葉斯(Naive Bayes)分類方法是貝葉斯網(wǎng)絡(luò)的簡化,具有堅(jiān)實(shí)的理論基礎(chǔ),和其他分類方法相比,展現(xiàn)出高速度和高效率,被廣泛應(yīng)用于模式識(shí)別,數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)中[1].樸素貝葉斯分類方法基于條件獨(dú)立性假設(shè),即假設(shè)一個(gè)變量對(duì)分類的影響?yīng)毩⒂谄渌兞?當(dāng)獨(dú)立性假設(shè)成立時(shí),與其它分類方法相比,樸素貝葉斯方法理論上具有最小的誤分類率.在實(shí)際的應(yīng)用中,對(duì)于連續(xù)變量的數(shù)據(jù).我們通常假設(shè)變量服從高斯分布,通過EM 算法求得各個(gè)變量所服從高斯分布的均值和方差,從而可以得到變量不同取值的概率作為后驗(yàn)概率.再根據(jù)貝葉斯定理,構(gòu)造樸素貝葉斯分類器,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)分類的結(jié)果.而混合高斯模型GMM 是指多個(gè)高斯分布函數(shù)的線性組合.理論上,GMM 模型可以擬合出任意變量的分布.使用混合高斯模型代替原有的高斯分布作為變量的概率密度函數(shù),可以提升連續(xù)變量的概率密度擬合效果,從而改進(jìn)了樸素貝葉斯分類器對(duì)連續(xù)型數(shù)據(jù)的分類能力.
貝葉斯方法提供了一種通過概率進(jìn)行推理的手段.它假定待考查的變量遵循某種概率分布,且可根據(jù)這些概率以及已經(jīng)觀察到的數(shù)據(jù)進(jìn)行推理,從而做出最優(yōu)的決策[2-5].我們通過貝葉斯定理的公式來介紹這一方法:
當(dāng)給定訓(xùn)練集合D,假設(shè)空間H中的最有可能假設(shè)可以通過貝葉斯公式來計(jì)算.
其中,P(h)表示還沒有進(jìn)行訓(xùn)練前,假設(shè)h擁有的初始概率,即h的先驗(yàn)概率,它通常根據(jù)關(guān)于h是一正確假設(shè)的概率的背景知識(shí).在沒有先驗(yàn)知識(shí)的情況下,通常可以認(rèn)為候選假設(shè)服從均勻分布,即把每一個(gè)候選假設(shè)賦予相同的概率.P(D)表示將要觀察的訓(xùn)練實(shí)例集D的先驗(yàn)概率,即在沒有確定某一假設(shè)成立時(shí)D的概率,通常可以用全概率公式求出.P(h|D)表示給定訓(xùn)練實(shí)例集D時(shí)h成立的概率,即h的后驗(yàn)概率,通常理解為在看到訓(xùn)練實(shí)例集D后,h成立的置信度.
當(dāng)變量屬性是離散型時(shí),類的先驗(yàn)概率P(h)可以通過訓(xùn)練集的各類樣本出現(xiàn)的次數(shù)來估計(jì).當(dāng)變量屬性是連續(xù)型時(shí),有兩種方法來估計(jì)屬性的后驗(yàn)概率P(h|D).第一種方法是把每一個(gè)連續(xù)的變量屬性離散化,然后用相應(yīng)的離散區(qū)間替換連續(xù)屬性值,但這種方法不好控制離散區(qū)間劃分的粒度.第二種方法是,可以假設(shè)連續(xù)變量服從某種概率分布,然后使用訓(xùn)練數(shù)據(jù)估計(jì)分布的參數(shù),高斯分布通常被用來表示連續(xù)屬性的類條件概率分布.
樸素貝葉斯,簡單來說就是對(duì)于給出的待分類項(xiàng),假設(shè)各個(gè)屬性之間是相對(duì)獨(dú)立的,求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別的概率最大值.然后將其歸類于所求解出的最大值所屬的類別.在屬性相對(duì)獨(dú)立的假設(shè)下,樸素貝葉斯分類器具有簡單的星型結(jié)構(gòu).每個(gè)屬性結(jié)點(diǎn)只有唯一的父類結(jié)點(diǎn),這意味著,當(dāng)類給定時(shí),屬性之間條件獨(dú)立[6].
其中,d為屬性數(shù)目,xi為x在 第i個(gè)屬性上的取值.
對(duì)于所討論的所有類別來說,P(x)都是相同的,故所得判別準(zhǔn)則如下:
即,所判類別為屬于賦予先驗(yàn)概率為權(quán)重的概率乘積的最大值.
在分類器中,我們對(duì)每個(gè)屬性條件概率P(xi|c)的估計(jì)是首要的計(jì)算部分,只有求出條件概率才能進(jìn)行貝葉斯分類的判別[7].在本文中,我們分別用高斯模型和混合高斯模型來進(jìn)行概率密度估計(jì),再構(gòu)造樸素貝葉斯分類器進(jìn)行對(duì)比.
當(dāng)貝葉斯分類器選取連續(xù)變量的時(shí)候,需要知道各個(gè)變量的概率密度函數(shù).一般情況下,我們通常假設(shè)各個(gè)變量服從高斯概率分布.然而,測井?dāng)?shù)據(jù)中的各個(gè)變量通常不能完全服從高斯概率分布,擬合效果誤差較大.針對(duì)這種情況,本文考慮使用混合高斯概率模型(GMM)來擬合各個(gè)測井?dāng)?shù)據(jù)的概率密度分布.
混合高斯模型的數(shù)學(xué)模型為:
其中,εi是 表示第i個(gè)高斯項(xiàng)的權(quán)重或者稱為混合系數(shù),且Guass(μi,σi)表 示高斯密度函數(shù),μi和 σi分別為高斯密度函數(shù)的均值和方差.GMM 模型使用的高斯模型的個(gè)數(shù)稱為GMM 高斯模型的階數(shù)[7,8].通常情況下,GMM 模型進(jìn)行概率密度估計(jì)的階數(shù)不易過大或者過小.階數(shù)過大會(huì)導(dǎo)致參數(shù)估計(jì)過程難以收斂,階數(shù)過小會(huì)導(dǎo)致參數(shù)估計(jì)誤差較大.本文考慮選取五階GMM 模型進(jìn)行概率密度估計(jì).
采用GMM 模型進(jìn)行概率密度估計(jì),便要對(duì)GMM 模型中進(jìn)行參數(shù)估計(jì),通??梢圆捎脴O大似然估計(jì)法獲得參數(shù),然而極大似然估計(jì)需要知道觀測數(shù)據(jù)由哪個(gè)高斯分模型產(chǎn)生.如果不清楚觀測數(shù)據(jù)由哪個(gè)分模型產(chǎn)生,即不確定每個(gè)數(shù)據(jù)所屬的分類.這就意味著需要使用隱變量來進(jìn)行參數(shù)估計(jì),針對(duì)這種情況選取EM 算法解決GMM 模型的參數(shù)估計(jì)問題.本文選取的測井?dāng)?shù)據(jù)并不知道每個(gè)數(shù)據(jù)所屬的分類,所以選取EM 算法來估計(jì)GMM 模型的參數(shù).
EM 算法以極大似然估計(jì)為基本思想,采用迭代的方法進(jìn)行參數(shù)估計(jì).EM 算法的流程可以分為E 步驟和M 步驟.首先要初始化分布參數(shù) θ;然后重復(fù)E、M 步驟直到收斂[9-11]:
E 步驟:根據(jù)參數(shù)θ 初始值或上一次迭代所得參數(shù)值來計(jì)算出隱性變量的后驗(yàn)概率(即隱性變量的期望),作為隱性變量的估計(jì)值:
M 步驟:將似然函數(shù)最大化以獲得新的參數(shù)值:
研究數(shù)據(jù)來自蘇里格氣田41-33 區(qū)塊下古氣井的測井曲線.該地區(qū)巖性為復(fù)雜的碳酸鹽,主要有7 種巖性,分別是石灰?guī)r、白云質(zhì)石灰?guī)r、泥質(zhì)石灰?guī)r、白云巖、灰質(zhì)白云巖、泥質(zhì)白云巖和泥巖.根不同的測井參數(shù)及其不同的組合形式可以識(shí)別不同的巖性.選取的測井參數(shù)不同,巖性識(shí)別的效果具有很大的差異.因此,根據(jù)不同測井參數(shù)區(qū)分不同巖性的敏感性分析[12,13],結(jié)合人工判別巖性的經(jīng)驗(yàn),最終確定自然伽馬(GR),補(bǔ)償中子(CNL)、密度(DEN)、聲波時(shí)差(AC)、光電吸收截面指數(shù)(PE)和深側(cè)向電阻率(RLLD)六個(gè)測井參數(shù)作為樸素貝葉斯分類器的分類屬性.
分別選取石灰?guī)r、白云質(zhì)石灰?guī)r、泥質(zhì)石灰?guī)r、白云巖、灰質(zhì)白云巖、泥質(zhì)白云巖和泥巖各200 個(gè)樣本,共1400 條樣本作為測試集.其中深側(cè)向電阻參數(shù)取值范圍過大,結(jié)合先前的處理經(jīng)驗(yàn),對(duì)其進(jìn)行對(duì)數(shù)處理(log10).對(duì)六個(gè)測井曲線參數(shù)進(jìn)行量綱化,避免不同量綱對(duì)實(shí)驗(yàn)結(jié)果造成不良影響.經(jīng)過上述處理過的數(shù)據(jù),作為實(shí)驗(yàn)的訓(xùn)練集.
針對(duì)實(shí)驗(yàn)選用的訓(xùn)練集,首先分別用高斯模型和混合高斯模型對(duì)選取的6 個(gè)測井參數(shù)進(jìn)行概率密度估計(jì),然后對(duì)比概率密度估計(jì)效果.高斯模型主要是對(duì)每種巖性的不同測井參數(shù)的均值和方差進(jìn)行EM 算法迭代估計(jì),得到每種巖性的不同測井參數(shù)的均值和方差,從而得到高斯模型的參數(shù),以此作為先驗(yàn)信息構(gòu)造樸素貝葉斯分類器.而混合高斯模型是用EM 算法迭代每種巖性的不同測井參數(shù)的均值,方差以及每個(gè)高斯模型的權(quán)重,從而得到混合高斯模型的參數(shù),并以此作為先驗(yàn)信息構(gòu)造樸素貝葉斯分類器.當(dāng)樸素貝葉斯分類器處理連續(xù)屬性時(shí),通常假設(shè)連續(xù)屬性服從某種分布,這里分別用高斯分布和混合高斯分布作為連續(xù)屬性的概率密度分布函數(shù).同時(shí)對(duì)不同概率密度模型作用下的樸素貝葉斯分類器分類效果作對(duì)比,選訓(xùn)練集中的白云巖和泥巖中的AC 測井參數(shù),來對(duì)兩種不同的概率密度函數(shù)估計(jì)效果進(jìn)行分析,并根據(jù)兩種概率密度函數(shù)的曲線分析分類器的分類效果.概率密度估計(jì)效果如圖1所示.
在圖1中,根據(jù)所選取的數(shù)據(jù),左邊藍(lán)色直方圖和右邊紅色直方圖分別代表了白云巖、泥巖數(shù)據(jù)真實(shí)的分布,圖中綠色和紅色的線分別代表白云巖和泥巖的擬合的概率密度曲線,圖1(a)和圖1(b)分別為高斯模型擬合效果圖和混合高斯模型擬合效果圖.
為了更好地比較高斯模型和混合高斯模型的概率密度擬合效果,引入“誤判區(qū)”這個(gè)概念.圖2給出兩個(gè)等概率類別的例子,同時(shí)給出了最簡單情況下x的函數(shù)p(x|ωi),i=1,2 的變化情況.x0處的虛線是將特征空間分為R1,R2兩 個(gè)區(qū)域.根據(jù)貝葉斯決策規(guī)則,對(duì)于R1區(qū)域的所有x值,分類器都判定屬于 ω1,而對(duì)于R2區(qū)域的所有x值,都判定屬于 ω2.但是,從圖中可以判定錯(cuò)誤是避免的.錯(cuò)誤率Pe的計(jì)算公式為:
圖1 白云巖、泥巖AC 估計(jì)效果對(duì)比
圖2 由兩個(gè)等概率類別的貝葉斯分類器形成的R1 和R2 兩區(qū)域的例子
式(7)和圖2中的陰影部分的面積相等.因此,我們把兩條概率密度曲線交匯的陰影部分的面積稱為誤判區(qū)[14].
根據(jù)圖1,從概率密度函數(shù)的擬合效果上來看,混合高斯模型擬合的概率密度曲線比高斯模型擬合的概率密度曲線更貼近代表真實(shí)分布的直方圖.所以混合高斯模型擬合出來的概率密度曲線更符合測試集數(shù)據(jù)的真實(shí)分布情況.其次,兩種巖性的測井參數(shù)概率密度曲線與坐標(biāo)軸所圍的面積,分別代表根據(jù)AC 屬性來判斷屬于白云巖和泥巖的樣本.兩條概率密度曲線交匯部分與橫軸所圍面積代表誤判區(qū).誤判區(qū)的面積越小,代表兩種巖性基于當(dāng)前樣本的分離度越高.因此為了提高樸素貝葉斯分類器的分類的準(zhǔn)確率,在選取不同的分布模型擬合樣本的真實(shí)分布時(shí),應(yīng)該選擇誤判區(qū)的面積小的分布模型.從圖1中可以看出,混合高斯模型中,綠色和紅色兩種巖性的概率密度曲線交匯處與坐標(biāo)軸圍成的面積相比于高斯模型來說更小,因此選用混合高斯模型作為樸素貝葉斯分類器連續(xù)屬性的分布函數(shù)時(shí),往往能取得更好的分類效果.
對(duì)于1400 條訓(xùn)練樣本,我們分別采用高斯模型和混合高斯模型的概率密度估計(jì)方法對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行概率密度估計(jì).根據(jù)EM 算法得到的高斯模型均值和方差,混合高斯模型的均值、方差和權(quán)重,做出不同測井參數(shù)的概率密度曲線.針對(duì)估計(jì)出的6 個(gè)測井曲線屬性概率密度函數(shù),構(gòu)造樸素貝葉斯分類器,記錄訓(xùn)練樣本分類的準(zhǔn)確率.
圖3(a)-圖3(f)從左向右分別依次為假設(shè)AC、CNL、DEN、PE、GR、RLLD 服從高斯概率分布,采用EM 算法迭代估計(jì)出來的概率密度函數(shù)的均值和方差,從而做出的概率密度函數(shù)的圖像.
圖4(a)-圖4(f)從左向右分別依次為假設(shè)AC、CNL、DEN、PE、GR、RLLD 服從混合高斯概率分布,采用EM 算法迭代估計(jì)出來的概率密度函數(shù)的均值、方差以及每個(gè)高斯模型的權(quán)重,從而做出的概率密度函數(shù)圖像.
對(duì)比兩個(gè)圖像可以看出,采用混合高斯概率密度模型估計(jì)出的函數(shù)模型更符合實(shí)際測井曲線資料的真實(shí)分布,具有更好的擬合效果,不同巖性的測井參數(shù)的概率密度曲線交匯部分與橫軸所圍成的面積更小,即分類的誤判區(qū)面積更小.因此基于GMM 模型的樸素貝葉斯分類器分類效果應(yīng)該更好.
根據(jù)估計(jì)出來的6 個(gè)屬性的概率密度函數(shù),構(gòu)造樸素貝葉斯分類器.針對(duì)1400 條訓(xùn)練樣本進(jìn)行訓(xùn)練,統(tǒng)計(jì)分類的正確率,即巖性識(shí)別的正確率,根據(jù)單高斯模型得到的分類正確的樣本數(shù)為1106,分類準(zhǔn)確率為79%,根據(jù)混合高斯模型得到的分類正確的樣本數(shù)為1176,準(zhǔn)確率為84%.可見,混合高斯擬合的變量概率密度對(duì)于樸素貝葉斯分類器的分類準(zhǔn)確性有一定的提升.
圖3 高斯概率密度估計(jì)效果對(duì)比
選取41-33 區(qū)塊下井號(hào)為44-45 的古氣井測井曲線作為測試樣本.選取44-45 井的557 條測井曲線數(shù)據(jù),同樣選取自然伽馬(GR),補(bǔ)償中子(CNL)、密度(DEN)、聲波時(shí)差(AC)、光電吸收截面指數(shù)(PE)和深側(cè)向電阻率(RLLD)六個(gè)屬性作為分類指標(biāo)屬性,其中電阻率仍然進(jìn)行對(duì)數(shù)處理(log10).測試集的巖性識(shí)別效果如圖5所示.
從圖5可以看出,本次測試使用三種方法進(jìn)行巖性識(shí)別,鉆井巖性代表數(shù)據(jù)真實(shí)的巖性,7 種巖性分別用不同的顏色表示出來,通過和鉆井巖性一列的顏色進(jìn)行對(duì)比,可以看出巖性識(shí)別效果的優(yōu)劣.分別采用中心距離判別法,高斯模型的樸素貝葉斯和GMM 模型的樸素貝葉斯三種方法進(jìn)行測試.根據(jù)鉆井巖性對(duì)比三種方法的識(shí)別結(jié)果,通過對(duì)比三種方法識(shí)別結(jié)果和鉆井巖性的顏色可以看出,采用中心距離判別法進(jìn)行巖性識(shí)別的效果較差,因?yàn)橹桓鶕?jù)測井?dāng)?shù)據(jù)的均值來進(jìn)行分類,選擇距離均值距離最近的類別作為分類的類別,誤判區(qū)較大.而傳統(tǒng)樸素貝葉斯巖性識(shí)別效果要遠(yuǎn)優(yōu)于中心距離判別法,主要是因?yàn)樵诟怕拭芏惹€擬合的過程中,考慮了均值和方差共同的影響效果,因而巖性識(shí)別效率得到了提升.基于混合高斯模型的樸素貝葉斯分類器分類效果比傳統(tǒng)樸素貝葉斯效果分類更好,主要因?yàn)樵诟怕拭芏葦M合的過程中,相比于高斯模型,混合高斯模型能夠更好地?cái)M合測井?dāng)?shù)據(jù)的實(shí)際分布,減小分類的誤判區(qū),因而所得到的巖性識(shí)別效率最高.
本文提出了一種基于EM 和GMM 的樸素貝葉斯分類器模型用于巖性識(shí)別.通過對(duì)測井曲線參數(shù)對(duì)不同巖性的敏感度分析,選取了AC,CNL,DEN,PE,GR,RLLD 六個(gè)參數(shù)作為樸素貝葉斯的分類變量.通過EM 算法進(jìn)行參數(shù)迭代,使用混合高斯模型來擬合每個(gè)分類變量的真實(shí)概率分布,構(gòu)建貝葉斯分類器,從而實(shí)現(xiàn)巖性識(shí)別.相比于傳統(tǒng)樸素貝葉斯分類器,混合高斯模型比高斯模型具有更好的擬合效果,不同巖性之間的誤判區(qū)也更小.在訓(xùn)練集樣本中基于混合高斯模型的樸素貝葉斯分類器巖性識(shí)別準(zhǔn)確率為84%,傳統(tǒng)樸素貝葉斯分類器的準(zhǔn)確率為79%,因此基于混合高斯模型的樸素貝葉斯分類器可以提升分類器的分類效果.但是,用于構(gòu)建樸素貝葉斯分類器的變量現(xiàn)實(shí)中并不是完全獨(dú)立的,這會(huì)影響分類器的分類效果.若想得到更好的分類效果,可以借助一些專家經(jīng)驗(yàn),預(yù)估各個(gè)分類變量之間的條件依賴,或者通過貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法構(gòu)建貝葉斯網(wǎng)絡(luò),用貝葉斯網(wǎng)絡(luò)進(jìn)行分類,這樣巖性識(shí)別的準(zhǔn)確率會(huì)進(jìn)一步提升.
圖5 測試集巖性識(shí)別結(jié)果