李 龍 管 潔
(東北石油大學計算機與信息技術學院 大慶 163318)
鉆井過程中,扭矩和鉆壓會在鉆進過程中出現(xiàn)異常點,機械比能模型[11]容易受到鉆壓、扭矩等敏感因素的影響,因此有必要對影響機械比能評價的因素中的異常數(shù)據(jù)進行檢測,提高數(shù)據(jù)以及評價的準確性。傳統(tǒng)的基于統(tǒng)計的異常數(shù)據(jù)的挖掘算法大致有3σ準則、四分位(箱線圖)等。而基于距離的異常數(shù)據(jù)挖掘算法原理較為簡單,使用方便,在數(shù)據(jù)集分布均勻的情況下,檢測效果較好。所以本文應用基于距離的異常點檢測算法,對機械比能評價模型進行補充,使得評價結果更加準確,這對于儲層物性評價具有重要意義。
在統(tǒng)計學中,離群值是不屬于特定總體的數(shù)據(jù)點,是遠離其他值的離群值。離群值不同于其他結構良好的數(shù)據(jù)。
隨機誤差的分布密度為
式中:δ為隨機誤差;若不考慮系統(tǒng)誤差,則δ=x-μ,是的數(shù)學期望;μ為X 的數(shù)學期望;σ為隨機誤差δ的標準差,也是測量總體X的標準差。
由分布密度f(δ)的定義可知,δ在δ1和δ2之間內(nèi)取值的概率應為相應區(qū)間上密度函數(shù)的積分,即
對于給定的誤差界限±δ,即可根據(jù)由概率積分求得值出現(xiàn)在[-δ,+δ]范圍內(nèi)的概率。隨機誤差在范圍內(nèi)出現(xiàn)在[μ-3δ,μ+3δ]的概 率0.9973,出現(xiàn)在[μ-2δ,μ+2δ]的概率0.9545。
3σ標準是假設一組測試數(shù)據(jù)只包含隨機誤差,計算并處理得到標準差,并按一定概率確定區(qū)間。認為超出該區(qū)間的誤差不屬于隨機誤差誤差,而屬于粗差,應剔除含有該誤差的數(shù)據(jù)。判別處理的原理和方法僅限于正?;蚪普龖B(tài)分布樣本數(shù)據(jù)的處理[18~19]。其前提是測量數(shù)量足夠大(樣本>10)。當測量次數(shù)較少時,用該準則消除粗差是不可靠的。
圖1 3σ標準圖
可以認為幾乎所有的Y值都集中在(-3,+3)范圍內(nèi),超過這個范圍的概率小于0.3%,因此,如果你有任何數(shù)據(jù)點超過標準差的3 倍,那么這些點很有可能是異常值或離群點。
箱形圖是數(shù)字數(shù)據(jù)通過其四分位數(shù)形成的圖形化描述。這是一個很簡單但是很有效的方法來顯示異常值。想一想上面和下面的觸須就是數(shù)據(jù)的分界線。在上面或下面的任意一任何高于上觸須或低于下觸須的所有數(shù)據(jù)點,都可以看作是離群點,也可以看作是孤立點。
四分位間距(IQR)的概念被用于構建箱形圖。IQR 是統(tǒng)計學中的一個概念,通過將數(shù)據(jù)集分成四分位來衡量統(tǒng)計分散度和數(shù)據(jù)可變性。簡單來說,任何數(shù)據(jù)集或任意一組觀測值都可以根據(jù)數(shù)據(jù)的值以及它們與整個數(shù)據(jù)集的比較情況被劃分為四個確定的間隔。四分位數(shù)會將數(shù)據(jù)分為三個點和四個區(qū)間。
圖2 箱線圖
四分位間距對定義離群點非常重要。它是第三個四分位數(shù)和第一個四分位數(shù)的差(IQR=Q3-Q1)。在這種情況下,離群點被定義為低于箱形圖下觸須(或Q1-1.5·IQR)或高于箱形圖上觸須(或Q3+1.5·IQR)的觀測值。
Knorr和Ng[1]本文首先采用一種新的算法來發(fā)現(xiàn)異常值。他們覺得異化了這些點如下所示:在一個數(shù)據(jù)集中,有一個或多個數(shù)據(jù)點與另一個或多個一定的門限D(zhuǎn),本質(zhì)上就是視異常為在D區(qū)域中近乎不存在的鄰近的那一點。
表1 參數(shù)及意義
在數(shù)據(jù)集中,離群點并非在每一個屬性中都存在,只有在某些屬性中才會出現(xiàn)離群點??偟貋碚f,選擇這些研究價值屬性是該領域?qū)<业呢熑?。然而,針對終端操作員缺乏相關專業(yè)知識,難以從海量數(shù)據(jù)中篩選出對數(shù)據(jù)穩(wěn)定性有較大影響且有研究價值的問題,提出了屬性隸屬度概念。它可以反映出每一種屬性的檢測結果。即使在沒有域?qū)<业那闆r下,終端操作員也能根據(jù)每一種屬性的“屬性從屬程度”來選擇最適合的探測屬性。
屬性隸屬度:數(shù)據(jù)集中任何數(shù)據(jù)的任何屬性,都有一個相應的數(shù)字μ(ω),也就是這個屬性的屬性隸屬度,μ(ω)即該屬性的編號,表示為
當屬性的μ(omega)值較大時,屬性值波動較大,檢測值較高時,則更容易被檢測到。μ(omega)值較小時,屬性值波動較小,探測值較低,容易被忽視。
針對由于數(shù)據(jù)分布不均勻而造成的檢測準確率不高的問題,對距離測量進行了改進,以Minkowski距離作為例子,表示為
其中λk定義為
對于非均勻性數(shù)據(jù),基于公共距離的離群點檢測方法往往效果不佳[2~4]。當數(shù)據(jù)點分布于稠密和稀疏兩種情況下,由k 個最近鄰點組成的局部區(qū)域具有區(qū)分性。
根據(jù)傳統(tǒng)的基于距離的離群點檢測算法,能改變原始的正態(tài)[18~19]范圍,將頻繁的數(shù)據(jù)點標記為離群點[5]。
圖3 顯示了拋物線形狀的非均勻分布數(shù)據(jù)集。假定A 點是s 數(shù)據(jù)集中的一個異常點,B 點是s數(shù)據(jù)集中的一個正常點,如果B 點到K 個最近鄰的距離之和大于A 點到K 個最近鄰的距離之和,傳統(tǒng)的基于距離的算法可能會將B 點視為一個異常點并將其視為點A為正常量數(shù)據(jù)點[6~7]。
圖3 不均勻分布的散點圖
設dA(k) 步驟如下所示。 步驟1:假設該數(shù)據(jù)經(jīng)過了標準化,則會對該數(shù)據(jù)集的第一個數(shù)據(jù)和dij其它數(shù)據(jù)之間的距離進行比較。 步驟2:該數(shù)據(jù)點與K 個最接近的鄰域(K)的距離的總和由步驟1獲得。 步驟3:計算K,找出數(shù)據(jù)點與其他數(shù)據(jù)點之間的改進距離dMij,kdij。步驟4:循環(huán)步驟1 到步驟3,直到計算出數(shù)據(jù)集中所有數(shù)據(jù)點的dMij,形成一個主對角線元素為0的對稱矩陣P: 這個方法是這樣來描述的:1)在一個矩陣P中,每一個元素都代表兩個點的間距。舉例來說,d12M代表了一個點與一個點的間距。2)作為對矩陣P 中第?i行元數(shù)之和進行評估的一個重要指標,該指標的數(shù)值愈大,則該指標的數(shù)值愈大,則該指標的數(shù)值愈小,則該指標與其它指標的距離愈大。那就意味著,這里的情況要比別的地方更加反常。 實驗選取100 組解釋評論數(shù)據(jù)進行離群點監(jiān)測,每條記錄包含5個屬性(rop,wob,RPM,TORQUE,gwjs)。通過怎么算每一個屬性的值,選值最大的兩個屬性。經(jīng)篩選后的數(shù)據(jù)集如表2 所示。 表2 部分數(shù)據(jù)集 在實驗中所用的距離度量為q=2 時的Minkowski 距離進行計算,即當k=30 時,距離和矩陣P為 由矩陣P 可計算出100個?值,對?值進行降序排列,設用戶期望的異常值為4,則可得到四個異常點,如表3所示。 表3 異常點檢測結果 表4 機械比能分級 表5 實驗結果 根據(jù)輸出結果,若數(shù)據(jù)點的距離之和為遞減順序,那么可以將前四條記錄,也就是序號為6、35、100、61 的數(shù)據(jù)與其他點的距離之和最大,從而判斷為異常數(shù)據(jù)。 數(shù)據(jù)歸一化處理:使用最大最小值歸一化方法[17],公式如下: 按段尋找相應的最大值max 和最小值min,則機械比能[14]的歸一化如下: 1)鉆壓和扭矩做功的機械比能模型[11]: 式中:WOB 為鉆壓[16],N;Ab 為鉆頭面積[16],m2;T 為扭矩[16],N.m;RPM 為轉(zhuǎn)盤轉(zhuǎn)速,r/min;ROP 為機械鉆速,m/min;MSE為機械比能,MPa。 2)地層物性指數(shù)模型: 地層物性指數(shù)[15]位于1 附近,1 為正常壓實地層,該值小于1,機械比能基值呈現(xiàn)負異常,指示物性好的地層,該值越低,地層的物性越好。 3)機械比能分級(物性指數(shù)) 在古城10 井、城探1 井等進行了應用,在基于距離的異常點檢測算法基礎上,通過機械比能基值線,計算分析得出物性指數(shù)P,根據(jù)P 值的大小來評價儲層物性的好壞,物性指數(shù)越大,說明物性越差,越小說明物性越好:Ⅰ好儲層:<0.4;Ⅱ較好儲層0.5~0.4;Ⅲ中等儲層0.63~0.5;較差儲層0.7~0.63;無效儲層φ<P>0.7。儲層物性[12~13]自動評價準確率在88.35%以上。 本文所建立的異常點檢測模型對儲層物性的評價正確率較高,將本模型用于基于機械比能的儲層的物性自動評價,在誤差允許的范圍內(nèi)可以代替人工。且在古城10 井、城探1 井等進行了應用,儲層物性自動評價準確率在88.35%以上。因此,本模型在儲層物性評價方面具有良好的適用性與可行性,具有一定的工程意義和使用價值。3.3 基于距離的異常點檢測算法
4 實驗設計
5 儲層物性評價過程
5.1 數(shù)據(jù)歸一化
5.2 物性評價
5.3 應用實驗結果
6 結語