王艷偉,夏克文,牛文佳,Ali Ahamd
(1.河北工業(yè)大學電子信息工程學院,天津300401;2.河北省大數(shù)據(jù)計算重點實驗室,天津300401)
基于低秩矩陣恢復的去噪方法在石油測井中的應用
王艷偉1,2,夏克文1,2,牛文佳1,2,Ali Ahamd1,2
(1.河北工業(yè)大學電子信息工程學院,天津300401;2.河北省大數(shù)據(jù)計算重點實驗室,天津300401)
隨著測井技術的發(fā)展,各大油田采集和存儲的測井數(shù)據(jù)量呈井噴式增長,并存在大量冗余和噪聲,在進行油氣層識別前必須對測井數(shù)據(jù)進行壓縮和去噪等預處理。低秩矩陣恢復(Low-Rank Matrix Recovery,LRMR)理論將壓縮感知(Compressed Sensing,CS)中向量樣例的稀疏表示推廣到矩陣的低秩情形,從較大但稀疏的誤差中恢復出本質(zhì)上低秩的數(shù)據(jù)矩陣,可更好地保持數(shù)據(jù)結構,提高去噪效果。因此將低秩矩陣恢復理論中的去噪方法應用于石油測井中,實現(xiàn)對測井數(shù)據(jù)的去噪處理。對比研究了加速近端梯度算法(Accelerate Proximal Gradient,APG)、精確增廣拉格朗日乘子(Exact Augmented Lagrange Multipliers,EALM)法和非精確增廣拉格朗日乘子法(Inexact Augmented Lagrange Multipliers,IALM)在測井數(shù)據(jù)中的去噪效果,對去噪前后的測井數(shù)據(jù)分別采用支持向量機(Support Vector Machine,SVM)和相關向量機(Relevance Vector Machine,RVM)進行油氣層識別,結果表明,與不去噪情況相比,利用三種算法進行去噪處理后油氣層識別精度都有了顯著提升。通過參數(shù)優(yōu)化減少迭代次數(shù),可使得IALM算法在運算時間上優(yōu)于EALM算法和APG算法,明顯提高了運算效率。
石油測井;數(shù)據(jù)去噪;低秩矩陣恢復;加速近端梯度算法;增廣拉格朗日乘子法
在油氣測井過程中,所得測井數(shù)據(jù)量龐大,其中必定存在大量的數(shù)據(jù)冗余和噪聲[1],在進行油氣層識別前需要進行數(shù)據(jù)壓縮和去噪等預處理,并保證數(shù)據(jù)處理后滿足識別所需的最小精度。傳統(tǒng)的壓縮感知(CS)算法在數(shù)據(jù)壓縮和噪聲去除方面[2]均可達到令人滿意的效果,但其沒有充分利用數(shù)據(jù)本身的稀疏與低秩結構[3]。低秩矩陣恢復(LRMR)是在壓縮感知基礎上發(fā)展起來的一種數(shù)據(jù)處理方法[4-5],主要由魯棒主成分分析、矩陣補全和低秩表示等三類模型組成。它將CS向量樣例的稀疏表示推廣到矩陣的低秩情形,已成為繼CS之后又一種重要的數(shù)據(jù)獲取和表示方式。該方法注重探索數(shù)據(jù)內(nèi)在規(guī)律及本質(zhì)結構,考慮從較大但稀疏的誤差中恢復出本質(zhì)上低秩的數(shù)據(jù)矩陣。有時在不同的場合,低秩矩陣恢復也被稱為矩陣低秩稀疏分解,即依據(jù)相關訓練樣本的類內(nèi)信息對數(shù)據(jù)進行處理,將一個矩陣分解為一個低秩矩陣和一個稀疏矩陣之和的形式,再通過求解核范數(shù)優(yōu)化問題來恢復低秩矩陣,這樣可更好地保持數(shù)據(jù)結構,處理效率更高,恢復去噪效果更好[6]。
本文根據(jù)低秩矩陣恢復[7-8]的思想,提出基于低秩矩陣恢復理論的測井數(shù)據(jù)去噪方法,即將加速近端梯度[9-10](APG)算法和增廣拉格朗日乘子[11](ALM)法應用于測井信號的去噪處理中,并對去噪后的測井數(shù)據(jù)分別采用支持向量機[12-13](SVM)和相關向量機[14](RVM)進行分類和識別,以期取得更為理想的測井效果。
1.1 基于LRMR的去噪方法原理
假設矩陣D∈Rm×n由一個低秩矩陣A和一個稀疏噪聲矩陣E組成,則LRMR可用如下優(yōu)化問題來求解:
(1)
由于無法得到(1)式的閉合解,用凸優(yōu)化方法得到增廣拉格朗日函數(shù):
(2)
式中,μ為常數(shù)。若μ大于0并接近于0,那么(2)式的解可近似為(1)式的解,記為:
(3)
(3)式是光滑的,并且具有李普希茲(Lipschitz)連續(xù)梯度,存在Lf>0,使得:
(4)
ALM算法[6]將本文的優(yōu)化問題凸松弛到一個拉格朗日函數(shù)上,EALM算法每一步并不需要求出其子問題的精確解,而是交替地迭代矩陣A和E,直到滿足終止條件為止。實際上,我們只需要更新A與E各一次得到子問題的一個近似解,就足以使算法最終收斂到原問題的最優(yōu)解,從而得到一個更簡潔且收斂更快的IALM算法。三種去噪算法的具體步驟分別如表1~表3所示。
1.2 基于LRMR的去噪方法流程
在樣本分類過程中,大量噪聲的存在會在很大程度上影響分類器的分類預測效果。為了提高去噪效果進而提高分類準確率,本文給出基于低秩矩陣恢復的去噪方法流程(圖1)。
基于LRMR的去噪方法主要過程如下:
1) 輸入待恢復去噪矩陣;
2) 設定APG,EALM,IALM三種算法的收斂條件和最大迭代次數(shù),并調(diào)用三種算法進行低秩矩陣恢復去噪處理;
3) 對低秩矩陣恢復去噪后的結果進行輸出。
表1 APG算法
表2 EALM算法
表3 IALM算法
圖1 基于LRMR的去噪方法流程
油氣層識別是石油勘測與開發(fā)的重要環(huán)節(jié)之一,是測井分析專家以及地質(zhì)專家的研究重點。由于測井數(shù)據(jù)信息量巨大,樣本空間復雜,以及極易受噪聲的侵擾,因此,實際油氣層識別難度很大。為解決大量噪聲對油氣層識別帶來的困難,充分發(fā)揮測井數(shù)據(jù)的作用,我們用低秩矩陣恢復去噪算法APG/EALM/IALM進行測井數(shù)據(jù)去噪,并對去噪后的測井數(shù)據(jù)分別采用SVM/RVM進行油氣層分類,以期取得令人滿意的油氣層識別效果。
2.1 油氣層識別實現(xiàn)步驟
經(jīng)低秩矩陣恢復去噪后的測井數(shù)據(jù)油氣層識別模型如圖2所示。
油氣層識別的具體步驟如下:
1) 訓練樣本信息選取及樣本信息的預處理。應盡量選取能夠代表各深度特性的數(shù)據(jù)作為訓練樣本集,確保訓練樣本信息準確、全面、不重復。為了便于識別,還要將樣本做歸一化處理。待識別信息及測試樣本在屬性約簡[15]后也要做歸一化處理。
2) 樣本信息屬性約簡。采用基于屬性重要性的約簡方法對訓練樣本進行屬性約簡。在識別過程中,待識別信息要按照訓練樣本屬性約簡后的結果剔除冗余屬性。
3) SVM/RVM分類器建模。即將屬性約簡后的樣本集作為輸入信息,建立經(jīng)典的高斯核SVM/RVM分類器模型。
4) 結果輸出。通過分類器完成對油氣層的識別,輸出識別結果和識別效果圖。
2.2 實際氣層識別應用
某氣田Su6井為低產(chǎn)、低含氣豐度、大面積分布的隱蔽性巖性氣藏。該氣田測井得到的數(shù)據(jù)中不可避免地含有大量的冗余和噪聲,利用常規(guī)的油氣層識別方法對氣層進行定量評價存在很大困難,因此采用APG/EALM/IALM三種算法進行了低秩矩陣恢復去噪處理。
Su6井研究深度800m,有13種測井屬性,分別是自然伽馬(GR)、聲波時差(DT)、自然電位(SP)、微球聚焦(WQ)、深側向電阻率(LLD)、淺側向電阻率(LLS)、補償密度(DEN)、補償中子(NPHI)、光電吸收截面指數(shù)(PE)、鈾(U)、釷(TH)、鉀(K)、井徑(CALI)。以0.125m為采樣間隔(每米8個采樣點)進行采樣,所獲測井數(shù)據(jù)共有6401個深度點,樣本信息的決策屬性為{非氣層,氣層}。令決策屬性為D=ltpnzhb,d={di=i,i=0,1},其中0和1分別代表非氣層和氣層。對于條件屬性的離散化處理采用基于曲線拐點的離散化算法[16]分別對每個屬性各自單獨離散化。首先將屬性值由小到大排列,找出可能的拐點位置,然后根據(jù)一定的原則篩選出合適的離散點。對于經(jīng)過離散化處理的樣本決策表,采用差別矩陣約簡法[17]約簡為GR,DT,SP,LLD,LLS,DEN,K七個屬性。另外,由于各種屬性的量綱不一,數(shù)值范圍各異,為避免建模計算中出現(xiàn)飽和現(xiàn)象,必須對樣本數(shù)據(jù)進行歸一化處理,使輸入的樣本數(shù)據(jù)大小在[0,1]之間。歸一化公式如下:
圖2 經(jīng)過LRMR去噪后的油氣層識別模型
(5)
其中,x∈[xmin,xmax],xmin,xmax分別為最小值和最大值。
為保密起見,本文只列出一部分歸一化后的測井數(shù)據(jù)(表4)。圖3為屬性約減后7個屬性在某井段之間的歸一化曲線圖,其中橫軸表示深度(因保密需要,將實際井段深度做了平移),縱軸表示歸一化的值。
對Su6氣井數(shù)據(jù)進行了實際應用分析,運行環(huán)境基于Windows7操作系統(tǒng)平臺,內(nèi)存2.00GB,處理器為Intel Core i3 CPU,主頻參數(shù)為2.30GHz。
2.2.1 支持向量機測井識別
分別采用APG,EALM和IALM算法對研究區(qū)測井數(shù)據(jù)進行低秩矩陣恢復去噪,運算過程中取最大迭代次數(shù)為10000,收斂條件為10-7。用經(jīng)典的高斯核支持向量機進行分類,選取某關鍵井段的100個深度點作為訓練樣本集進行訓練,并對恢復去噪之后的所有深度數(shù)據(jù)樣本進行識別測試。為直觀起見,對所有測井數(shù)據(jù)進行識別后,只取其中100個點來展示識別效果(圖4)。圖4a為直接對原始數(shù)據(jù)使用支持向量機識別的結果,圖4b至圖4d分別為經(jīng)過APG,EALM和IALM低秩處理后支持向量機識別的結果。其中橫坐標為選取的100個測試樣本點,縱坐標為決策屬性,“1”代表非氣層,“2”代表氣層,藍色“○”表示實際分類標簽,紅色“*”表示識別結果,紅色“*”和藍色“○”不重合的點即為錯分點。
表4 部分歸一化測井數(shù)據(jù)
圖3 經(jīng)過歸一化后的屬性曲線a GR,DT,SP; b LLD,LLS,DEN,K
圖4 支持向量機識別結果對比a 原始數(shù)據(jù); b APG算法處理后; c EALM算法處理后; d IALM算法處理后
2.2.2 相關向量機測井識別
分別采用APG,EALM和IALM算法對研究區(qū)測井數(shù)據(jù)進行低秩矩陣恢復去噪,將Su6氣井屬性約減后的樣本數(shù)據(jù)作為訓練樣本,用經(jīng)典RVM模型進行訓練,對恢復去噪后所有深度的測井數(shù)據(jù)進行識別測試。為直觀起見,只取某關鍵井段100m來展示識別效果(圖5)。圖5a為直接對原始數(shù)據(jù)使用相關向量機識別的結果,圖5b至圖5d分別為經(jīng)過APG,EALM和IALM低秩處理后相關向量機識別的結果。其中橫坐標為選取的測井深度,縱坐標為決策屬性,“0”代表非氣層,“1”代表氣層。
圖5 相關向量機識別結果對比a 原始數(shù)據(jù); b APG算法處理后; c EALM算法處理后; d IALM算法處理后
2.3 氣層識別效果分析
表5展示了實際測井數(shù)據(jù)不同分類方法識別氣層的性能指標。由表5可見,用APG,EALM和IALM算法對原始測井數(shù)據(jù)進行低秩矩陣恢復去噪后,支持向量機對氣層的識別準確率分別為89.95%,90.30%,90.30%,相關向量機對氣層的識別準確率分別為89.35%,90.15%和91.90%,相比去噪之前,識別準確率有了明顯提升。由圖5d可知,氣層主要分布在3111~3113m,3115~3128m,3130.5~3131.5m,3136~3140m,3174~3183m井段(為保密起見,與實際井段有一個平移深度),識別結果符合實際測井情況。IALM算法在運算時間上明顯優(yōu)于EALM算法和APG算法。由此可知,在處理含有大量噪聲的測井數(shù)據(jù)時,先進行低秩矩陣恢復去噪處理能有效提高分類效率和分類準確率,其中IALM算法對運算效率的提高最為明顯。
表5 測井數(shù)據(jù)不同分類方法性能指標對比
本文研究了低秩矩陣恢復去噪算法在石油測井中的應用,對APG,EALM和IALM算法的應用效果進行了對比。該方法充分利用了數(shù)據(jù)本身的稀疏與低秩結構,將傳統(tǒng)壓縮感知算法向量樣例的稀疏表示推廣到矩陣的低秩情形,使得數(shù)據(jù)處理更加高效和靈活。測井數(shù)據(jù)識別結果表明,IALM算法相比APG和EALM算法無論是氣層分類的效率還是識別的精度都具有更好的效果。識別結果符合實際測井情況,在石油開發(fā)中具有重要意義。
[1] 陳鋼花,張蕾,宋國奇,等.測井資料在確定不整合面深度中的應用[J].石油物探,2008,47(3):311-314 CHEN G H,ZHANG L,SONG G Q,et al.The application of well logging data in determined unconformity depth[J].Geophysical Prospecting for Petroleum,2008,47(3):311-314
[2] NIU W J,XIA K W,XIA X Y,et al.Logging data compression method based on sparse solution[J].Journal of Computational Information Systems,2014,10(19):8523-8530
[3] 張楠.低秩鑒別分析與回歸分類方法研究[D].南京:南京理工大學,2012 ZHANG N.Low-rank representation based discrimination and regression based classification[D].Nanjing:Nanjing University of Science,2012
[4] 馬堅偉,徐杰,鮑躍全,等.壓縮感知及其應用:從稀疏約束到低秩約束優(yōu)化[J].信號處理,2012,28(5):609-623 MA J W,XU J,BAO Y Q,et al.Compressive sensing and its application:from sparse to low-rank regularized optimization[J].Signal Processing,2012,28(5):609-623
[5] 于瑞國.維數(shù)約減算法研究及其在大規(guī)模文本數(shù)據(jù)挖掘中的應用[D].天津:天津大學,2008 YU R G.Research of dimensionality reduction and its application on data mining of large-scale text[D].Tianjin:Tianjin University,2008
[6] CANDES E J,TAO T.The power of convex relaxation:near-optimal matrix completion[J].IEEE Transactions on Information Theory,2010,56(5):2053-2080
[7] ZHOU Z H,WRIGHT J,CANDES E J,et al.Stable principal component pursuit[C]∥ Proceedings of 2010 IEEE International Symposium on Information Theory (ISIT).Austin,TX:IEEE Press,2010:1518-1522
[8] GANESH A,WRIGHT J,MA Y.Fast algorithms for recovering a corrupted low-rank matrix[C]∥ IEEE International Workshop on Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP).3rd ed.Aruba,Dutch Antilles:IEEE Press,2009:213-216
[9] TOH K C,YUN S.An accelerated proximal gradient algorithm for nuclear norm regularized least squares problems[J].Pacific Journal of Optimization,2010,6(11):615-640
[10] SHEN Y,WEN Z,ZHANG Y.Augmented lagrangian alternating direction method for matrix separation based on low-rank factorization[J].Optimization Methods and Software,2012,29(2):239-263
[11] VAPNIK V N.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999
[12] 劉得軍,冉群英,王斌.支持向量機在大慶齊家凹陷測井解釋中的應用[J].石油物探,2007,46(2):151-161 LIU D J,RAN Q Y,WANG B.The application of support vector machine in Daqing Qijia sag logging interpretation[J].Geophysical Prospecting for Petroleum,2007,46(2):151-161
[13] TIPPING M.Sparse Bayesian learning and the relevance vector machine[J].Machine Learning Research,2001,32(2):211-244
[14] CHEN D G,ZHAO S Y.Sample pair selection for attribute reduction with rough set[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(11):2080-2093
[15] 夏克文,劉明霄,張志偉,等.基于屬性相似度的屬性約簡算法[J].河北工業(yè)大學學報,2005,34(4):20-23 XIA K W,LIU M X,ZHANG Z W,et al.An approach to attribute reduction based on attribute similarity[J].Journal of Hebei University of Technology,2005,34(4):20-23
[16] 劉明霄.基于粗糙集的屬性約簡及其應用研究[D].天津:河北工業(yè)大學,2007 LIU M X.Study on attribute reduction based on rough set and its application[D].Tianjin:Hebei University of Technology,2007
[17] 夏克文,宋建平,李昌彪.基于粗集和神經(jīng)網(wǎng)絡的石油數(shù)據(jù)挖掘方法[J].信息與控制,2003,32(4):300-303 XIA K W,SONG J P,LI C B.An approach to oil log data mining based on rough set & neural network[J].Information and Control,2003,32(4):300-303
(編輯:戴春秋)
Adenoisingmethodbylow-rankmatrixrecoveryanditsapplicationinoilwelllogging
WANG Yanwei1,2,XIA Kewen1,2,NIU Wenjia1,2,Ali Ahamd1,2
(1.CollegeofElectronicsandInformationEngineering,HebeiUniversityofTechnology,Tianjin300401,China;2.KeylaboratoryofbigdatacomputationofHebeiprovince,Tianjin300401,China)
With the development of well logging techniques,the repository of data in the major oil fields has shown an enormous growth.Presence of redundancy and noise in well logging data requires the data to be compressed and denoised to make it useful for recognition of oil and gas layers.Low-rank matrix recovery (LRMR) theory generalizes the sparse representation of vector samples in compressed sensing (CS) to the matrix of low rank case.This theory considers recovery of the low-rank data matrix from large and sparse errors,leading to better maintenance of data structure and achieving a superior denoising effect.Thus,here we propose a denoising method through low-rank matrix recovery,and application of its three algorithms (accelerated proximal gradient (APG) algorithm,exact augmented Lagrange multiplier (EALM),and inexact augmented Lagrange multiplier (IALM)) to oil well logging data to improve the denoising effect.Pre- and post-denoising logging data were consequently used in oil and gas layer recognition by support vector machine (SVM) and relevance vector machine (RVM),respectively.Results show that oil and gas layer recognition accuracy is improved remarkably by the three denoising algorithms,compared to when denoising was not applied.IALM algorithm was superior to EALM and APG algorithms,through parameter optimization to reduce the number of iterations,which could obviously improve the operation efficiency.
oil well logging,data de-noising,low rank matrix recovery,accelerated proximal gradient (APG) algorithm,augmented Lagrange multiplier (EALM) algorithm
P631
:A
1000-1441(2017)05-0644-07DOI:10.3969/j.issn.1000-1441.2017.05.004
王艷偉,夏克文,牛文佳,等.基于低秩矩陣恢復的去噪方法在石油測井中的應用[J].石油物探,2017,56(5):650
WANG Yanwei,XIA Kewen,NIU Wenjia,et al.A denoising method by lowrank matrix recovery and its application in oil well logging
[J].Geophysical Prospecting for Petroleum,2017,56(5):650
2016-03-07;改回日期:2016-12-22。
王艷偉(1991—),女,碩士在讀,研究方向為石油測井、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等。
河北省自然科學基金(E2016202341)資助。
This research is financially supported by Hebei Province Natural Science Foundation (Grant No.E2016202341).