李洪奇 ,張艷麗 ,楊景海 ,朱麗萍 ,趙艷紅 ,裴建亞
1.中國石油大學 地球物理與信息工程學院,北京 102249 2.中國石油大學 油氣數據挖掘北京市重點實驗室,北京 102249 3.大慶油田測試技術服務分公司,黑龍江 大慶 163000
特征聚類在油田測試方案優(yōu)化中的研究
李洪奇1,2,張艷麗1,2,楊景海3,朱麗萍1,2,趙艷紅1,2,裴建亞3
1.中國石油大學 地球物理與信息工程學院,北京 102249 2.中國石油大學 油氣數據挖掘北京市重點實驗室,北京 102249 3.大慶油田測試技術服務分公司,黑龍江 大慶 163000
針對油田注產剖面動態(tài)測試在選井上沒有一個合適參考標準的問題,提出利用基于特征的聚類將油井按照生產狀況進行先聚類再分類的方法。首先對油井生產時間序列數據選擇處理,然后提取序列特征進行聚類,并把聚類結果劃分等級,最后制定油田測試優(yōu)化方案。實驗結果表明,提取的時間序列特征能很好地表征油井生產波動情況,獲得較好地分類效果,對指導油田測試有重要意義。
特征;聚類和分類;時間序列;油田測試優(yōu)化
目前我國的主要油田已經處于高含水開發(fā)后期,如何指導油田生產、穩(wěn)定產量成為亟待解決的問題[1]。而隨著油田建設已進入了信息化和數字化階段,產生了大量按照時間順序存儲的生產相關數據信息(即時間序列數據),為數據挖掘提供了研究與分析的機會。如今,大數據分析技術已經在油田生產優(yōu)化、油氣藏干預與優(yōu)化等領域有所應用,但在油田測試領域仍是空白。
注產剖面測試資料是分析儲層吸水和產出狀況[2]的重要依據,尤其對于高含水油井而言,測試資料對穩(wěn)定生產意義重大。根據《油田開發(fā)管理綱要》(以下簡稱《綱要》)要求,應選取油井開井數10%~15%以上的井每年測產液剖面一次。但因缺乏科學合理的選擇標準以及受到時間、人力等因素制約,實際測試比例非常低。以大慶油田為例,一年僅有5%左右的井參與了測試。那么,利用時間序列數據挖掘技術高效地將油井按照生產情況進行聚類,在有限的條件下選擇出具代表性的井參與測試,最大化測試價值,將是數據挖掘技術在油田生產領域中應用的又一突破。
油井的產油量時間序列數據能夠體現油井的生產狀況,所以本文將其作為研究對象。但是時間序列數據具有動態(tài)變化和高維度的特性[3],直接在原始數據上聚類不僅會增加聚類復雜度,還會使得聚類結果受到時間因素影響。文獻[4]從統計分布特征、非線性和傅里葉頻譜轉換等三個方面對時間序列數據提取全局特征建立特征向量進行聚類分析。文獻[5]運用成分分析法提取時間序列特征后再聚類,提出了基于獨立成分分析的單變量時間序列多路歸一化割譜聚類方法。為將油井能按照生產狀況進行歸類,本文通過提取原始時間序列數據的基本統計特征、時域特征和混沌性特征[6]三類體現油井生產狀態(tài)的特征來對實現時間序列數據的降維處理[7]。
在聚類方法上,文獻[8]結合小波變換技術提出一種新的迭代式聚類算法,優(yōu)化高維聚類對初始矩陣中心高敏感性的問題,提高了聚類效果。文獻[9]在聚類過程中將CURE和減聚類方法相結合,以獲得自適應的聚類個數和中心??紤]到油田既有測試比例的要求又有實際測試限制,所以本文利用基于遺傳算法的K-Means組合層次聚類方法進行聚類分析,使得首次聚類結果能滿足規(guī)定的比例要求,二次聚類得到的簇類譜系圖能滿足實際情況下測試比例的調整需求,最終給出優(yōu)化方案。
時間序列數據挖掘用于聚類的主要研究技術有時間序列數據預處理、時間序列數據的表示、時間序列相似性度量和時間序列聚類[10]。
(1)時間序列數據預處理
在數據挖掘過程中,數據預處理極大影響著最后的挖掘效果。油田測試方案目的是挑選出生產波動狀況大、存在異常的井作為重點測試井,所以選擇油井日產油量時間序列,作為研究對象。另外,按照油田生產實際,剔除長期關井導致生產“平穩(wěn)”的數據,以免干擾分析結果。
(2)時間序列數據的表示
油田開發(fā)是一個復雜的非線性動力學系統,油田產量變化受多種因素(如地質因素、流體性質、開采方式等)制約,這些因素導致油井生產時間序列表現形式既有確定性又有隨機性[11-12],對這樣的數據進行分析困難重重。根據小波分析理論,時間序列經過多次小波變換后,其趨勢項、周期項和隨機項就能從原序列中獲得較好的分離,最終將非平穩(wěn)的時間序列轉換為平穩(wěn)的時間序列,從而降低了數據分析的難度[13-14]。為了獲得時間序列數據的總體趨勢和變換后的平穩(wěn)分量,本文采用wavedec函數對其進行多尺度分解。
(3)時間序列相似性度量
相似性度量是衡量對象之間關系的標準,也是時間序列數據聚類和分類的基礎。相似性度量包含相似度和距離兩個相對的概念,在一定環(huán)境下,兩者是等價的。因為聚類對象是時間序列的特征集,而且特征項屬于靜態(tài)數據,所以通?;谔卣鞯木垲惙椒ú捎玫氖菤W式距離法[15]。
(4)時間序列聚類
基于劃分的K-means聚類算法和層次聚類算法是最主要的兩種聚類方法。其中,K-means屬于快速聚類算法,它雖然需要預先指定聚類個數,但能處理大數據集,可以很好應對油田海量數據的現狀。另外,針對K-means簇初始化問題,許多文獻都已經提出了改進算法,這里采用基于遺傳算法的K-means聚類算法,可以避免陷入局部最優(yōu)[16]。層次聚類算法能把整個數據集的譜系關系展示出來,通用性強,但卻不能很好地支持大數據集。所以,將這兩種聚類算法進行組合,令均值聚類的輸出作為層次聚類的輸入,實現優(yōu)勢互補不失為一種很好的聚類方案。
綜合時間序列數據挖掘流程和油田測試方案優(yōu)化目標,獲得一個比較完整的數據分析模型來實現油田測試方案優(yōu)化,如圖1所示。
圖1 油井生產時間序列分析模型
小波變換是把某一被稱為基本小波的函數作位移τ后,在不同尺度a下,與待分析信號X(t)作內積,即:a>0,作用是對基本小波φ(t)函數作伸縮,τ可正可負,它們都是連續(xù)變量,則稱為連續(xù)小波變換。在實際應用中,常常要把連續(xù)小波離散化,即對a和τ進行采樣,離散小波變換一般仍然具備連續(xù)小波變換具有的性質。
本文利用Matlab中的wavedec函數對時間序列數據X(t)進行N層分解,分解成包含低頻分量的體現時間序列數據變換趨勢的尺度信號和包含高頻分量及噪聲的細節(jié)信號。
以大慶油田某區(qū)塊的一口井為例,四層分解結果如圖2所示。x是原始數據,a4是數據的長期走勢,即大尺度趨勢成分,d1、d2、d3、d4分別是不同頻率的小尺度成分。其中,d1、d2可以認為是隨機項不予考慮,d3是分離掉趨勢項的分量,d4是分離掉噪聲后的分量。4個小尺度成分圍繞0上下波動,說明時間序列的趨勢項已經得到了很好的分離,非平穩(wěn)時間序列已經轉換為平穩(wěn)時間序列。
圖2 產油量時間序列4層分解結果圖
從日產油量時間序列分解后的趨勢分量和去噪分量中提取基本統計特征、分布特征、模型特征和混沌性特征描述時間序列的全局特征,可以不必考慮時間序列數據的長度和信息是否有丟失,如表1。但這些特征項的度量單位各不相同,組合特征集之前必須進行標準化處理,將有量綱的數轉為無量綱的數,本文綜合數據特點和計算效率等因素,采用最大-最小標準化處理,將所有數值變成絕對值在[0,1]之間的小數。
表1 油井生產時間序列特征項
針對大慶油田某區(qū)塊的油井日產油量數據,采用油井生產時間序列分析模型將所有的油井按照生產狀況進行劃分,并將劃分結果結合實際生產數據進行分析評判。
選擇2014年1月1日至2015年1月1日的日產油量數據,該地區(qū)的油井總數為303,生產井(指在2014年一年內有過開井生產記錄的井)數目301。
根據第2章和第3章講解的時間序列數據集處理和特征集的構建過程,將上述所有生產井的時間序列數據提取特征并歸一化,部分結果如表2所示。
表2 油井生產時間序列特征歸一化值(部分)
根據《綱要》中對于每年測試油井個數10%~15%的比例要求,大約需要聚成30~45個類。因此本文取最大類,K=45。聚類結束后針對重點測試波動幅度大的井的要求,需把井劃分成平穩(wěn)生產、一般波動和嚴重波動3個等級,而方差是反映波動情況最直觀的變量,故以方差為標準,將45個聚類中心按方差排序劃分狀態(tài)級別,如表3。
表3 狀態(tài)分類
為驗證劃分結果的正確性,對井進行縱向比較。從三個等級中各自挑選一口井,作出它們的生產曲線圖,如圖3,可見將聚類結果的確可以劃分波動等級,等級劃分具有一定合理性。
圖3 三種波動級別對比圖
接下來進行橫向比較,三個等級中各自隨機選擇三口井作圖4~6。可以看到,同一簇內的井產油量波動曲線近似,如圖5中屬于簇28的兩條井生產曲線波動較一致,圖4中屬于簇33的兩條井生產曲線波動較一致。同一等級內的井整體生產狀況符合所在等級的劃分標準,如屬于平穩(wěn)生產的圖4波動范圍在0~0.7,屬于一般波動生產的圖5波動范圍在0~6,屬于嚴重波動生產的圖6波動范圍在0~10。
圖4 平穩(wěn)生產級別內部比對
圖5 一般波動級別內部比對
圖6 嚴重波動級別內部比對
經過均值聚類,已經滿足了《綱要》規(guī)定的要求,只要從每個類別中選擇一口井作為代表參與測試即可。但當測試條件不允許的時候,就需通過層次聚類調整測試比例。將上節(jié)聚類得到的45個簇的質心數據作為層次聚類的輸入,得到質心之間的譜系圖,如圖7。
當油田受條件所限達不到規(guī)定的比例,可以通過這些井的譜系關系對參與測試的井進行約減。當油田更關注于波動嚴重的井的測試資料時,也可以根據譜系圖適當提高嚴重波動等級內要測試的井的比例,降低平穩(wěn)等級內要測試的井的比例。最終讓測試選井變得富有針對性,實現測試方案的優(yōu)化。
對實際生產的油井進行分析歸類是一個有實際應用價值的研究。本文針對油井日產油量時間序列數據聚類做了一系列研究與實驗,選擇了適用于油井的時間序列特征項,并從K-means聚類和層次聚類兩種聚類模型展開分析,結果表明利用特征項進行聚類能準確地獲得較優(yōu)的測試方案,實現了時間序列數據挖掘在油田生產測試方案上的新應用。下一步將從考慮影響油田生產的更多因素,即從多變量時間序列的方向展開研究。
圖7 層次聚類結果
[1]段澤英,蔡賢明,滕衛(wèi)衛(wèi),等.大數據分析技術在油田生產中的研究與應用[J].中國管理信息化,2015(18):64-65.
[2]魯柳利.油田區(qū)塊監(jiān)測指標與開發(fā)指標預測建模及應用研究[D].四川南充:西南石油大學,2013.
[3]韓娜.聚類算法在時間序列中的研究與應用[D].廣州:廣東工業(yè)大學,2011.
[4]孫旭.時間序列全局特征聚類分析方法及其應用[J].統計教育,2009(3):55-59.
[5]蘇木亞.譜聚類方法研究及其在金融時間序列數據挖掘中的應用[D].遼寧大連:大連理工大學,2011.
[6]李天舒.混沌時間序列分析方法研究及其應用[D].哈爾濱:哈爾濱工程大學,2006.
[7]Krawczak M,Szkatu?a G.An approach to dimensionality reduction in time series[J].Information Sciences,2014,260:15-36.
[8]韓忠明,陳妮,樂嘉錦,等.面向熱點話題時間序列的有效聚類算法研究[J].計算機學報,2012,35(11):2337-2347.
[9]孫吉紅.長時間序列聚類方法及其在股票價格中的應用研究[D].武漢:武漢大學,2011.
[10]Aghabozorgi S,Shirkhorshidi A S,Wah T Y.Time-series clustering-A decade review[J].Information Systems,2015,53:16-38.
[11]劉合,鄒繼剛,李天舒,等.基于小波信號分析的聯合站沉降脫水系統黑箱建模[J].哈爾濱工程大學學報,2001,22(4):39-42.
[12]Wheelwright S,Makridakis S,Hyndman R J.Forecasting:methods and applications[M].[S.l.]:John Wileyamp;Sons,1998.
[13]Maheswaran R,Khosa R.Wavelet volterra coupled models for forecasting of nonlinear and non-stationary time series[J].Neurocomputing,2015,149:1074-1084.
[14]Amezquita-Sanchez J P,Adeli H.A new music-empirical wavelet transform methodology for time-frequency analysis of noisy nonlinear and non-stationary signals[J].Digital Signal Processing,2015,45:55-68.
[15]Hautam?ki V,Nyk?nen P,Fr?nti P.Time-series clustering by approximate prototypes[C]//19th International Conference on Pattern Recognition,2008,ICPR 2008.IEEE,2008:1-4.
[16]Liao T W,Ting C F,Chang P C.An adaptive genetic clustering method for exploratory mining of feature vector and time series data[J].International Journal of Production Research,2006,44(14):2731-2748.
LI Hongqi1,2,ZHANG Yanli1,2,YANG Jinghai3,ZHU Liping1,2,ZHAO Yanhong1,2,PEI Jianya3
1.College of Geophysics and Information Engineering,China University of Petroleum,Beijing 102249,China 2.Beijing Key Lab of Data Mining for Petroleum Data,China University of Petroleum,Beijing 102249,China 3.Daqing Oilfield Testing Technology Services Branch Offices,Daqing,Heilongjiang 163000,China
Research on optimization of oilfield test scheme based on characteristic clustering.Computer Engineering and Applications,2017,53(21):214-218.
Note the oilfield production cross section in the dynamic test in the well election does not have a suitable reference standard issue,the paper proposes a well production division method in accordance with the feature-based clustering and the classification.First,the method selects and processes the well production time series data.And then the characteristic sets are extracted for clustering from time series data.In the end the clustering results develop the oilfield test optimization.Experimental result shows that the characteristics extracted from time series can be a good representation of the fluctuations in oil production,obtain better classification results and be important for guiding the oilfield test.
characteristics;clustering and classification;time series;the oilfield test optimization
A
TP301
10.3778/j.issn.1002-8331.1604-0408
李洪奇(1960—),男,博士,博士生導師,研究方向為數據挖掘、人工智能與應用、油氣信息化管理技術;張艷麗(1991—),女,在讀碩士,研究方向為軟件工程、數據挖掘,E-mail:862390147@qq.com;楊景海(1964—),男,碩士研究生,從事測試資料解釋處理;朱麗萍(1973—),女,副教授,研究方向為數據挖掘、虛擬現實、計算機網絡;趙艷紅(1986—),女,博士研究生,主要研究領域為軟件工程、過程建模與本體應用;裴建亞(1976—),男,碩士,從事生產測井解釋方法研究。
2016-04-29
2016-06-14
1002-8331(2017)21-0214-05
CNKI網絡優(yōu)先出版:2016-09-29,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1650.024.html