亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

特征聚類在油田測試方案優(yōu)化中的研究

2017-11-28 09:51:18李洪奇張艷麗楊景海朱麗萍趙艷紅裴建亞

中成藥 2017年11期

關鍵詞：油井數(shù)據(jù)挖掘聚類

李洪奇，張艷麗，楊景海，朱麗萍，趙艷紅，裴建亞

1.中國石油大學地球物理與信息工程學院，北京 102249 2.中國石油大學油氣數(shù)據(jù)挖掘北京市重點實驗室，北京 102249 3.大慶油田測試技術服務分公司，黑龍江大慶 163000

特征聚類在油田測試方案優(yōu)化中的研究

李洪奇1，2，張艷麗1，2，楊景海3，朱麗萍1，2，趙艷紅1，2，裴建亞3

針對油田注產(chǎn)剖面動態(tài)測試在選井上沒有一個合適參考標準的問題，提出利用基于特征的聚類將油井按照生產(chǎn)狀況進行先聚類再分類的方法。首先對油井生產(chǎn)時間序列數(shù)據(jù)選擇處理，然后提取序列特征進行聚類，并把聚類結果劃分等級，最后制定油田測試優(yōu)化方案。實驗結果表明，提取的時間序列特征能很好地表征油井生產(chǎn)波動情況，獲得較好地分類效果，對指導油田測試有重要意義。

特征；聚類和分類；時間序列；油田測試優(yōu)化

1 引言

目前我國的主要油田已經(jīng)處于高含水開發(fā)后期，如何指導油田生產(chǎn)、穩(wěn)定產(chǎn)量成為亟待解決的問題[1]。而隨著油田建設已進入了信息化和數(shù)字化階段，產(chǎn)生了大量按照時間順序存儲的生產(chǎn)相關數(shù)據(jù)信息（即時間序列數(shù)據(jù)），為數(shù)據(jù)挖掘提供了研究與分析的機會。如今，大數(shù)據(jù)分析技術已經(jīng)在油田生產(chǎn)優(yōu)化、油氣藏干預與優(yōu)化等領域有所應用，但在油田測試領域仍是空白。

注產(chǎn)剖面測試資料是分析儲層吸水和產(chǎn)出狀況[2]的重要依據(jù)，尤其對于高含水油井而言，測試資料對穩(wěn)定生產(chǎn)意義重大。根據(jù)《油田開發(fā)管理綱要》（以下簡稱《綱要》）要求，應選取油井開井數(shù)10%～15%以上的井每年測產(chǎn)液剖面一次。但因缺乏科學合理的選擇標準以及受到時間、人力等因素制約，實際測試比例非常低。以大慶油田為例，一年僅有5%左右的井參與了測試。那么，利用時間序列數(shù)據(jù)挖掘技術高效地將油井按照生產(chǎn)情況進行聚類，在有限的條件下選擇出具代表性的井參與測試，最大化測試價值，將是數(shù)據(jù)挖掘技術在油田生產(chǎn)領域中應用的又一突破。

油井的產(chǎn)油量時間序列數(shù)據(jù)能夠體現(xiàn)油井的生產(chǎn)狀況，所以本文將其作為研究對象。但是時間序列數(shù)據(jù)具有動態(tài)變化和高維度的特性[3]，直接在原始數(shù)據(jù)上聚類不僅會增加聚類復雜度，還會使得聚類結果受到時間因素影響。文獻[4]從統(tǒng)計分布特征、非線性和傅里葉頻譜轉換等三個方面對時間序列數(shù)據(jù)提取全局特征建立特征向量進行聚類分析。文獻[5]運用成分分析法提取時間序列特征后再聚類，提出了基于獨立成分分析的單變量時間序列多路歸一化割譜聚類方法。為將油井能按照生產(chǎn)狀況進行歸類，本文通過提取原始時間序列數(shù)據(jù)的基本統(tǒng)計特征、時域特征和混沌性特征[6]三類體現(xiàn)油井生產(chǎn)狀態(tài)的特征來對實現(xiàn)時間序列數(shù)據(jù)的降維處理[7]。

在聚類方法上，文獻[8]結合小波變換技術提出一種新的迭代式聚類算法，優(yōu)化高維聚類對初始矩陣中心高敏感性的問題，提高了聚類效果。文獻[9]在聚類過程中將CURE和減聚類方法相結合，以獲得自適應的聚類個數(shù)和中心。考慮到油田既有測試比例的要求又有實際測試限制，所以本文利用基于遺傳算法的K-Means組合層次聚類方法進行聚類分析，使得首次聚類結果能滿足規(guī)定的比例要求，二次聚類得到的簇類譜系圖能滿足實際情況下測試比例的調整需求，最終給出優(yōu)化方案。

2 相關技術和分析模型

時間序列數(shù)據(jù)挖掘用于聚類的主要研究技術有時間序列數(shù)據(jù)預處理、時間序列數(shù)據(jù)的表示、時間序列相似性度量和時間序列聚類[10]。

（1）時間序列數(shù)據(jù)預處理

在數(shù)據(jù)挖掘過程中，數(shù)據(jù)預處理極大影響著最后的挖掘效果。油田測試方案目的是挑選出生產(chǎn)波動狀況大、存在異常的井作為重點測試井，所以選擇油井日產(chǎn)油量時間序列，作為研究對象。另外，按照油田生產(chǎn)實際，剔除長期關井導致生產(chǎn)“平穩(wěn)”的數(shù)據(jù)，以免干擾分析結果。

（2）時間序列數(shù)據(jù)的表示

油田開發(fā)是一個復雜的非線性動力學系統(tǒng)，油田產(chǎn)量變化受多種因素（如地質因素、流體性質、開采方式等）制約，這些因素導致油井生產(chǎn)時間序列表現(xiàn)形式既有確定性又有隨機性[11-12]，對這樣的數(shù)據(jù)進行分析困難重重。根據(jù)小波分析理論，時間序列經(jīng)過多次小波變換后，其趨勢項、周期項和隨機項就能從原序列中獲得較好的分離，最終將非平穩(wěn)的時間序列轉換為平穩(wěn)的時間序列，從而降低了數(shù)據(jù)分析的難度[13-14]。為了獲得時間序列數(shù)據(jù)的總體趨勢和變換后的平穩(wěn)分量，本文采用wavedec函數(shù)對其進行多尺度分解。

（3）時間序列相似性度量

相似性度量是衡量對象之間關系的標準，也是時間序列數(shù)據(jù)聚類和分類的基礎。相似性度量包含相似度和距離兩個相對的概念，在一定環(huán)境下，兩者是等價的。因為聚類對象是時間序列的特征集，而且特征項屬于靜態(tài)數(shù)據(jù)，所以通?；谔卣鞯木垲惙椒ú捎玫氖菤W式距離法[15]。

（4）時間序列聚類

基于劃分的K-means聚類算法和層次聚類算法是最主要的兩種聚類方法。其中，K-means屬于快速聚類算法，它雖然需要預先指定聚類個數(shù)，但能處理大數(shù)據(jù)集，可以很好應對油田海量數(shù)據(jù)的現(xiàn)狀。另外，針對K-means簇初始化問題，許多文獻都已經(jīng)提出了改進算法，這里采用基于遺傳算法的K-means聚類算法，可以避免陷入局部最優(yōu)[16]。層次聚類算法能把整個數(shù)據(jù)集的譜系關系展示出來，通用性強，但卻不能很好地支持大數(shù)據(jù)集。所以，將這兩種聚類算法進行組合，令均值聚類的輸出作為層次聚類的輸入，實現(xiàn)優(yōu)勢互補不失為一種很好的聚類方案。

綜合時間序列數(shù)據(jù)挖掘流程和油田測試方案優(yōu)化目標，獲得一個比較完整的數(shù)據(jù)分析模型來實現(xiàn)油田測試方案優(yōu)化，如圖1所示。

圖1 油井生產(chǎn)時間序列分析模型

3 小波變換與特征集構建

3.1 小波變換原理

小波變換是把某一被稱為基本小波的函數(shù)作位移τ后，在不同尺度a下，與待分析信號X(t)作內積，即：a＞0，作用是對基本小波φ(t)函數(shù)作伸縮，τ可正可負，它們都是連續(xù)變量，則稱為連續(xù)小波變換。在實際應用中，常常要把連續(xù)小波離散化，即對a和τ進行采樣，離散小波變換一般仍然具備連續(xù)小波變換具有的性質。

3.2 wavedec函數(shù)用于時間序列分解

本文利用Matlab中的wavedec函數(shù)對時間序列數(shù)據(jù)X(t)進行N層分解，分解成包含低頻分量的體現(xiàn)時間序列數(shù)據(jù)變換趨勢的尺度信號和包含高頻分量及噪聲的細節(jié)信號。

以大慶油田某區(qū)塊的一口井為例，四層分解結果如圖2所示。x是原始數(shù)據(jù)，a4是數(shù)據(jù)的長期走勢，即大尺度趨勢成分，d1、d2、d3、d4分別是不同頻率的小尺度成分。其中，d1、d2可以認為是隨機項不予考慮，d3是分離掉趨勢項的分量，d4是分離掉噪聲后的分量。4個小尺度成分圍繞0上下波動，說明時間序列的趨勢項已經(jīng)得到了很好的分離，非平穩(wěn)時間序列已經(jīng)轉換為平穩(wěn)時間序列。

圖2 產(chǎn)油量時間序列4層分解結果圖

3.3 時間序列特征集

從日產(chǎn)油量時間序列分解后的趨勢分量和去噪分量中提取基本統(tǒng)計特征、分布特征、模型特征和混沌性特征描述時間序列的全局特征，可以不必考慮時間序列數(shù)據(jù)的長度和信息是否有丟失，如表1。但這些特征項的度量單位各不相同，組合特征集之前必須進行標準化處理，將有量綱的數(shù)轉為無量綱的數(shù)，本文綜合數(shù)據(jù)特點和計算效率等因素，采用最大-最小標準化處理，將所有數(shù)值變成絕對值在[0，1]之間的小數(shù)。

表1 油井生產(chǎn)時間序列特征項

4 油井生產(chǎn)實例分析

針對大慶油田某區(qū)塊的油井日產(chǎn)油量數(shù)據(jù)，采用油井生產(chǎn)時間序列分析模型將所有的油井按照生產(chǎn)狀況進行劃分，并將劃分結果結合實際生產(chǎn)數(shù)據(jù)進行分析評判。

4.1 油井生產(chǎn)實例研究對象

選擇2014年1月1日至2015年1月1日的日產(chǎn)油量數(shù)據(jù)，該地區(qū)的油井總數(shù)為303，生產(chǎn)井（指在2014年一年內有過開井生產(chǎn)記錄的井）數(shù)目301。

4.2 油井生產(chǎn)時間序列重新描述

根據(jù)第2章和第3章講解的時間序列數(shù)據(jù)集處理和特征集的構建過程，將上述所有生產(chǎn)井的時間序列數(shù)據(jù)提取特征并歸一化，部分結果如表2所示。

表2 油井生產(chǎn)時間序列特征歸一化值（部分）

4.3 聚類實驗及結果分析

根據(jù)《綱要》中對于每年測試油井個數(shù)10%～15%的比例要求，大約需要聚成30～45個類。因此本文取最大類，K=45。聚類結束后針對重點測試波動幅度大的井的要求，需把井劃分成平穩(wěn)生產(chǎn)、一般波動和嚴重波動3個等級，而方差是反映波動情況最直觀的變量，故以方差為標準，將45個聚類中心按方差排序劃分狀態(tài)級別，如表3。

表3 狀態(tài)分類

為驗證劃分結果的正確性，對井進行縱向比較。從三個等級中各自挑選一口井，作出它們的生產(chǎn)曲線圖，如圖3，可見將聚類結果的確可以劃分波動等級，等級劃分具有一定合理性。

圖3 三種波動級別對比圖

接下來進行橫向比較，三個等級中各自隨機選擇三口井作圖4～6?？梢钥吹?，同一簇內的井產(chǎn)油量波動曲線近似，如圖5中屬于簇28的兩條井生產(chǎn)曲線波動較一致，圖4中屬于簇33的兩條井生產(chǎn)曲線波動較一致。同一等級內的井整體生產(chǎn)狀況符合所在等級的劃分標準，如屬于平穩(wěn)生產(chǎn)的圖4波動范圍在0～0.7，屬于一般波動生產(chǎn)的圖5波動范圍在0～6，屬于嚴重波動生產(chǎn)的圖6波動范圍在0～10。

圖4 平穩(wěn)生產(chǎn)級別內部比對

圖5 一般波動級別內部比對

圖6 嚴重波動級別內部比對

4.4 測試優(yōu)化方案制定

經(jīng)過均值聚類，已經(jīng)滿足了《綱要》規(guī)定的要求，只要從每個類別中選擇一口井作為代表參與測試即可。但當測試條件不允許的時候，就需通過層次聚類調整測試比例。將上節(jié)聚類得到的45個簇的質心數(shù)據(jù)作為層次聚類的輸入，得到質心之間的譜系圖，如圖7。

當油田受條件所限達不到規(guī)定的比例，可以通過這些井的譜系關系對參與測試的井進行約減。當油田更關注于波動嚴重的井的測試資料時，也可以根據(jù)譜系圖適當提高嚴重波動等級內要測試的井的比例，降低平穩(wěn)等級內要測試的井的比例。最終讓測試選井變得富有針對性，實現(xiàn)測試方案的優(yōu)化。

5 結束語

對實際生產(chǎn)的油井進行分析歸類是一個有實際應用價值的研究。本文針對油井日產(chǎn)油量時間序列數(shù)據(jù)聚類做了一系列研究與實驗，選擇了適用于油井的時間序列特征項，并從K-means聚類和層次聚類兩種聚類模型展開分析，結果表明利用特征項進行聚類能準確地獲得較優(yōu)的測試方案，實現(xiàn)了時間序列數(shù)據(jù)挖掘在油田生產(chǎn)測試方案上的新應用。下一步將從考慮影響油田生產(chǎn)的更多因素，即從多變量時間序列的方向展開研究。

圖7 層次聚類結果

[1]段澤英，蔡賢明，滕衛(wèi)衛(wèi)，等.大數(shù)據(jù)分析技術在油田生產(chǎn)中的研究與應用[J].中國管理信息化，2015（18）：64-65.

[2]魯柳利.油田區(qū)塊監(jiān)測指標與開發(fā)指標預測建模及應用研究[D].四川南充：西南石油大學，2013.

[3]韓娜.聚類算法在時間序列中的研究與應用[D].廣州：廣東工業(yè)大學，2011.

[4]孫旭.時間序列全局特征聚類分析方法及其應用[J].統(tǒng)計教育，2009（3）：55-59.

[5]蘇木亞.譜聚類方法研究及其在金融時間序列數(shù)據(jù)挖掘中的應用[D].遼寧大連：大連理工大學，2011.

[6]李天舒.混沌時間序列分析方法研究及其應用[D].哈爾濱：哈爾濱工程大學，2006.

[7]Krawczak M，Szkatu?a G.An approach to dimensionality reduction in time series[J].Information Sciences，2014，260：15-36.

[8]韓忠明，陳妮，樂嘉錦，等.面向熱點話題時間序列的有效聚類算法研究[J].計算機學報，2012，35（11）：2337-2347.

[9]孫吉紅.長時間序列聚類方法及其在股票價格中的應用研究[D].武漢：武漢大學，2011.

[10]Aghabozorgi S，Shirkhorshidi A S，Wah T Y.Time-series clustering-A decade review[J].Information Systems，2015，53：16-38.

[11]劉合，鄒繼剛，李天舒，等.基于小波信號分析的聯(lián)合站沉降脫水系統(tǒng)黑箱建模[J].哈爾濱工程大學學報，2001，22（4）：39-42.

[12]Wheelwright S，Makridakis S，Hyndman R J.Forecasting：methods and applications[M].[S.l.]：John Wileyamp;Sons，1998.

[13]Maheswaran R，Khosa R.Wavelet volterra coupled models for forecasting of nonlinear and non-stationary time series[J].Neurocomputing，2015，149：1074-1084.

[14]Amezquita-Sanchez J P，Adeli H.A new music-empirical wavelet transform methodology for time-frequency analysis of noisy nonlinear and non-stationary signals[J].Digital Signal Processing，2015，45：55-68.

[15]Hautam?ki V，Nyk?nen P，F(xiàn)r?nti P.Time-series clustering by approximate prototypes[C]//19th International Conference on Pattern Recognition，2008，ICPR 2008.IEEE，2008：1-4.

[16]Liao T W，Ting C F，Chang P C.An adaptive genetic clustering method for exploratory mining of feature vector and time series data[J].International Journal of Production Research，2006，44（14）：2731-2748.

LI Hongqi1，2,ZHANG Yanli1，2,YANG Jinghai3,ZHU Liping1，2,ZHAO Yanhong1，2,PEI Jianya3

1.College of Geophysics and Information Engineering,China University of Petroleum,Beijing 102249,China 2.Beijing Key Lab of Data Mining for Petroleum Data,China University of Petroleum,Beijing 102249,China 3.Daqing Oilfield Testing Technology Services Branch Offices,Daqing,Heilongjiang 163000,China

Research on optimization of oilfield test scheme based on characteristic clustering.Computer Engineering and Applications,2017,53（21）：214-218.

Note the oilfield production cross section in the dynamic test in the well election does not have a suitable reference standard issue,the paper proposes a well production division method in accordance with the feature-based clustering and the classification.First,the method selects and processes the well production time series data.And then the characteristic sets are extracted for clustering from time series data.In the end the clustering results develop the oilfield test optimization.Experimental result shows that the characteristics extracted from time series can be a good representation of the fluctuations in oil production,obtain better classification results and be important for guiding the oilfield test.

characteristics;clustering and classification;time series;the oilfield test optimization

TP301

10.3778/j.issn.1002-8331.1604-0408

李洪奇（1960—），男，博士，博士生導師，研究方向為數(shù)據(jù)挖掘、人工智能與應用、油氣信息化管理技術；張艷麗（1991—），女，在讀碩士，研究方向為軟件工程、數(shù)據(jù)挖掘，E-mail：862390147@qq.com；楊景海（1964—），男，碩士研究生，從事測試資料解釋處理；朱麗萍（1973—），女，副教授，研究方向為數(shù)據(jù)挖掘、虛擬現(xiàn)實、計算機網(wǎng)絡；趙艷紅（1986—），女，博士研究生，主要研究領域為軟件工程、過程建模與本體應用；裴建亞（1976—），男，碩士，從事生產(chǎn)測井解釋方法研究。

2016-04-29

2016-06-14

1002-8331（2017）21-0214-05

CNKI網(wǎng)絡優(yōu)先出版：2016-09-29,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1650.024.html