齊秋平,文必龍,吳 婷
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
時(shí)序數(shù)據(jù)是指按照時(shí)間的秩序,以一定的時(shí)間間隔排列的一系列數(shù)據(jù)的集合[1]。近年來,隨著大數(shù)據(jù)的迅速發(fā)展,對(duì)時(shí)間序列的分析經(jīng)歷了從頻域到時(shí)域、單變量到多變量、線性到非線性、局部到系統(tǒng)的漸進(jìn)過程;同時(shí)也是逐步提高模型擬合精度、增強(qiáng)模型的預(yù)測(cè)能力和改善可操作性的過程。為了減少異常點(diǎn)對(duì)時(shí)間序列分析結(jié)果的干擾,就需要對(duì)異常點(diǎn)進(jìn)行檢測(cè)并處理。數(shù)據(jù)異常檢測(cè)能實(shí)現(xiàn)數(shù)據(jù)質(zhì)量提升與潛在信息挖掘[2],異常數(shù)據(jù)的挖掘主要使用偏差檢測(cè),包括聚類法、序列異常法、最近鄰居法、多位數(shù)據(jù)分析法等[3-5]。通過對(duì)時(shí)序數(shù)據(jù)應(yīng)用主成分分析法進(jìn)行特征壓縮從而去除數(shù)據(jù)的噪聲[6],對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè),可以從大量的數(shù)據(jù)中挖掘出不滿足數(shù)據(jù)一般行為或模式的數(shù)據(jù),而儲(chǔ)油罐液位數(shù)據(jù)反映的一些異常信息比常規(guī)模式更有價(jià)值,它能夠幫助人們掌握時(shí)間序列中蘊(yùn)含的規(guī)律,為人們提供有力的決策支持。
針對(duì)液位數(shù)據(jù)的異常檢測(cè)主要分為以下四個(gè)方面:
1. 學(xué)習(xí)時(shí)序數(shù)據(jù)過去的行為特征;
2. 計(jì)算出相似的行為模式,預(yù)測(cè)未來過程中的可能狀態(tài)或表現(xiàn);
3. 根據(jù)限制條件進(jìn)行異?;顒?dòng)檢測(cè);
4. 通過對(duì)異常數(shù)據(jù)的特征分析進(jìn)行模式識(shí)別,判別出異常類型。
針對(duì)以上方面,提出了一套基于儲(chǔ)罐液位數(shù)據(jù)進(jìn)行異常檢測(cè)的系統(tǒng),該系統(tǒng)可根據(jù)油田歷史數(shù)據(jù)找出其內(nèi)在規(guī)律,并根據(jù)過去的某些行為特征做出相似模式的預(yù)測(cè),最后找出其中的異常波動(dòng)并對(duì)這些波動(dòng)進(jìn)行分類和標(biāo)識(shí),可防止儲(chǔ)油罐過滿溢出、儀器故障、拉油車?yán)蜁r(shí)間不規(guī)范、偷油漏油等情況的發(fā)生。
儲(chǔ)罐液位隨時(shí)間的變化趨勢(shì)如下圖1所示。
圖1 儲(chǔ)罐液位散點(diǎn)圖Fig.1 Storage tank level scatter chart
針對(duì)液位曲線的走勢(shì),本文的模型研究主要從以下四個(gè)方面展開:
(1)數(shù)據(jù)分析:在石油集輸過程中會(huì)產(chǎn)生大量油罐液位實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù),對(duì)這些數(shù)據(jù)分析過程中發(fā)現(xiàn)數(shù)據(jù)反復(fù)呈現(xiàn)某些規(guī)律,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)[7],如液位在某時(shí)間段內(nèi)上下波動(dòng)、液位上升時(shí)斜率會(huì)有所變化、拉油車?yán)瓦^程中液位會(huì)均勻下降等等。通過對(duì)數(shù)據(jù)的綜合處理發(fā)現(xiàn),數(shù)據(jù)整體具有一定的變化趨勢(shì)和數(shù)據(jù)周期,而油田上對(duì)于這些行為模式的認(rèn)識(shí)及分析并不全面。
(2)數(shù)據(jù)預(yù)測(cè):在對(duì)海量液位數(shù)據(jù)潛在價(jià)值的挖掘中,綜合考慮溫度、壓力、流量、負(fù)荷等因素的變化對(duì)液位未來動(dòng)態(tài)變化的影響,充分利用歷史數(shù)據(jù)的規(guī)律對(duì)未來數(shù)據(jù)進(jìn)行一定的預(yù)測(cè)分析和總結(jié)。
(3)異常檢測(cè):在數(shù)據(jù)的分析處理中,通常會(huì)出現(xiàn)一些數(shù)據(jù)的異常波動(dòng),而這些波動(dòng)在生產(chǎn)上通常會(huì)有一定的現(xiàn)實(shí)意義,目前油田上的數(shù)據(jù)體系太過繁雜,并未對(duì)這些異常的數(shù)據(jù)波動(dòng)做出分類和標(biāo)識(shí),相應(yīng)的,對(duì)于相關(guān)的數(shù)據(jù)誤差和體系缺陷并沒有給出規(guī)范性約束。
(4)模式識(shí)別:通過對(duì)數(shù)據(jù)的異常檢測(cè)只能夠篩選出異常的數(shù)據(jù),并不能夠判別出是哪一類別的異常情況,為了提高異常數(shù)據(jù)的實(shí)際意義,須將異常數(shù)據(jù)進(jìn)行模式識(shí)別判斷出異常數(shù)據(jù)的實(shí)際意義,從而提高異常數(shù)據(jù)的實(shí)用價(jià)值。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們引入了鉆井監(jiān)控軟件。目前國內(nèi)外有許多針對(duì)特定專業(yè)如鉆井的實(shí)時(shí)數(shù)據(jù)采集的系統(tǒng),對(duì)智能預(yù)警和優(yōu)化方面有較多的研究。
在石油數(shù)據(jù)實(shí)時(shí)分析方面,李云峰等人提出一個(gè)新型的鉆井異常狀態(tài)實(shí)時(shí)監(jiān)測(cè)與智能決策系統(tǒng)模型,該模型將鉆井工程信息管理,鉆井參數(shù)實(shí)時(shí)采集和智能化決策支持技術(shù)集成為一體,解決了鉆井異常狀態(tài)實(shí)時(shí)監(jiān)測(cè)的問題[8]。由劉琦開發(fā)的鉆井監(jiān)控系統(tǒng)提供了鉆井、電機(jī)和發(fā)電機(jī)實(shí)時(shí)數(shù)據(jù)可使技術(shù)人員和工程人員對(duì)現(xiàn)場(chǎng)施工數(shù)據(jù)及時(shí)瀏覽與分析,實(shí)時(shí)監(jiān)控,及時(shí)指導(dǎo)和處理鉆井現(xiàn)場(chǎng)的問題[9]。史鵬濤等人對(duì)智能完井技術(shù)的深入研究也解決了采集、傳輸及分析井眼生產(chǎn)數(shù)據(jù)、油藏?cái)?shù)據(jù)和全井生產(chǎn)鏈數(shù)據(jù)能力,以遠(yuǎn)程控制方式改善對(duì)油藏動(dòng)態(tài)和生產(chǎn)動(dòng)態(tài)的監(jiān)控的問題[10]。從上世紀(jì)90年代,國外就開始研究智能完井技術(shù),Baker Hughes、Schlumberger、ABB和 Roxar等幾家公司都開發(fā)了進(jìn)行井下監(jiān)控的智能完井技術(shù),并得到了大面積的推廣應(yīng)用[11]。
在時(shí)序數(shù)據(jù)預(yù)測(cè)未來趨勢(shì)方面,修妍提出了基于改進(jìn)相空間加權(quán)局域法的混沌時(shí)序預(yù)測(cè)[12],吳江等人提出了一種基于云模型的數(shù)據(jù)預(yù)測(cè)算法[13],郭建明設(shè)計(jì)并實(shí)現(xiàn)一個(gè)安全優(yōu)化鉆井實(shí)時(shí)監(jiān)控智能計(jì)算機(jī)系統(tǒng),實(shí)現(xiàn)了安全優(yōu)化鉆井知識(shí)整合.系統(tǒng)可用于鉆井設(shè)計(jì)、施工、完鉆總結(jié)階段的鉆井異常問題的檢測(cè)、識(shí)別、預(yù)測(cè)、診斷、預(yù)防和處理,實(shí)現(xiàn)安全優(yōu)化鉆井的目標(biāo)[14]。閆學(xué)峰等人設(shè)計(jì)了油井生產(chǎn)實(shí)時(shí)分析優(yōu)化專家系統(tǒng) PES,該系統(tǒng)具備了油井生產(chǎn)數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)管理、生產(chǎn)動(dòng)態(tài)預(yù)測(cè)、實(shí)時(shí)工程分析、故障診斷、遠(yuǎn)程計(jì)量、系統(tǒng)效率及損耗分析、生產(chǎn)參數(shù)實(shí)時(shí)優(yōu)化設(shè)計(jì)、措施方案發(fā)布、智能控制等功能[15]。陳銳等人設(shè)計(jì)了鉆井風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)測(cè)與診斷系統(tǒng),主要是通過對(duì)鉆井工程數(shù)據(jù)和隨鉆測(cè)量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理分析,結(jié)合多參數(shù)融合算法技術(shù)對(duì)井下鉆井風(fēng)險(xiǎn)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和診斷分析,很好地監(jiān)測(cè)與診斷鉆井風(fēng)險(xiǎn)[16]。
在油田時(shí)序數(shù)據(jù)分析系統(tǒng)方面,國外先進(jìn)的石油公司都已經(jīng)建立了強(qiáng)大的決策支持系統(tǒng)和協(xié)同工作環(huán)境,將分布在世界各地的研究機(jī)構(gòu)、管理部門和施工現(xiàn)場(chǎng)連接起來,利用強(qiáng)大的數(shù)據(jù)庫和先進(jìn)的軟件對(duì)各種技術(shù)決策提供者有力支撐,有效降低了施工風(fēng)險(xiǎn)。國內(nèi)石油行業(yè),尤其是鉆井行業(yè)盡管開展了相關(guān)研究,但尚未建立完整的自主產(chǎn)權(quán)的決策支持系統(tǒng)和相應(yīng)的決策工作模式[17]。
綜上,油田上大多數(shù)平臺(tái)或系統(tǒng)均是單方面分析數(shù)據(jù),對(duì)于時(shí)序數(shù)據(jù)的異常檢測(cè)方面并沒有統(tǒng)一的模式,因此,本文以儲(chǔ)罐液位數(shù)據(jù)為例,提出了一套對(duì)油田儲(chǔ)罐液位數(shù)據(jù)進(jìn)行異常檢測(cè)的系統(tǒng)。
根據(jù)儲(chǔ)罐液位異常檢測(cè)系統(tǒng)需求,主要分為特征提取、異常檢測(cè)、模式識(shí)別(異常分類)、預(yù)測(cè)分析四個(gè)部分,系統(tǒng)總體架構(gòu)圖如下圖2所示。
系統(tǒng)設(shè)計(jì)以簡便操作、精確分析、準(zhǔn)確預(yù)測(cè)為原則,突破傳統(tǒng)單一的數(shù)據(jù)可視化方式,把異常檢測(cè)和異常模式識(shí)別作為重點(diǎn)突破問題,能夠更好地監(jiān)測(cè)數(shù)據(jù)中的異常情況。數(shù)據(jù)分析結(jié)果、異常檢測(cè)功能進(jìn)行軟件實(shí)現(xiàn),提供可視化操作平臺(tái)。儲(chǔ)罐液位異常檢測(cè)平臺(tái)主要功能如圖3所示。
本系統(tǒng)主要分為以下模塊:
1. 數(shù)據(jù)選擇模塊
儲(chǔ)罐液位數(shù)據(jù)會(huì)實(shí)時(shí)錄入到數(shù)據(jù)庫中,通過前端與后臺(tái)的交互,對(duì)數(shù)據(jù)進(jìn)行選擇并錄入到R語言軟件中進(jìn)行處理,實(shí)現(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)表可視化,以便用戶進(jìn)行選擇。
2. 算法匹配模塊
不同的油井的數(shù)據(jù)流變化趨勢(shì)有所不同,將預(yù)處理后的數(shù)據(jù)進(jìn)行圖形可視化,從算法庫中選擇合適的算法進(jìn)行匹配分析,通過算法評(píng)價(jià)體系自動(dòng)匹配最優(yōu)算法,對(duì)各參數(shù)和油井產(chǎn)量之間進(jìn)行多種分析,判定各參數(shù)同油井產(chǎn)量的關(guān)聯(lián)性程度,定性、定量地給出影響油井生產(chǎn)動(dòng)態(tài)的各種因素對(duì)油井產(chǎn)量影響的大小,從而挖掘出蘊(yùn)含在數(shù)據(jù)內(nèi)部的關(guān)系模式。
圖2 系統(tǒng)總體架構(gòu)圖Fig. 2 System overall architecture chart
圖3 功能結(jié)構(gòu)圖Fig.3 Functional structure diagram
3. 異常檢測(cè)模塊
數(shù)據(jù)異常檢測(cè),本文采用SPC算法中的控制圖對(duì)波動(dòng)點(diǎn)進(jìn)行篩選,找出數(shù)據(jù)的異常波動(dòng)并將其歸類,建立樣本庫,通過模式識(shí)別技術(shù)對(duì)不同類的數(shù)據(jù)進(jìn)行特征構(gòu)建與特征提取,并通過機(jī)器學(xué)習(xí)的手段實(shí)現(xiàn)異常自動(dòng)歸類的目的。
4. 預(yù)測(cè)分析模塊
石油數(shù)據(jù)龐大繁多,對(duì)于預(yù)測(cè)的結(jié)果要求很高,采用 ARIMA模型對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)取得了可觀的效果,并能夠顯示波動(dòng)范圍的可控區(qū)間,能夠很好地對(duì)數(shù)據(jù)進(jìn)行觀測(cè)以便及時(shí)采取預(yù)防措施。
通過以上幾個(gè)模塊解決現(xiàn)實(shí)生活中油田生產(chǎn)成本高,生產(chǎn)效益低的問題,在歷史數(shù)據(jù)的基礎(chǔ)上更好的決策異常范圍并做出預(yù)測(cè),很好地檢測(cè)出異常數(shù)值并進(jìn)行預(yù)報(bào)。在研究過程中通過對(duì)數(shù)據(jù)的了解及分析還可以對(duì)運(yùn)營模式給予一定的優(yōu)化建議,降低生產(chǎn)成本更好地提高生產(chǎn)效益。
數(shù)據(jù)架構(gòu)圖如圖4所示,其中:
● 數(shù)據(jù)庫用來從油田液位數(shù)據(jù)庫或其它數(shù)據(jù)源中抽取數(shù)據(jù)到平臺(tái)中,并建立分析數(shù)據(jù)集。
圖4 數(shù)據(jù)架構(gòu)圖Fig.4 Data structure diagram
● 算法庫主要是提供由實(shí)驗(yàn)案例得出適合的算法與當(dāng)前要進(jìn)行異常檢測(cè)的數(shù)據(jù)進(jìn)行自動(dòng)匹配的功能。
● 組件庫提供歷史數(shù)據(jù)的描述存儲(chǔ)以及算法的分析與解釋功能,執(zhí)行異常檢測(cè)算法生成分析結(jié)果,評(píng)價(jià)結(jié)果。
● 圖形庫完成數(shù)據(jù)的可視化,并能夠?qū)Ξ惓=Y(jié)果進(jìn)行標(biāo)識(shí)。
總體技術(shù)上,本項(xiàng)目采用模型驅(qū)動(dòng) MDA的技術(shù)架構(gòu)。通過元模型,把同類的模型管理起來,如油田不同工序的時(shí)序數(shù)據(jù)、各種通過實(shí)驗(yàn)的算法模型等,通過數(shù)據(jù)映射技術(shù),實(shí)現(xiàn)不同模型之間的關(guān)聯(lián),從而達(dá)到同一系統(tǒng)可推廣到分析不同工序數(shù)據(jù)的目的。
本文針對(duì)液位數(shù)據(jù)進(jìn)行了分析,設(shè)計(jì)了一套儲(chǔ)罐液位異常檢測(cè)的模型,優(yōu)化了油田大多數(shù)平臺(tái)單方面分析數(shù)據(jù)的缺陷,利用液位數(shù)據(jù)的時(shí)序性對(duì)其進(jìn)行挖掘分析并給出了一套通用的分析框架,以便于將其推廣到油田中其他工序如鉆井、測(cè)井、錄井、井下作業(yè)等工程的異常檢測(cè)。
[1] Brockwell P J. Introduction to time series and forecasting,volume 1. Taylor & Francis, 2002.
[2] 龍瀅, 裘曉峰. 基于滑動(dòng)窗口的單傳感器數(shù)據(jù)異常檢測(cè)[J].軟件, 2014, 35(12): 49-57
[3] 楊金偉. 基于距離和信息熵的不確定異常點(diǎn)檢測(cè)研究[D].云南大學(xué), 2011.
[4] 劉良旭, 樂嘉錦, 喬少杰, 宋加濤. 基于軌跡點(diǎn)局部異常度的異常點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, (10): 1966-1975.
[5] 劉丹丹, 陳啟軍, 森一之. 線性回歸模型的多離群點(diǎn)檢測(cè)方法及節(jié)能應(yīng)用[J]. 信息與控制, 2013, (06): 765-771.
[6] 張樂玫, 羅濤. 室內(nèi)定位特征選擇算法研究[J]. 軟件,2015, 36(1): 38-46
[7] 馮文霞, 王廣安. 數(shù)據(jù)挖掘在服務(wù)成本預(yù)測(cè)方面的應(yīng)用研究(SDCF-DM)[J]. 軟件, 2013, 34(4): 46-48
[8] 葛利. 基于過程神經(jīng)網(wǎng)絡(luò)的時(shí)序數(shù)據(jù)挖掘研究[D]. 哈爾濱工程大學(xué), 2012.
[9] 劉琦. 鉆井監(jiān)控系統(tǒng)的設(shè)計(jì)與研究[D]. 電子科技大學(xué),2011.
[10] 史鵬濤, 陳俊斌, 陳鵬剛. 智能完井新技術(shù)的研究及應(yīng)用[C]//石油鉆井院所長會(huì)議. 2008.
[11] 阮臣良, 朱和明, 馮麗瑩. 國外智能完井技術(shù)介紹[J]. 石油機(jī)械, 2011, (03): 82-84.
[12] 修妍. 基于改進(jìn)相空間加權(quán)局域法的混沌時(shí)序預(yù)測(cè)[J]. 軟件, 2013, 34(4): 34-37
[13] 吳江, 孫劍偉. 一種基于云模型的數(shù)據(jù)預(yù)測(cè)算法[J]. 軟件,2015, 36(12): 212-215
[14] 郭建明. 安全優(yōu)化鉆井實(shí)時(shí)監(jiān)控智能系統(tǒng)模型及應(yīng)用[J].西南石油大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008, (06): 153-156+217.
[15] 閆學(xué)峰, 檀朝東, 吳曉東, 張杰. 油井生產(chǎn)實(shí)時(shí)分析優(yōu)化專家系統(tǒng)PES的研發(fā)及應(yīng)用[J]. 中國石油和化工, 2009,(11): 55-58.
[16] 陳銳, 李黔, 尹虎, 袁本福. 鉆井風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)測(cè)與診斷系統(tǒng)設(shè)計(jì)及應(yīng)用[J]. 斷塊油氣田, 2013, (01): 115-117.
[17] 楊傳書, 肖波, 肖莉, 等. 鉆井決策支持系統(tǒng)總體架構(gòu)設(shè)計(jì)[C]//度鉆井技術(shù)研討會(huì)暨石油鉆井院所長會(huì)議.2011.