冀豐偲 王 磊 張早校 仝淑月 高繼峰
(1.西安交通大學(xué)化學(xué)工程與技術(shù)學(xué)院;2.中石化中原石油工程設(shè)計有限公司)
天然氣地下儲氣庫是國家能源戰(zhàn)略基礎(chǔ)性設(shè)施, 由生產(chǎn)裝置、SCADA控制系統(tǒng)和單元模塊組成,一般分為地下儲層、注采系統(tǒng)和地面設(shè)施,彼此之間相互作用,同時整體系統(tǒng)易受外部環(huán)境影響,導(dǎo)致存在復(fù)雜的動態(tài)行為特征。 根據(jù)國際氣體工業(yè)聯(lián)合會(IGU)統(tǒng)計,我國儲氣庫實際庫容量僅為設(shè)計庫容量的26%。 由于儲氣庫單元設(shè)備失效、運行方案不合理造成無法完成既定任務(wù)注采氣量,是我國儲氣庫運營過程中所面臨的挑戰(zhàn)之一[1]。而作為天然氣調(diào)峰的重要設(shè)施和手段,對地下儲氣庫注采系統(tǒng)進行高效、準確的風(fēng)險管理尤為重要。
目前國內(nèi)關(guān)于儲氣庫風(fēng)險性的標準尚未制定,僅針對特定油氣井的類型進行了規(guī)定,但并未指明可操作性和具體實施流程[2]。 以數(shù)值模擬[3,4]、可靠性理論[5,6]及故障樹[7]等為代表的傳統(tǒng)技術(shù)路線的有效性在長期的工業(yè)實踐中得到了證明,但不足之處是需要充足的專業(yè)知識、工程理論,難以擬合精確的全局模型,且在系統(tǒng)建模中無法捕捉生產(chǎn)過程波動引起的動態(tài)風(fēng)險,帶來了模糊性和不確定性[8]。
注采井場作為地下儲氣庫的核心組成部分,受到注氣、采氣雙重循環(huán)的影響,運行中“強采強注”,對工藝、設(shè)備和流程的要求高[9]。筆者以地下儲氣庫注采系統(tǒng)為研究對象,利用基于密度的聚類和隨機森林算法構(gòu)建大數(shù)據(jù)智能化動態(tài)風(fēng)險判別模型,具備強大的數(shù)據(jù)分析能力,能從實際注采過程中發(fā)現(xiàn)隱藏的規(guī)律,避免抽象的過程機理分析,從而指導(dǎo)、優(yōu)化生產(chǎn)管理模式。
儲氣庫注采系統(tǒng)風(fēng)險的本質(zhì)是生產(chǎn)過程變量偏離其正常運行模式的狀態(tài),而分析來自不同狀態(tài)偏差的數(shù)據(jù)可用于風(fēng)險評估。 對歷史運行數(shù)據(jù)進行基于密度的聚類分析,能判斷出不同運行工況所對應(yīng)的數(shù)據(jù)簇,而且可以剔除少數(shù)不合理數(shù)據(jù),是建立穩(wěn)定、健康的模型的基礎(chǔ)。
DBSCAN是一種經(jīng)典的通過定義密度對空間中數(shù)據(jù)點進行聚類的算法[10],聚類相關(guān)算法適用于復(fù)雜大型工業(yè)生產(chǎn)過程的數(shù)據(jù)分析和標記過程[11~13]。DBSCAN定義了Eps、Minpts兩個參數(shù)來描述鄰域數(shù)據(jù)點的分布情況, 其中Eps描述了某一數(shù)據(jù)點鄰域距離的閾值,即為定義密度引入的鄰域半徑;Minpts描述了某一數(shù)據(jù)點在半徑為Eps的鄰域中包含點的數(shù)量的閾值;樣本集為D={x1,x2,…,xn},聚類簇為C={C1,C2,…,Ck}。 DBSCAN算法流程如下[14]:
隨機森林[15](Random Forest,RF)是基于決策樹[16,17]的一種分類算法,它包含多個隨機決策樹,每一棵決策樹之間是沒有關(guān)聯(lián)的,當(dāng)輸入待訓(xùn)練的樣本集數(shù)據(jù)時,最終的類別結(jié)果由單個決策樹的輸出結(jié)果“簡單投票”決定。 隨機森林模型對噪聲和異常值有一定的容忍性, 同時能減輕過擬合,對實際工業(yè)生產(chǎn)相關(guān)的分類問題具有較好的可擴展性和實用性[18~21],其原理如圖1所示[22]。
圖1 隨機森林分類過程示意圖
隨機森林{h(d,θt),t=1,2,…,T}由樹形分類器集合而成,其元分類器h(d,θt)可構(gòu)造出未剪枝的分類決策樹。 對于訓(xùn)練樣本集D′,可有放回地進行采樣,得到n組訓(xùn)練集D′1,D′2,…,D′n,并生成T棵分類回歸樹, 其輸出類別由森林中樹的多數(shù)投票決定:
式中 c——得票最多的訓(xùn)練樣本的所屬類別;
h(d,θt)——隨機森林分類函數(shù),d是輸入向量,θt是獨立同分布的隨機向量;
I——指示器函數(shù)。
投票完成后得到混合矩陣CM。 準確率CA的計算式是:
其中,CM(i,j)表示i類別的樣本被劃分為j類的次數(shù),當(dāng)i=j時表示預(yù)測正確。
對地下儲氣庫注采系統(tǒng)進行風(fēng)險評估,就是要實現(xiàn)對不同運行工況的分類,原理是根據(jù)建立的隨機森林分類器識別,并評估實時監(jiān)測的生產(chǎn)數(shù)據(jù)風(fēng)險的高低。
筆者結(jié)合大數(shù)據(jù)技術(shù)與儲氣庫生產(chǎn)運行的特點,提出并設(shè)計了一種基于密度聚類和隨機森林的地下儲氣庫注采系統(tǒng)風(fēng)險評估方法,框架如圖2所示,包括離線建模和在線評估兩個階段。
圖2 風(fēng)險評估方法架構(gòu)
離線建模流程如下:
a. 采集歷史運行監(jiān)測數(shù)據(jù);
b. 數(shù)據(jù)預(yù)處理和數(shù)據(jù)集矩陣構(gòu)建;
c. 基于密度的聚類分析,數(shù)據(jù)標簽標記和驗證;
d. 訓(xùn)練集、測試集劃分,訓(xùn)練隨機森林分類模型;
e. 模型測試、性能調(diào)優(yōu);
f. 若準確率優(yōu)良, 保存模型并進入在線評估階段,否則需重新訓(xùn)練。
在線評估流程如下:
a. 輸入實時運行監(jiān)測數(shù)據(jù);
b. 以歷史運行數(shù)據(jù)為尺度,對實時數(shù)據(jù)進行預(yù)處理,構(gòu)建數(shù)據(jù)集矩陣;
c. 輸入隨機森林模型,輸出風(fēng)險評估結(jié)果;
d. 專家對模型進行診斷和驗證, 確保有效性, 若存在較大差異則需使用最新數(shù)據(jù)重新訓(xùn)練。
某儲氣庫是以季節(jié)調(diào)峰為目的的枯竭氣藏型地下儲氣庫,其多口注采井在日常運行、應(yīng)急調(diào)峰時產(chǎn)生大量的溫度、壓力、瞬時流量等過程信息,以及生產(chǎn)制度、時間節(jié)點等管理信息,這些數(shù)據(jù)都通過總站的SCADA系統(tǒng)直接或間接地反映系統(tǒng)的運行狀態(tài)。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析過程中的關(guān)鍵環(huán)節(jié),高質(zhì)量的數(shù)據(jù)能提升數(shù)據(jù)分析的效果。 從生產(chǎn)現(xiàn)場直接獲取的監(jiān)測數(shù)據(jù),無法避免系統(tǒng)噪聲對數(shù)據(jù)真實性的擾亂,加之?dāng)?shù)據(jù)傳輸中間環(huán)節(jié)和人工操作可能造成誤差,因此不同來源、不同格式、不同量綱的傳感器數(shù)據(jù)需經(jīng)過預(yù)處理才能夠在系統(tǒng)建模中應(yīng)用,包括數(shù)據(jù)集成、清洗、相關(guān)性分析及標準化等,具體流程如圖3所示。
乞求皮特發(fā)慈悲的想法讓我怒從膽邊生,沖動之下,我抬腳朝皮特的側(cè)身踢去。事與愿違,他抓住我的腳,向前一拽,我一下失去了平衡,背部著地,仰面朝天狠狠地摔在地上,只好把腳抽回來,掙扎著站起身。
圖3 數(shù)據(jù)預(yù)處理流程
受限于數(shù)據(jù)來源,筆者通過篩選,選定“注氣”生產(chǎn)模式下,涉及儲氣庫工藝參數(shù)的4個連續(xù)特征字段用以代表該注采井生產(chǎn)運行時的狀態(tài),分別是注采井“生產(chǎn)油壓”、“生產(chǎn)套壓”、“油管溫度”和“套管溫度”,計2 591組數(shù)據(jù)。 其余變量,如“瞬時流量”、“技套/表套壓力”及“井口外輸管線壓力”等由于未被連續(xù)監(jiān)測等客觀原因,未計入數(shù)據(jù)矩陣。
以相關(guān)性分析為例進行說明。 在地下儲氣庫注采系統(tǒng)中,各種單元、設(shè)備的測量變量,如溫度、壓力等之間存在相互影響、互相作用的非獨立關(guān)系,如兩個特性的相關(guān)性較高,那么至少有一個特征需要被丟棄。 皮爾遜相關(guān)系數(shù)法是度量兩個變量X=[X1,X2,…,Xn]和Y=[Y1,Y2,…,Yn]間密切程度的一類指標[23],其系數(shù)r的大小反映了相關(guān)程度的強弱,r值介于 [-1,1],|r|越接近于1,則代表相關(guān)性越高,其計算式為:
以皮爾遜相關(guān)系數(shù)法計算的某注采井四維度特征變量的相關(guān)性系數(shù)見表1, 可知 “生產(chǎn)油壓”與“生產(chǎn)套壓”間的r值相對較大,為0.55,但未達到相關(guān)性警戒值,故可保留所有待觀察的特征變量。
表1 特征變量相關(guān)性分析
經(jīng)數(shù)據(jù)預(yù)處理流程后, 剔除了217組不合理樣本數(shù)據(jù),消除了不同量綱、量綱單位給建模帶來的影響,得到的有效數(shù)據(jù)矩陣為2374×4,其中,2 374代表數(shù)據(jù)組的行數(shù),4代表特征變量的列數(shù)。
地下儲氣庫注采系統(tǒng)是一個工業(yè)領(lǐng)域的生產(chǎn)過程, 為按模式計劃生產(chǎn)且規(guī)則一貫式的作業(yè),在大部分生產(chǎn)時間,都處于一個動態(tài)穩(wěn)定的過程,不會出現(xiàn)偏離正常生產(chǎn)狀況過大的情況。
為便于數(shù)據(jù)可視化驗證和展示,筆者采用主元 分 析(Principal Components Analysis,PCA)方法[24~26],將四維度原始特征變量均降至三維度,維度約簡后特征集的大小由2374×4減小為2374×3。
由于對儲氣庫注采系統(tǒng)運行數(shù)據(jù)信息及其代表的實際生產(chǎn)意義“無知”,在缺乏數(shù)據(jù)標簽的情況下,采用DBSCAN進行聚類分析,可根據(jù)不同數(shù)據(jù)的特點進行聚類數(shù)據(jù)簇的劃分,實現(xiàn)數(shù)據(jù)標簽的自動化標注,這里選取模型參數(shù)為{Eps=0.5,Minpts=5}。 圖4a為三維原始數(shù)據(jù),其中x、y、z軸指代數(shù)據(jù)的3個維度, 可以看出, 數(shù)據(jù)分布各自聚散,大簇、小簇混合交織,且存在部分孤立的噪點;圖4b是聚類計算后的數(shù)據(jù),數(shù)據(jù)存在一定規(guī)律類別,既有較大的數(shù)據(jù)團,也有中等大小的數(shù)據(jù)團,還有散落分布的數(shù)據(jù)點,分別以不同顏色呈現(xiàn)。
圖4 三維數(shù)據(jù)聚類展示
通過原始數(shù)據(jù)的聚類,可實現(xiàn)對注采系統(tǒng)中不同類型數(shù)據(jù)團的追溯,并分析不同類數(shù)據(jù)團的特點和異同點, 獲取所對應(yīng)運行狀態(tài)的規(guī)律,為操作人員提供生產(chǎn)指導(dǎo)。 筆者結(jié)合地下儲氣庫現(xiàn)場的實際生產(chǎn)工況和專業(yè)知識考慮不同生產(chǎn)狀態(tài)的數(shù)據(jù)信息與其他聚類數(shù)據(jù)簇的差異度,精確定位“不良”運行狀態(tài)數(shù)據(jù)簇,自頂向下匹配各種運行工況,運行數(shù)據(jù)標記見表2。
表2 運行數(shù)據(jù)標記
將以上數(shù)據(jù),包括聚類后的運行標簽一起構(gòu)建數(shù)據(jù)集矩陣,隨機劃分訓(xùn)練集和測試集,訓(xùn)練集比例為75%,計1 780組,測試集比例為25%,計594組。
輸入隨機森林風(fēng)險評估模型,可快速判別出運行模式編號和所對應(yīng)的動態(tài)風(fēng)險大小,驗證了筆者所提出方法的有效性。
模型在測試集上的準確率見表3, 綜合準確率達到98.99%。 將訓(xùn)練好的高精度風(fēng)險判別模型保存,用于后續(xù)的在線風(fēng)險評估過程中,能夠更好地輔助生產(chǎn)決策。
表3 混淆矩陣
基于注采現(xiàn)場生產(chǎn)數(shù)據(jù),重點關(guān)注以“生產(chǎn)油壓”、“生產(chǎn)套壓”、“油管溫度”和“套管溫度”為代表的指標量化風(fēng)險分級控制和動態(tài)風(fēng)險識別,采用相關(guān)性分析、主元分析等算法對輸入變量進行數(shù)據(jù)預(yù)處理以便于可視化驗證,基于密度并結(jié)合現(xiàn)場生產(chǎn)工況,實現(xiàn)了對不同聚類簇和運行工況標簽的自動劃分,設(shè)計了離線建模、在線評估的隨機森林動態(tài)風(fēng)險評估系統(tǒng), 綜合準確率達98%以上。 該方法避免了傳統(tǒng)風(fēng)險評價策略對系統(tǒng)內(nèi)部復(fù)雜機理過程的研究,最大限度地利用了數(shù)據(jù)的價值,提升了企業(yè)風(fēng)險管理能力。 實例分析結(jié)果表明了該方法的適用性、有效性,但不足之處是在實例分析中,受限于數(shù)據(jù)來源等客觀原因,未能獲取充足的特征變量維度和數(shù)量。