亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于密度聚類和隨機森林的地下儲氣庫注采系統(tǒng)風(fēng)險評估方法研究

2021-03-19 06:13:18冀豐偲張早校仝淑月高繼峰

化工自動化及儀表 2021年1期

冀豐偲王磊張早校仝淑月高繼峰

（1.西安交通大學(xué)化學(xué)工程與技術(shù)學(xué)院；2.中石化中原石油工程設(shè)計有限公司）

天然氣地下儲氣庫是國家能源戰(zhàn)略基礎(chǔ)性設(shè)施，由生產(chǎn)裝置、SCADA控制系統(tǒng)和單元模塊組成，一般分為地下儲層、注采系統(tǒng)和地面設(shè)施，彼此之間相互作用，同時整體系統(tǒng)易受外部環(huán)境影響，導(dǎo)致存在復(fù)雜的動態(tài)行為特征。根據(jù)國際氣體工業(yè)聯(lián)合會（IGU）統(tǒng)計，我國儲氣庫實際庫容量僅為設(shè)計庫容量的26%。由于儲氣庫單元設(shè)備失效、運行方案不合理造成無法完成既定任務(wù)注采氣量，是我國儲氣庫運營過程中所面臨的挑戰(zhàn)之一［1］。而作為天然氣調(diào)峰的重要設(shè)施和手段，對地下儲氣庫注采系統(tǒng)進行高效、準確的風(fēng)險管理尤為重要。

目前國內(nèi)關(guān)于儲氣庫風(fēng)險性的標準尚未制定，僅針對特定油氣井的類型進行了規(guī)定，但并未指明可操作性和具體實施流程［2］。以數(shù)值模擬［3，4］、可靠性理論［5，6］及故障樹［7］等為代表的傳統(tǒng)技術(shù)路線的有效性在長期的工業(yè)實踐中得到了證明，但不足之處是需要充足的專業(yè)知識、工程理論，難以擬合精確的全局模型，且在系統(tǒng)建模中無法捕捉生產(chǎn)過程波動引起的動態(tài)風(fēng)險，帶來了模糊性和不確定性［8］。

注采井場作為地下儲氣庫的核心組成部分，受到注氣、采氣雙重循環(huán)的影響，運行中“強采強注”，對工藝、設(shè)備和流程的要求高［9］。筆者以地下儲氣庫注采系統(tǒng)為研究對象，利用基于密度的聚類和隨機森林算法構(gòu)建大數(shù)據(jù)智能化動態(tài)風(fēng)險判別模型，具備強大的數(shù)據(jù)分析能力，能從實際注采過程中發(fā)現(xiàn)隱藏的規(guī)律，避免抽象的過程機理分析，從而指導(dǎo)、優(yōu)化生產(chǎn)管理模式。

1 建模理論

1.1 基于密度的聚類

儲氣庫注采系統(tǒng)風(fēng)險的本質(zhì)是生產(chǎn)過程變量偏離其正常運行模式的狀態(tài)，而分析來自不同狀態(tài)偏差的數(shù)據(jù)可用于風(fēng)險評估。對歷史運行數(shù)據(jù)進行基于密度的聚類分析，能判斷出不同運行工況所對應(yīng)的數(shù)據(jù)簇，而且可以剔除少數(shù)不合理數(shù)據(jù)，是建立穩(wěn)定、健康的模型的基礎(chǔ)。

DBSCAN是一種經(jīng)典的通過定義密度對空間中數(shù)據(jù)點進行聚類的算法［10］，聚類相關(guān)算法適用于復(fù)雜大型工業(yè)生產(chǎn)過程的數(shù)據(jù)分析和標記過程［11～13］。DBSCAN定義了Eps、Minpts兩個參數(shù)來描述鄰域數(shù)據(jù)點的分布情況，其中Eps描述了某一數(shù)據(jù)點鄰域距離的閾值，即為定義密度引入的鄰域半徑；Minpts描述了某一數(shù)據(jù)點在半徑為Eps的鄰域中包含點的數(shù)量的閾值；樣本集為D={x1，x2，…，xn}，聚類簇為C={C1，C2，…，Ck}。 DBSCAN算法流程如下［14］：

1.2 隨機森林

隨機森林［15］（Random Forest，RF）是基于決策樹［16，17］的一種分類算法，它包含多個隨機決策樹，每一棵決策樹之間是沒有關(guān)聯(lián)的，當(dāng)輸入待訓(xùn)練的樣本集數(shù)據(jù)時，最終的類別結(jié)果由單個決策樹的輸出結(jié)果“簡單投票”決定。隨機森林模型對噪聲和異常值有一定的容忍性，同時能減輕過擬合，對實際工業(yè)生產(chǎn)相關(guān)的分類問題具有較好的可擴展性和實用性［18～21］，其原理如圖1所示［22］。

圖1 隨機森林分類過程示意圖

隨機森林｛h（d，θt），t=1，2，…，T｝由樹形分類器集合而成，其元分類器h（d，θt）可構(gòu)造出未剪枝的分類決策樹。對于訓(xùn)練樣本集D′，可有放回地進行采樣，得到n組訓(xùn)練集D′1，D′2，…，D′n，并生成T棵分類回歸樹，其輸出類別由森林中樹的多數(shù)投票決定：

式中 c——得票最多的訓(xùn)練樣本的所屬類別；

h（d，θt）——隨機森林分類函數(shù)，d是輸入向量，θt是獨立同分布的隨機向量；

I——指示器函數(shù)。

投票完成后得到混合矩陣CM。準確率CA的計算式是：

其中，CM（i，j）表示i類別的樣本被劃分為j類的次數(shù)，當(dāng)i=j時表示預(yù)測正確。

對地下儲氣庫注采系統(tǒng)進行風(fēng)險評估，就是要實現(xiàn)對不同運行工況的分類，原理是根據(jù)建立的隨機森林分類器識別，并評估實時監(jiān)測的生產(chǎn)數(shù)據(jù)風(fēng)險的高低。

2 風(fēng)險評估系統(tǒng)架構(gòu)設(shè)計

筆者結(jié)合大數(shù)據(jù)技術(shù)與儲氣庫生產(chǎn)運行的特點，提出并設(shè)計了一種基于密度聚類和隨機森林的地下儲氣庫注采系統(tǒng)風(fēng)險評估方法，框架如圖2所示，包括離線建模和在線評估兩個階段。

圖2 風(fēng)險評估方法架構(gòu)

2.1 離線建模

離線建模流程如下：

a. 采集歷史運行監(jiān)測數(shù)據(jù)；

b. 數(shù)據(jù)預(yù)處理和數(shù)據(jù)集矩陣構(gòu)建；

c. 基于密度的聚類分析，數(shù)據(jù)標簽標記和驗證；

d. 訓(xùn)練集、測試集劃分，訓(xùn)練隨機森林分類模型；

e. 模型測試、性能調(diào)優(yōu)；

f. 若準確率優(yōu)良，保存模型并進入在線評估階段，否則需重新訓(xùn)練。

2.2 在線評估

在線評估流程如下：

a. 輸入實時運行監(jiān)測數(shù)據(jù)；

b. 以歷史運行數(shù)據(jù)為尺度，對實時數(shù)據(jù)進行預(yù)處理，構(gòu)建數(shù)據(jù)集矩陣；

c. 輸入隨機森林模型，輸出風(fēng)險評估結(jié)果；

d. 專家對模型進行診斷和驗證，確保有效性，若存在較大差異則需使用最新數(shù)據(jù)重新訓(xùn)練。

3 實例分析

某儲氣庫是以季節(jié)調(diào)峰為目的的枯竭氣藏型地下儲氣庫，其多口注采井在日常運行、應(yīng)急調(diào)峰時產(chǎn)生大量的溫度、壓力、瞬時流量等過程信息，以及生產(chǎn)制度、時間節(jié)點等管理信息，這些數(shù)據(jù)都通過總站的SCADA系統(tǒng)直接或間接地反映系統(tǒng)的運行狀態(tài)。

3.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析過程中的關(guān)鍵環(huán)節(jié)，高質(zhì)量的數(shù)據(jù)能提升數(shù)據(jù)分析的效果。從生產(chǎn)現(xiàn)場直接獲取的監(jiān)測數(shù)據(jù)，無法避免系統(tǒng)噪聲對數(shù)據(jù)真實性的擾亂，加之?dāng)?shù)據(jù)傳輸中間環(huán)節(jié)和人工操作可能造成誤差，因此不同來源、不同格式、不同量綱的傳感器數(shù)據(jù)需經(jīng)過預(yù)處理才能夠在系統(tǒng)建模中應(yīng)用，包括數(shù)據(jù)集成、清洗、相關(guān)性分析及標準化等，具體流程如圖3所示。

乞求皮特發(fā)慈悲的想法讓我怒從膽邊生，沖動之下，我抬腳朝皮特的側(cè)身踢去。事與愿違，他抓住我的腳，向前一拽，我一下失去了平衡，背部著地，仰面朝天狠狠地摔在地上，只好把腳抽回來，掙扎著站起身。

圖3 數(shù)據(jù)預(yù)處理流程

受限于數(shù)據(jù)來源，筆者通過篩選，選定“注氣”生產(chǎn)模式下，涉及儲氣庫工藝參數(shù)的4個連續(xù)特征字段用以代表該注采井生產(chǎn)運行時的狀態(tài)，分別是注采井“生產(chǎn)油壓”、“生產(chǎn)套壓”、“油管溫度”和“套管溫度”，計2 591組數(shù)據(jù)。其余變量，如“瞬時流量”、“技套/表套壓力”及“井口外輸管線壓力”等由于未被連續(xù)監(jiān)測等客觀原因，未計入數(shù)據(jù)矩陣。

以相關(guān)性分析為例進行說明。在地下儲氣庫注采系統(tǒng)中，各種單元、設(shè)備的測量變量，如溫度、壓力等之間存在相互影響、互相作用的非獨立關(guān)系，如兩個特性的相關(guān)性較高，那么至少有一個特征需要被丟棄。皮爾遜相關(guān)系數(shù)法是度量兩個變量X=［X1，X2，…，Xn］和Y=［Y1，Y2，…，Yn］間密切程度的一類指標［23］，其系數(shù)r的大小反映了相關(guān)程度的強弱，r值介于［-1，1］，|r|越接近于1，則代表相關(guān)性越高，其計算式為：

以皮爾遜相關(guān)系數(shù)法計算的某注采井四維度特征變量的相關(guān)性系數(shù)見表1，可知 “生產(chǎn)油壓”與“生產(chǎn)套壓”間的r值相對較大，為0.55，但未達到相關(guān)性警戒值，故可保留所有待觀察的特征變量。

表1 特征變量相關(guān)性分析

經(jīng)數(shù)據(jù)預(yù)處理流程后，剔除了217組不合理樣本數(shù)據(jù)，消除了不同量綱、量綱單位給建模帶來的影響，得到的有效數(shù)據(jù)矩陣為2374×4，其中，2 374代表數(shù)據(jù)組的行數(shù)，4代表特征變量的列數(shù)。

3.2 聚類及運行狀態(tài)驗證

地下儲氣庫注采系統(tǒng)是一個工業(yè)領(lǐng)域的生產(chǎn)過程，為按模式計劃生產(chǎn)且規(guī)則一貫式的作業(yè)，在大部分生產(chǎn)時間，都處于一個動態(tài)穩(wěn)定的過程，不會出現(xiàn)偏離正常生產(chǎn)狀況過大的情況。

為便于數(shù)據(jù)可視化驗證和展示，筆者采用主元分析（Principal Components Analysis，PCA）方法［24～26］，將四維度原始特征變量均降至三維度，維度約簡后特征集的大小由2374×4減小為2374×3。

由于對儲氣庫注采系統(tǒng)運行數(shù)據(jù)信息及其代表的實際生產(chǎn)意義“無知”，在缺乏數(shù)據(jù)標簽的情況下，采用DBSCAN進行聚類分析，可根據(jù)不同數(shù)據(jù)的特點進行聚類數(shù)據(jù)簇的劃分，實現(xiàn)數(shù)據(jù)標簽的自動化標注，這里選取模型參數(shù)為｛Eps=0.5，Minpts=5｝。圖4a為三維原始數(shù)據(jù)，其中x、y、z軸指代數(shù)據(jù)的3個維度，可以看出，數(shù)據(jù)分布各自聚散，大簇、小簇混合交織，且存在部分孤立的噪點；圖4b是聚類計算后的數(shù)據(jù)，數(shù)據(jù)存在一定規(guī)律類別，既有較大的數(shù)據(jù)團，也有中等大小的數(shù)據(jù)團，還有散落分布的數(shù)據(jù)點，分別以不同顏色呈現(xiàn)。

圖4 三維數(shù)據(jù)聚類展示

通過原始數(shù)據(jù)的聚類，可實現(xiàn)對注采系統(tǒng)中不同類型數(shù)據(jù)團的追溯，并分析不同類數(shù)據(jù)團的特點和異同點，獲取所對應(yīng)運行狀態(tài)的規(guī)律，為操作人員提供生產(chǎn)指導(dǎo)。筆者結(jié)合地下儲氣庫現(xiàn)場的實際生產(chǎn)工況和專業(yè)知識考慮不同生產(chǎn)狀態(tài)的數(shù)據(jù)信息與其他聚類數(shù)據(jù)簇的差異度，精確定位“不良”運行狀態(tài)數(shù)據(jù)簇，自頂向下匹配各種運行工況，運行數(shù)據(jù)標記見表2。

表2 運行數(shù)據(jù)標記

3.3 模型訓(xùn)練和結(jié)果輸出

將以上數(shù)據(jù)，包括聚類后的運行標簽一起構(gòu)建數(shù)據(jù)集矩陣，隨機劃分訓(xùn)練集和測試集，訓(xùn)練集比例為75%，計1 780組，測試集比例為25%，計594組。

輸入隨機森林風(fēng)險評估模型，可快速判別出運行模式編號和所對應(yīng)的動態(tài)風(fēng)險大小，驗證了筆者所提出方法的有效性。

模型在測試集上的準確率見表3，綜合準確率達到98.99%。將訓(xùn)練好的高精度風(fēng)險判別模型保存，用于后續(xù)的在線風(fēng)險評估過程中，能夠更好地輔助生產(chǎn)決策。

表3 混淆矩陣

4 結(jié)束語

基于注采現(xiàn)場生產(chǎn)數(shù)據(jù)，重點關(guān)注以“生產(chǎn)油壓”、“生產(chǎn)套壓”、“油管溫度”和“套管溫度”為代表的指標量化風(fēng)險分級控制和動態(tài)風(fēng)險識別，采用相關(guān)性分析、主元分析等算法對輸入變量進行數(shù)據(jù)預(yù)處理以便于可視化驗證，基于密度并結(jié)合現(xiàn)場生產(chǎn)工況，實現(xiàn)了對不同聚類簇和運行工況標簽的自動劃分，設(shè)計了離線建模、在線評估的隨機森林動態(tài)風(fēng)險評估系統(tǒng)，綜合準確率達98%以上。該方法避免了傳統(tǒng)風(fēng)險評價策略對系統(tǒng)內(nèi)部復(fù)雜機理過程的研究，最大限度地利用了數(shù)據(jù)的價值，提升了企業(yè)風(fēng)險管理能力。實例分析結(jié)果表明了該方法的適用性、有效性，但不足之處是在實例分析中，受限于數(shù)據(jù)來源等客觀原因，未能獲取充足的特征變量維度和數(shù)量。