彭牡林,肖 宏,肖逸軍,張 翼
(中國石油西南油氣田分公司通信與信息技術(shù)中心,成都 610000)
目前,已建成的設(shè)備相關(guān)信息系統(tǒng)有設(shè)備綜合管理系統(tǒng)、生產(chǎn)數(shù)據(jù)平臺、ERP系統(tǒng)、作業(yè)區(qū)數(shù)字化管理平臺、管道與場站管理系統(tǒng)、凈化總廠設(shè)備完整性管理系統(tǒng)等,涉及電力、通信、集輸凈化、鉆井試油、安全、環(huán)保、消防等專業(yè)領(lǐng)域設(shè)備信息,數(shù)據(jù)涵蓋設(shè)備基礎(chǔ)臺賬信息、設(shè)備運轉(zhuǎn)記錄、故障信息、維護管理記錄等,實現(xiàn)了設(shè)備的全生命周期管理,積累了大量的供研究和挖掘的歷史數(shù)據(jù)。
近些年,隨著微處理器或計算機的儀器儀表的迅速發(fā)展,以及維護管理系統(tǒng)的不斷完善,尤其是先進以現(xiàn)場總線和工業(yè)以太網(wǎng)等通訊技術(shù)的高速發(fā)展和普及,國內(nèi)外各大廠商推出了各種先進的預測性維護技術(shù)。油氣井管道站庫生產(chǎn)運行安全環(huán)保預警可視化管理系統(tǒng)研究與應用項目組對設(shè)備完整性及檢維修預警也進行了研究,研究人員使用灰色預測模型對壓力容器厚度進行灰色動態(tài)擬合,找出厚度隨時間的變化規(guī)律,求時間序列函數(shù),預測下一次檢測值,以及基于多參數(shù)的設(shè)備故障預警就是通過綜合分析與設(shè)備故障狀態(tài)相關(guān)聯(lián)的多個工況參數(shù)的變化情況,實現(xiàn)預警。
決策樹分析法是指分析每個決策或事件(即自然狀態(tài))時,都引出兩個或多個事件和不同的結(jié)果,并把這種決策或事件的分支畫成圖形,這種圖形很像一棵樹的枝干,故稱決策樹分析法。
下面以決策樹構(gòu)建中的ID3算為例說明決策樹構(gòu)建步驟[2]。
第一步:收集數(shù)據(jù),數(shù)據(jù)包括樣本數(shù)據(jù)、驗證數(shù)據(jù),樣本數(shù)據(jù)用于構(gòu)建決策樹、驗證數(shù)據(jù)用于驗證決策樹的準確率。
第二步:數(shù)據(jù)構(gòu)建,確定根據(jù)哪幾個屬性進行分類,及確定分類類別。
第三步:決策樹構(gòu)建。
為方便構(gòu)建模型我們選取兩種設(shè)備狀態(tài):正常和非正常。
首先,選取樣本集,樣本集分兩類,一類為構(gòu)建決策樹,二類為驗證決策樹。
表1 設(shè)備預測性決策樹構(gòu)建樣本數(shù)據(jù)集
6 1990-2010年 高 是 是 否7 2010年以后 高 是 是 是8 1990年以前 中 否 否 否9 1990年以前 高 是 否 是10 1990-2010年 中 是 否 是11 1990年以前 中 是 是 是12 2010年以后 中 否 是 是13 2010年以后 低 是 否 是14 1990-2010年 中 否 是 否
通過公式計算數(shù)據(jù)集的信息熵為:I(正常,非正常)=0.9406;
生產(chǎn)日期:條件熵=E(樣本集,生產(chǎn)日期)=0.6936,信息增益=Gain(樣本集,生產(chǎn)日期)=I(正常,非正常)-E(樣本集,生產(chǎn)日期)=0.247;
工作時的溫度:生產(chǎn)日期:條件熵=E(樣本集,工作時的溫度)=0.9111,信息增益=Gain(樣本集,工作時的溫度)=I(正常,非正常)-E(樣本集,工作時的溫度)=0.0295;
是否經(jīng)常使用:生產(chǎn)日期:條件熵=E(樣本集,是否經(jīng)常使用)=0.7886,信息增益=Gain(樣本集,是否經(jīng)常使用)=I(正常,非正常)-E(樣本集,是否經(jīng)常使用)=0.152;
是否經(jīng)常維保:生產(chǎn)日期:條件熵=E(樣本集,是否經(jīng)常維保)=0.8955,信息增益=Gain(樣本集,是否經(jīng)常維保)=I(正常,非正常)-E(樣本集,是否經(jīng)常維保)=0.0484;
由此可見,若以“生產(chǎn)日期”作為分裂屬性,所得信息增益最大,于是根據(jù)該屬性的三個取值,將數(shù)據(jù)集分為三個子集:
圖1 數(shù)據(jù)子集構(gòu)建
(1)數(shù)據(jù)集1
表2 數(shù)據(jù)集1
(2)數(shù)據(jù)集2
表3 數(shù)據(jù)集2
(3)數(shù)據(jù)集3
表4 數(shù)據(jù)集3
數(shù)據(jù)集2對應子集全部樣本都屬于同一個類別,因此它成葉子節(jié)點,不再分裂。采用同樣的方法,分別對數(shù)據(jù)集1和3進行分裂,直到所得子集的全部樣本屬于同一個類別,得到全部葉子節(jié)點。最終得到的決策樹如圖2所示:
圖2 最終得到的決策樹
由此構(gòu)建完成設(shè)備預測性維護決策樹,接下來需要用驗證樣本集對結(jié)果進行驗證。驗證的方法為將樣本數(shù)據(jù)的屬性通過決策樹進行分類,所得到的葉節(jié)點的分類即為決策樹分類結(jié)果,然后將得到的結(jié)果與實際情況進行比較,計算驗證樣本集的決策樹分類準確率。
設(shè)備的預測性維護需要IT技術(shù)與業(yè)務的深度結(jié)合,為保證預測性維護的準確性和及時性,建議如下:一是注重設(shè)備基礎(chǔ)資料的管理,涉及設(shè)備廠商、生產(chǎn)日期、規(guī)格型號等出廠參數(shù);二是加強設(shè)備運行狀態(tài)數(shù)據(jù)的收集整理,尤其是壓力、溫度等直接反映設(shè)備運行狀態(tài)的參數(shù)的收集,包括故障和正常運行狀態(tài);三是建立設(shè)備預測性維護知識庫,引入專家驗證機制,提高設(shè)備預測性維護的準確率。
決策樹在設(shè)備預測性維護方面應用比較多,但是決策樹本身也存在一些缺點,ID3僅維護單一的當前假設(shè),這樣就失去了表示所有一致假設(shè)帶來的優(yōu)勢,而且ID3算法在搜索中不進行回溯,每當在樹的某一層次選擇了一個屬性進行測試,它不會再回溯重新考慮這個選擇,所以它是收斂到局部最優(yōu)的答案,而不是全局最優(yōu)的。但是對于其中的不足,可以結(jié)合其他算法或者對其本身進行改進來達到全局最優(yōu)效果。