張雪,王德建.2,關(guān)國(guó)偉.2
(1.中國(guó)石油集團(tuán)安全環(huán)保技術(shù)研究院有限公司,北京 102206;2.中國(guó)石油渤海石油裝備制造有限公司,天津 300272)
我們對(duì)一些煉化企業(yè)的控制系統(tǒng)報(bào)警情況做了調(diào)研,圖1是從某企業(yè)生產(chǎn)現(xiàn)場(chǎng)采集的渣油加氫裝置“報(bào)警事件與操作事件對(duì)比圖”。淺灰色代表為報(bào)警事件,深灰色代表為操作事件。可以看出,同一時(shí)間段內(nèi)大量的報(bào)警事件只對(duì)應(yīng)了少量的操作事件,這就說(shuō)明操作人員對(duì)大部分報(bào)警并沒(méi)有響應(yīng)動(dòng)作,因此大量報(bào)警都可能是風(fēng)險(xiǎn)等級(jí)不高的報(bào)警或無(wú)效的報(bào)警。隨著過(guò)程工業(yè)自動(dòng)化、智能化水平的提高,DCS、PLC、FCS等廣泛應(yīng)用,工藝報(bào)警的設(shè)置變得越來(lái)越容易,由于過(guò)程系統(tǒng)的復(fù)雜性和報(bào)警系統(tǒng)設(shè)計(jì)的不合理,產(chǎn)生了大量甚至無(wú)效的報(bào)警,這些報(bào)警信息對(duì)生產(chǎn)安全運(yùn)行產(chǎn)生了重大影響。
圖1 報(bào)警事件與操作事件對(duì)比圖
信息挖掘的本質(zhì)是大數(shù)據(jù)的挖掘,通過(guò)訓(xùn)練大量數(shù)據(jù)樣本,得到數(shù)據(jù)對(duì)象彼此之間的內(nèi)在關(guān)聯(lián)和特征,并以此為依據(jù)提取目標(biāo)信息,隨著計(jì)算機(jī)和人工智能的快速發(fā)展,信息挖掘與深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、混合現(xiàn)實(shí)等多個(gè)領(lǐng)域的理論和技術(shù)進(jìn)行了充分的融合。目前,國(guó)內(nèi)外學(xué)者主要研究數(shù)據(jù)挖掘中的分類、優(yōu)化、識(shí)別、預(yù)測(cè)等技術(shù)在眾多領(lǐng)域中的應(yīng)用技術(shù)。而對(duì)于石油化工行業(yè)來(lái)說(shuō),大數(shù)據(jù)時(shí)代的來(lái)臨既是機(jī)遇又是挑戰(zhàn),生產(chǎn)裝置規(guī)模越大數(shù)據(jù)規(guī)模就越大,對(duì)其進(jìn)行挖掘分析所能得到的價(jià)值就越大。用于信息挖掘的算法主要包括關(guān)聯(lián)規(guī)則法、決策樹法、神經(jīng)網(wǎng)絡(luò)法和遺傳算法等。
關(guān)聯(lián)規(guī)則法利用交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體,分析、挖掘和查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)關(guān)系。Apriori算法是挖掘關(guān)聯(lián)規(guī)則的基本算法,也是最著名的關(guān)聯(lián)分析算法。但Apriori算法在較大數(shù)據(jù)集上需要花費(fèi)大量的運(yùn)算開銷從而造成性能低下,而FP-growth卻不會(huì)有這個(gè)問(wèn)題,F(xiàn)Pgrowth可以從源數(shù)據(jù)中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。
除了上述常見(jiàn)方法外,還有目前在人工智能諸多領(lǐng)域(如語(yǔ)音識(shí)別、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等)取得了突破性進(jìn)展的深度學(xué)習(xí)方法。
本文按照獨(dú)立、靜態(tài)或變量值線性化設(shè)計(jì),通過(guò)信息挖掘的關(guān)聯(lián)規(guī)則法,使用FP-Growth算法對(duì)歷史報(bào)警數(shù)據(jù)進(jìn)行優(yōu)化得到正常工作區(qū)A,如圖2所示。
圖2 報(bào)警工作區(qū)
確定報(bào)警數(shù)據(jù)對(duì)于異常工況的貢獻(xiàn)度大小和各過(guò)程變量之間的相關(guān)性,通過(guò)數(shù)據(jù)預(yù)處理及FP-Growth算法將重要報(bào)警從眾多關(guān)聯(lián)信息中挖掘出來(lái),使操作員不必疲于處理無(wú)效警報(bào)。報(bào)警信息優(yōu)化主要流程如圖3所示。
圖3 報(bào)警優(yōu)化流程
煉化企業(yè)的報(bào)警數(shù)據(jù)一般都存儲(chǔ)在DCS的報(bào)警日志里,煉化企業(yè)工藝過(guò)程復(fù)雜、報(bào)警數(shù)據(jù)龐大,數(shù)據(jù)更新頻繁,不同廠商CS的報(bào)警數(shù)據(jù)的存儲(chǔ)格略有不同。
本文中,基于橫河DCS報(bào)警服務(wù)器,采用Mediator模式,利用OPC通信技術(shù)實(shí)時(shí)采集DCS報(bào)警數(shù)據(jù),將報(bào)警數(shù)據(jù)預(yù)處理成具備時(shí)間戳、報(bào)警位、報(bào)警類型、報(bào)警狀態(tài)和報(bào)警優(yōu)先級(jí)等屬性參數(shù)的數(shù)據(jù)信息。圖4為中石油四川石化AAM系統(tǒng)報(bào)警數(shù)據(jù)采集格式。
根據(jù)FP-Growth算法頻繁項(xiàng)集的挖掘原則,將圖4報(bào)警數(shù)據(jù)預(yù)處理成報(bào)警數(shù)據(jù)事務(wù)項(xiàng)集數(shù)據(jù)庫(kù),見(jiàn)表1。
表1 報(bào)警數(shù)據(jù)事務(wù)項(xiàng)集數(shù)據(jù)庫(kù)
圖4 報(bào)警數(shù)據(jù)
關(guān)聯(lián)規(guī)則是信息挖掘理論中最活躍的研究方法之一,也是目前應(yīng)用最廣泛和最重要的信息挖掘方法。關(guān)聯(lián)規(guī)則挖掘旨在挖掘隱藏在大型數(shù)據(jù)庫(kù)中有意義的聯(lián)系,所挖掘出的聯(lián)系主要用頻繁項(xiàng)集來(lái)表示,其中基于頻繁項(xiàng)集的算法主要是Apriori算法和FP-Growth算法。
FP-Growth算法是J.Han等人針對(duì)Apriori需要頻繁的便利數(shù)據(jù)庫(kù)、產(chǎn)生大量候選項(xiàng)集這些缺陷提出的改進(jìn)算法,F(xiàn)P-Growth算法對(duì)不同長(zhǎng)度的規(guī)則具有普遍的適用性。本文選用FP-Growth算法,是為了獲取較長(zhǎng)的頻繁模式,并且可生成大量的候選短頻繁模式。在信息挖掘領(lǐng)域,F(xiàn)P-Growth算法的引用次數(shù)位列三甲。
3.3.1 定義
支持度S——支持度規(guī)則用來(lái)設(shè)定數(shù)據(jù)集的頻繁程度統(tǒng)計(jì)項(xiàng)的出現(xiàn)頻率,將出現(xiàn)次數(shù)小的項(xiàng)剔除掉,本文支持度S最低閾值為20%。
頻繁項(xiàng)集——項(xiàng)集的支持度超過(guò)設(shè)定的閾值時(shí),該項(xiàng)集即稱為頻繁項(xiàng)集。
置信度C——置信度規(guī)則用來(lái)確定項(xiàng)集Y在包含項(xiàng)集X的事務(wù)中出現(xiàn)的頻繁程度。分子是項(xiàng)集XY同時(shí)出現(xiàn)的次數(shù),分母是含有項(xiàng)集X的事務(wù)數(shù)。
如在表1中,可令X=F,Y=E,則
3.3.2 項(xiàng)頭表的建立
建立FP-Tree之前首先建立項(xiàng)頭表,項(xiàng)頭表按降序排列,F(xiàn)P-Growth算法通過(guò)FP-Tree來(lái)挖掘頻繁項(xiàng)集,若一個(gè)數(shù)據(jù)集包含K個(gè)項(xiàng)會(huì)產(chǎn)生2k-1個(gè)頻繁項(xiàng)集,K值越大,產(chǎn)生的頻繁項(xiàng)集的數(shù)目就越大。為了減少頻繁項(xiàng)集的計(jì)算數(shù)量,堅(jiān)持的原則:一個(gè)項(xiàng)集的支持度要小于其自己的支持度。
首先,對(duì)表1進(jìn)行初次掃描,得到所有頻繁1項(xiàng)集的計(jì)數(shù),刪除支持度低于閾值的項(xiàng),在表1報(bào)警數(shù)據(jù)事務(wù)項(xiàng)集數(shù)據(jù)庫(kù)T{AT-3201-A1,AT-3201-A6}的6條事務(wù)中掃描數(shù)據(jù)發(fā)現(xiàn),C、I只出現(xiàn)一次,支持度低于閾值20%,因此它們不會(huì)出現(xiàn)在項(xiàng)頭表中,將頻繁1項(xiàng)集放入項(xiàng)頭表,并按照支持度降序排列,將剩下的E、B、G、D、F、G按照支持度的大小降序排列,組成了項(xiàng)頭表,如圖5左圖。
其次,剔除表1事物項(xiàng)中每條數(shù)據(jù)的非頻繁項(xiàng)集,按照支持度降序排列。如AT-3201-A1中,剔除B、C、F、G、I,剩下D、E、H,按照支持度的由大到小排序成E、D、H。其他事務(wù)項(xiàng)以此類推,形成項(xiàng)集合I2,如圖5右圖。
圖5 項(xiàng)頭表和項(xiàng)集合I2
3.3.3 FP-Tree的建立
有了項(xiàng)頭表和排序后的項(xiàng)集合I2,就可以開始TP-Tree的建立了。首先,插入項(xiàng)集合I2的第一條數(shù)據(jù)E、D、H,此時(shí)FP-Tree沒(méi)有結(jié)點(diǎn),因此E、D、H是一個(gè)獨(dú)立的路徑,所有結(jié)點(diǎn)的計(jì)數(shù)都為1,項(xiàng)頭表通過(guò)結(jié)點(diǎn)鏈表鏈接上對(duì)應(yīng)的新增結(jié)點(diǎn);其次,插入G、D,如果有共用的祖先,則對(duì)應(yīng)的公用祖先結(jié)點(diǎn)計(jì)數(shù)加1;再者,插入EBG,公用祖先節(jié)點(diǎn)E計(jì)數(shù)加1,此時(shí)為E2;用同樣的辦法可以更新最后1條數(shù)據(jù),直到所有的數(shù)據(jù)都插入到FP-Tree中,最后形成FP-Tree構(gòu)造圖,如圖6所示。
圖6 FP-Tree構(gòu)造圖
3.3.4 FP-Tree的挖掘
基于圖6FP-Tree構(gòu)造圖和圖5項(xiàng)頭表,先從最底部的H結(jié)點(diǎn)開始依次向上挖掘,開始尋找H結(jié)點(diǎn)的條件模式基,如圖6所示,H有三個(gè)葉子結(jié)點(diǎn),先畫出H的FP子 樹{E:5,B:4,G:3,D:1,F:1,H:1}、{E:5,D:1,H:1}和{E:5,B:4,F:1,H:1};接著,將所有的祖先結(jié)點(diǎn)計(jì)數(shù)設(shè)置為葉子結(jié)點(diǎn)的計(jì)數(shù),H的FP子樹即變成{E:3,B:3,G:3,D:1,D:1,F:1,F:1,H:1,H:1,H:1};其中,D結(jié)點(diǎn)和F 結(jié)點(diǎn)由于在條件模式基里面的支持度低于閾值,所以被刪除;最終,去除了低支持度結(jié)點(diǎn)和葉子結(jié)點(diǎn)后的H結(jié)點(diǎn)的條件模式基為{E:3,B:3,G:3}。通過(guò)此條件模式基,得到H結(jié)點(diǎn)的 頻繁2項(xiàng)集為{E:3,H:3}、{B:3,H:3}、{G:3,H:3}。遞歸合并2項(xiàng)集,可得到頻繁3項(xiàng)集為{E:3,B:3,H:3}、{E:3,G:3,H:3}、{G:3,B:3,H:3}。遞歸合并3項(xiàng)集,得到頻繁4項(xiàng)集為{E:3,B:3,G:3,H:3},則H結(jié)點(diǎn)對(duì)應(yīng)的最大的頻繁項(xiàng)集為頻繁4項(xiàng)集{E:3,B:3,G:3,H:3}。
H節(jié)點(diǎn)挖掘完畢后,依次挖掘F、D、G、B、E節(jié)點(diǎn),用以上同樣的方法可以遞歸挖掘到每個(gè)節(jié)點(diǎn)的最大頻繁項(xiàng)集,則從上面的分析可以看到,遞歸挖掘得到最大的頻繁項(xiàng)集為4項(xiàng)集{E:3,B:3,G:3,H:3}。
本文針對(duì)煉化企業(yè)控制系統(tǒng)的無(wú)效報(bào)警問(wèn)題,簡(jiǎn)要概述報(bào)警管理現(xiàn)狀和信息挖掘技術(shù),對(duì)報(bào)警數(shù)據(jù)采集及預(yù)處理技術(shù)和關(guān)聯(lián)規(guī)則方法的FP-Growth算法進(jìn)行深入研究,通過(guò)支持度和置信度可根據(jù)不同工藝和工況手動(dòng)配置的優(yōu)勢(shì),利用最大頻繁項(xiàng)集對(duì)報(bào)警數(shù)據(jù)節(jié)點(diǎn)進(jìn)行信息挖掘,減少了DCS控制系統(tǒng)的無(wú)效報(bào)警頻次,有效提高了報(bào)警準(zhǔn)確率,使DCS控制系統(tǒng)報(bào)警總數(shù)約下降62%~93%。