遲海龍,顏現(xiàn)波
(1.北京中水科水電科技開發(fā)有限公司,北京 100038 ;2.中國水利水電科學(xué)研究院,北京 100038)
告警系統(tǒng)作為現(xiàn)代化水電站監(jiān)控系統(tǒng)的重要組成部分[1],已經(jīng)成為運行人員監(jiān)視系統(tǒng)重要有利工具。事實上、現(xiàn)代化水電站運行中,對告警系統(tǒng)的依賴程度大大增加。告警系統(tǒng)提供絕大多數(shù)生產(chǎn)系統(tǒng)的實時運行信息(圖1)。如何讓告警系統(tǒng)快速、準(zhǔn)確、高效為運行人員提供生產(chǎn)運行信息,是目前水電站信息化、智能化的一個重要研究方向。
圖1 告警系統(tǒng)概要圖
國際自動化學(xué)會(ISA)及美國國家標(biāo)準(zhǔn)協(xié)會(ANSI)在 其 聯(lián) 合 制 定 的 標(biāo) 準(zhǔn)(ISA.ANSI/ISA-18.2-2009)[2]中給出了如圖2描述的告警系統(tǒng)全生命周期模型。這個模型對于所有適用的過程工業(yè)告警的各個階段都給出詳細(xì)的定義和描述,其中包括了10階段。
圖2 告警管理生命周期模型
(1)告警理念(A):在設(shè)計一個告警系統(tǒng)之前需要對該告警系統(tǒng)進(jìn)行基本規(guī)劃設(shè)計,定義具體的目標(biāo)原則及實施方案的框架。
(2)識別(B):在此階段需要確認(rèn)潛在的告警,輸入資料為過程危險分析報告和流程圖,并給出可能的告警列表。
(3)合理化(C):在此對告警系統(tǒng)進(jìn)行優(yōu)化、合理化、分級、優(yōu)先級和文檔化。掌握告警數(shù)據(jù)庫和告警設(shè)計要求,并完成告警的基本設(shè)計。
(4)詳細(xì)設(shè)計(D):在設(shè)計階段,根據(jù)告警屬性和設(shè)計要求由階段(C)(合理化)決定。設(shè)計含3個方面:基本告警設(shè)計、HMI(人機(jī)接口) 設(shè)計和先進(jìn)告警技術(shù)設(shè)計。
(5)實施(E):實施階段,安裝告警或告警系統(tǒng)所需的活動并使其進(jìn)入操作狀態(tài)。新告警或新告警系統(tǒng)的實施包括系統(tǒng)的物理和邏輯安裝和功能驗證。
(6)運行(F):在運行階段,告警或告警系統(tǒng)處于服務(wù)狀態(tài)并執(zhí)行其預(yù)期的功能。關(guān)于告警原理和每個告警目的的進(jìn)修培訓(xùn)包括在這個階段。
(7)維護(hù)(G):在維護(hù)階段,告警或告警系統(tǒng)未運行但正在測試或修復(fù)。定期維護(hù)(例如,儀器測試)對于確保告警按設(shè)計如期運行同樣重要。
(8)監(jiān)控和評估(H):根據(jù)告警理念中規(guī)定的性能目標(biāo),持續(xù)監(jiān)控告警系統(tǒng)和單個告警的整體性能。
(9)變更管理(A):在變更管理階段,建議并批準(zhǔn)對告警系統(tǒng)的修改。變更過程應(yīng)遵循告警管理生命周期的每個階段,從識別到實施。
(10)審核(J):進(jìn)行定期審查,以保持告警系統(tǒng)和告警管理流程的完整性。
告警的閾值問題是告警系統(tǒng)中一個重要問題,該問題體現(xiàn)在告警全生命周期模型的合理化、詳細(xì)設(shè)計等階段。首先閾值作為預(yù)警狀態(tài)感知器的重要參數(shù),對其設(shè)定會直接決定告警的準(zhǔn)確度、置信度和系統(tǒng)負(fù)荷等,會影響操作人員對系統(tǒng)的信心。閾值按照數(shù)量可分為單參數(shù)和多參數(shù)。
(1)單參數(shù)閾值優(yōu)化問題
單參數(shù)閾值設(shè)計問題可描述為信號檢測理論的感 知 器ROC(Receiver operation characteristics)[3]問題, ROC最早應(yīng)用在醫(yī)學(xué)測試中,主要為測試生物醫(yī)學(xué)樣本的篩查陽性的準(zhǔn)確度,按照實際標(biāo)簽和檢測標(biāo)簽的對應(yīng)有4種組合關(guān)系,分別為①(陽-陽),前者為樣本真實標(biāo)簽,后者代表檢測到的標(biāo)簽。所以這里描述為真正的樣本陽性檢測結(jié)果為陽性,同理還有②(陽-陰)③(陰-陽)④(陰-陰)。其中(陽-陰)為漏報,在告警體現(xiàn)為若閾值設(shè)置不合理,比如過高,則可能導(dǎo)致真正的需要告警的情況沒有報出而稱為漏報,統(tǒng)計學(xué)上也稱之為Ⅰ類錯誤,(陰-陽)為誤報,統(tǒng)計學(xué)上稱之為Ⅱ類錯誤 。而(陽-陽) (陰-陰)為真正的告警率 。提高告警系統(tǒng)的準(zhǔn)確度就是要求我們要正確設(shè)置閾值參數(shù),提高正確告警樣本數(shù)量在整個告警的比例。而盡量降低Ⅰ類和Ⅱ類錯誤告警的占比。而這兩類錯誤之間也是相互關(guān)聯(lián)影響的,在設(shè)置閾值時在其他條件不變的情況下,如果要求犯Ⅰ類錯誤概率越小,那么犯Ⅱ類錯誤的概率就會越大。同樣的,如果要求犯Ⅱ類錯誤概率越小,那么犯Ⅰ類錯誤的概率就會越大。所以在實際中我們需要權(quán)衡兩類錯誤對我們的影響的嚴(yán)重程度來確定具體閾值參數(shù)。在水電站實時控制的兩種錯誤的告警中,我們更應(yīng)該注意I類錯誤的比例。因為漏報可能導(dǎo)致的結(jié)果更加嚴(yán)重,同時也應(yīng)該盡量壓縮Ⅱ類錯誤以提高系統(tǒng)的置信度。
圖3 閾值中ROC問題
(2)多參數(shù)閾值優(yōu)化問題
為了提高單參數(shù)告警的準(zhǔn)確度,降低誤報和漏報的比率,實踐中也會引入多參數(shù)來提高告警的效率和精度。例如:在判斷設(shè)備告警閾值的同時我們可以引入設(shè)備工況參數(shù),如在水電站告警系統(tǒng)中,停機(jī)檢修狀態(tài)下的各種告警可視作滋擾告警,應(yīng)該采用有效手段屏蔽掉。另外在多參數(shù)閾值處理中,我們可以引入業(yè)務(wù)邏輯模型對多個參數(shù)進(jìn)行綜合分析處理得到最終單變量參數(shù)并按照單閾值的方式進(jìn)行處理。
水電廠告警系統(tǒng)正常工作中,存在某些開關(guān)狀態(tài)量的抖動信息,在機(jī)組的狀態(tài)變化時某些設(shè)備可能會頻繁啟動停止產(chǎn)生大量重復(fù)信息,監(jiān)控系統(tǒng)自身的狀態(tài)判斷,比如網(wǎng)絡(luò)的故障正常等大量信息,某些模擬量的參數(shù)的抖動變化,如果參數(shù)設(shè)置的不合理,壓力 水位等傳感器在某些生產(chǎn)工況下會產(chǎn)生大量的閾值告警信息。
泛洪告警。生產(chǎn)系統(tǒng)發(fā)生某些意外的情況下,會導(dǎo)致局部或者全體信息頻繁動作刷屏。這些泛洪告警的數(shù)量巨大,產(chǎn)生時間短,告警到達(dá)速率非常大,這會使告警系統(tǒng)在短時間內(nèi)陷入癱瘓失能狀態(tài),無法正常工作,對生產(chǎn)產(chǎn)生不利的影響,我們在設(shè)計告警系統(tǒng)的階段中就應(yīng)該重點考慮應(yīng)對措施。
在處理冗余泛洪告警問題上,目前業(yè)內(nèi)也提出多種方案。一種方案為對告警信息定義優(yōu)先的等級,當(dāng)告警系統(tǒng)過載發(fā)生時,系統(tǒng)優(yōu)先保證等級較高的重要告警能迅速進(jìn)入到操作人員的視野和處理范圍內(nèi)并在最短時間內(nèi)被正確處理。還有的方案中采用延時等去抖方法,在個別告警頻繁刷屏?xí)r進(jìn)行屏蔽或丟棄,從而降低系統(tǒng)和人員的工作負(fù)荷。
傳統(tǒng)的告警系統(tǒng)中每條告警內(nèi)容都是分立處理,告警之間的內(nèi)容沒有相互關(guān)聯(lián)的語義關(guān)系,在智能告警課題里提出了綜合時序告警功能:系統(tǒng)內(nèi)置了很多已經(jīng)設(shè)置的關(guān)聯(lián)規(guī)則(時序規(guī)則),在一個 “相當(dāng)長的時間段”內(nèi),智能告警系統(tǒng)接收到某廠站連續(xù)發(fā)生多個告警或者事件信號,可以把這些連續(xù)發(fā)生信號當(dāng)作為一個關(guān)聯(lián)的有機(jī)整體,作為一個“綜合事件”來進(jìn)行處理,告警面板里發(fā)出1條由規(guī)則推理而得的最終告警。同時如果發(fā)現(xiàn)某個事件或者告警不滿足告警間的關(guān)聯(lián)規(guī)則時,也可以單獨報出事件或告警的異常信息,同時給出不滿足規(guī)則可能的原因,便于操作人員對系統(tǒng)告警信息的識別和分析。
對于告警的語義規(guī)則可以采用人工通過歷史知識和領(lǐng)域內(nèi)先驗知識的表達(dá)來定義,在實際生產(chǎn)系統(tǒng)中,很多告警其實有著內(nèi)在統(tǒng)一的聯(lián)系,一簇事件群信息往往和某個設(shè)備的某種工況對應(yīng)。這些事件群通常都是按照內(nèi)在邏輯關(guān)系和空間、時間關(guān)系以固定的模式順序發(fā)生。這種事件群我們可稱之為時序規(guī)則告警信息。我們可以定義時序的事件規(guī)則來識別和發(fā)現(xiàn)這些告警并對其進(jìn)行綜合。在系統(tǒng)高級模塊里應(yīng)該設(shè)置可以自定挖掘和發(fā)現(xiàn)的告警規(guī)則并及時提示操作人員經(jīng)過其確認(rèn)后形成告警規(guī)則知識庫,對未來的告警進(jìn)行識別分析處理。
本節(jié)主要討論位于告警管理模型運行(F)階段的相關(guān)問題,對告警的具體執(zhí)行處理過程一般分為識別、處理、展示等3個階段。
圖4表示過程變量從正常狀態(tài)轉(zhuǎn)換到異常狀態(tài)的過程變化,以及操作員是否采取糾正措施的兩種可能情況。其中:
(1)正常(A)
正常告警狀態(tài)定義為過程在正常范圍內(nèi)運行,告警處于未激活狀態(tài)并且所有過去的告警都已確認(rèn)。
(2)未確認(rèn)(B)
當(dāng)測量值超過告警設(shè)定值時,會產(chǎn)生未確認(rèn)的告警狀態(tài)。告警通知操作員在某些情況下并不一定立即確認(rèn)告警。
(3)恢復(fù)正常(D)
恢復(fù)到正常告警狀態(tài)的原因應(yīng)是操作員在允許的響應(yīng)時間內(nèi)做出了正確應(yīng)對。影響恢復(fù)正常時間的因素有很多。
(4)后果閾值
當(dāng)操作員未采取任何行動,采取的行動不正確、不充分或行動未在允許的響應(yīng)時間內(nèi)完成時會產(chǎn)生比較嚴(yán)重的后果。后果發(fā)生在后果閾值處。
圖4 告警響應(yīng)時間線
告警一般都是在過程參量處理后發(fā)生,在數(shù)據(jù)處理模塊中對測量的參數(shù)進(jìn)行在線監(jiān)視,如果超過給定閾值或者滿足預(yù)設(shè)的規(guī)則時需要發(fā)出告警信息,針對泛洪告警的處理在此階段采用技術(shù)有:
(1)延時防抖方式。當(dāng)告警在識別階段被識別后,并不會立刻發(fā)送到下一階段處理模塊中,而是采用一個時間窗口t參數(shù)。當(dāng)t<=T(T為預(yù)設(shè)的防抖時間窗口寬度)時告警被暫時擱置并對其計時,當(dāng)t>T后如果告警已經(jīng)消失則不產(chǎn)生告警,如果告警仍然存在則發(fā)送至下一階段產(chǎn)生實際的告警信息。延時防抖是去除頻繁動作的滋擾告警最有效的手段之一,各個告警系統(tǒng)基本都具備此功能。它可以有效抑制大量過程參數(shù)暫態(tài)過渡引起或者由于干擾引起的瞬時跳變的告警。
(2)告警死區(qū)方式。根據(jù)文獻(xiàn)[2]中給出的定義,告警死區(qū)是從所需的告警設(shè)定值到信號復(fù)歸的信號量變化范圍。告警在恢復(fù)到正常后,可以通過設(shè)置告警死區(qū)來對告警復(fù)歸狀態(tài)進(jìn)行延遲處理,如圖4可知告警恢復(fù)到限值以后并沒有立刻返回正常狀態(tài)而是超過一定的設(shè)定范圍后才返回。
死區(qū)設(shè)置的工程依據(jù)應(yīng)記錄在告警文檔中。在設(shè)置死區(qū)時,應(yīng)保證設(shè)備/人員安全的同時最大限度地減少滋擾報警。過大的死區(qū)可能對過去的告警進(jìn)行鎖定而無法正常復(fù)歸。
(3)前置濾波方式。對輸入的信號噪聲等可以采用濾波器對其進(jìn)行濾除。繼而得到有效的原生過程參量。常用的濾波器有滑動平均值濾波器、中值濾波器等[3],濾波器的采用可能會對有效信號進(jìn)行抑制,而且也會帶來延遲等開銷,在工程中應(yīng)予以足夠重視。
告警信息都是在告警面板中對最終用戶進(jìn)行展示呈現(xiàn)的,在此階段,主要用到的有優(yōu)先等級、過濾,排序、查找 、鏈接、語音、電話信息等功能手段。
告警面板中需要對不同等級告警采用不同的顯示策略,一般在電站監(jiān)控系統(tǒng)都要設(shè)置重要、故障、信息等不同級別。對于優(yōu)先級較高的告警要保證其得到更多的顯示資源和人機(jī)交互機(jī)會,從而保證運維人員在眾多告警中排除干擾,及時應(yīng)對。
告警展示中也要具有按條件查找篩選等功能來滿足用戶的不同告警處理需求。同時語音、電話和短信息等手段也是告警推送有益的補充手段??梢杂行Ы档凸ぷ魅藛T負(fù)荷 。
人工智能技術(shù)發(fā)展經(jīng)歷了符號規(guī)則學(xué)習(xí) 、統(tǒng)計學(xué)習(xí)、深度學(xué)習(xí)等幾個階段。人工智能專家在每個階段提出了大量寶貴的有意義算法和框架。這些寶貴成果對智能告警技術(shù)都有很好的指導(dǎo)借鑒意義。
基于邏輯的告警規(guī)則是符號學(xué)習(xí)中最早期最為直接的學(xué)習(xí)方法 。該方法在告警處理中增加了邏輯處理,當(dāng)一個告警產(chǎn)生后如果該告警數(shù)據(jù)點中配置相對應(yīng)的規(guī)則,則需要將這個規(guī)則從對應(yīng)的規(guī)則庫中提取出來并對其進(jìn)行求值,如果規(guī)則滿足則產(chǎn)生一條基于規(guī)則的告警,否則對該告警信息進(jìn)行閉鎖阻止其出現(xiàn)在告警面板中。該告警策略在很多SCADA的告警系統(tǒng)都有采用。例如IP9000告警系統(tǒng)就可以對告警點配置邏輯規(guī)則并通過邏輯求值[5,6],產(chǎn)生基于規(guī)則的告警或者減少不滿足要求的冗余低效告警。在符號學(xué)習(xí)中最重要的一階謂詞邏輯推理技術(shù)在過去被很多學(xué)者作為熱點討論研究。該策略可以通過先驗的知識表達(dá)出知識邏輯規(guī)則,計算機(jī)可以通過這些規(guī)則進(jìn)行邏輯遞歸推理等,求解出滿足要求的解集?;谶壿嫷母婢幚聿呗跃哂姓Z義清晰明確,表達(dá)方式易于人的理解等優(yōu)點,但是邏輯規(guī)則策略也由于其邏輯的二元性(非此即彼),無法準(zhǔn)確表達(dá)不確定的知識和具有概率發(fā)生的事件內(nèi)容。
統(tǒng)計機(jī)器學(xué)習(xí)是近幾年被廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法,當(dāng)我們獲得一組對問題世界的觀測數(shù)據(jù), 如果我們不能或者沒有必要對其建立嚴(yán)格物理模型,我們可以使用數(shù)學(xué)的方法, 從這組數(shù)據(jù)推算問題世界的數(shù)學(xué)模型, 這類模型一般沒有對問題世界的物理解釋, 但是, 在輸入輸出之間的關(guān)系上反映了問題世界的實際, 這就是“黑箱”原理。統(tǒng)計學(xué)習(xí)在語音識別等領(lǐng)域里表現(xiàn)出卓越的性能而得到AI業(yè)界的廣泛接受和重視。在告警系統(tǒng)中我們可以采用決策樹(C4.5)算法[7]對告警信息的各種特征屬性進(jìn)行判別,判定某些告警信息是否為冗余低效告警,從而濾除噪聲信息。也可以通過統(tǒng)計學(xué)習(xí)方法對告警分布和等級等特征進(jìn)行標(biāo)定。統(tǒng)計學(xué)習(xí)(有監(jiān)督)基于大量的歷史數(shù)據(jù)樣本和標(biāo)簽,來提取有用知識對未來的數(shù)據(jù)進(jìn)行預(yù)測和分析。該策略在大數(shù)據(jù)時代是十分適用的,但是某些場合下我們無法獲得足夠的樣本集合時,該策略的效果可能會大打折扣。如在水電監(jiān)控領(lǐng)域正樣本(正常工況)數(shù)量很大,但是對于有意義的負(fù)樣本(如設(shè)備故障或工況異常下的數(shù)據(jù))獲得則相對較為困難,所以模型訓(xùn)練比較困難,效果不一定理想。
按照計算機(jī)領(lǐng)域摩爾定律,計算機(jī)算力隨著時間呈現(xiàn)出指數(shù)級的增長。由于近年來算力的獲得成本逐年下降,以神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)策略得到很好發(fā)展和應(yīng)用。神經(jīng)網(wǎng)絡(luò)是模擬動物的腦神經(jīng)結(jié)構(gòu)而開發(fā)的計算機(jī)計算圖網(wǎng)絡(luò),通過對網(wǎng)絡(luò)的權(quán)重的簡單線性疊加和非線性處理后,神經(jīng)網(wǎng)絡(luò)可以表達(dá)很強(qiáng)的知識,具有強(qiáng)識別能力。尤其在計算視覺(CV)領(lǐng)域基本達(dá)到了工業(yè)級實用水平。在告警系統(tǒng)中可以基于大數(shù)據(jù),多維度數(shù)據(jù)等技術(shù)通過神經(jīng)網(wǎng)絡(luò)[8]來分析和描述告警發(fā)生的深層次原因,對告警進(jìn)行溯源和關(guān)聯(lián)分析。這樣在泛洪告警發(fā)生時,可以撇去表象找到根源告警,并適當(dāng)對整個告警信息進(jìn)行剪裁,提高告警系統(tǒng)的信息表達(dá)效率和實效性。
對于智能告警系統(tǒng)處理技術(shù)的研究一直以來都是過程工業(yè)領(lǐng)域的一個重要課題。隨著工業(yè)互聯(lián)網(wǎng)4.0技術(shù)的不斷推廣和普及,各種異構(gòu)的多系統(tǒng)的融合對告警系統(tǒng)提出更高的要求和挑戰(zhàn)。在面對多系統(tǒng)大數(shù)據(jù),系統(tǒng)互通互聯(lián)等架構(gòu)下,大數(shù)據(jù)處理技術(shù)和機(jī)器學(xué)習(xí)等高級技術(shù)也不斷地被應(yīng)用到智能告警系統(tǒng)中。如何讓告警系統(tǒng)更“聰明”,更高效是未來該領(lǐng)域的主要方向。