劉習(xí)義,龍 林,劉明輝,劉普森,肖 雪
(1. 三峽水利樞紐梯級(jí)調(diào)度通信中心,湖北 宜昌 443002;2.智慧長(zhǎng)江與水電科學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443002)
隨著電力發(fā)電領(lǐng)域數(shù)字化、智能化技術(shù)的快速發(fā)展,作為承載多樣電廠業(yè)務(wù)的電力調(diào)度通信網(wǎng)的網(wǎng)絡(luò)規(guī)模、網(wǎng)絡(luò)結(jié)構(gòu)、延伸覆蓋面和承載能力得到迅速發(fā)展。作為發(fā)電廠內(nèi)部各種發(fā)電、輸電、配電設(shè)備等眾多分散節(jié)點(diǎn)之間信息傳輸?shù)闹饕ǖ?,電力調(diào)度通信網(wǎng)運(yùn)行可靠性將直接影響智能配電網(wǎng)調(diào)度和控制能力。因此,需要及時(shí)發(fā)現(xiàn)并清除通信系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生的告警與故障,而隨著電力調(diào)度通信網(wǎng)絡(luò)逐漸龐大,各類通訊設(shè)備數(shù)量極大、種類繁多,涉及的設(shè)備類型和網(wǎng)管系統(tǒng)也多種多樣,其關(guān)聯(lián)性難以直接梳理,給電力通信網(wǎng)的告警、故障識(shí)別與處理帶來(lái)了困難。
數(shù)據(jù)挖掘是近年來(lái)新發(fā)展起來(lái)的融合了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)存儲(chǔ)信息檢索等最新研究成果的多學(xué)科領(lǐng)域。隨著計(jì)算機(jī)計(jì)算能力的不斷提升,在越來(lái)越多的領(lǐng)域得到應(yīng)用[1-5]。數(shù)據(jù)挖掘在從大量、復(fù)雜的數(shù)據(jù)提取有效關(guān)聯(lián)數(shù)據(jù)方面的優(yōu)勢(shì)明顯,通常可表示為概念、規(guī)則、規(guī)律、模式等形式,可以被用于信息管理、查詢優(yōu)化、決策支持和過(guò)程控制以及數(shù)據(jù)自身的維護(hù)等[3-4]。目前,該技術(shù)也被應(yīng)用于解決電力行業(yè)中存在的一些問(wèn)題。例如,丁宏等[1]對(duì)基于機(jī)器學(xué)習(xí)的通信網(wǎng)告警信息關(guān)聯(lián)性分析進(jìn)行了綜述,從告警信息預(yù)處理、關(guān)聯(lián)性分析方法以及告警關(guān)聯(lián)規(guī)則的生成等多個(gè)方面進(jìn)行了較為詳細(xì)的梳理與總結(jié)。馬瑞敏等[2]以FP-Growth 算法為基礎(chǔ),研究了學(xué)生共同愛(ài)好之間的關(guān)聯(lián)關(guān)系問(wèn)題。文獻(xiàn)[4-6]整體描述了關(guān)聯(lián)規(guī)則挖掘方法,以Apriori 算法為核心,對(duì)變電站二次設(shè)備缺陷的關(guān)聯(lián)關(guān)系進(jìn)行了建模與分析。文獻(xiàn)[7-10]分析了通信網(wǎng)的部分特點(diǎn)及其容易出現(xiàn)的告警信息,采用一般的關(guān)聯(lián)關(guān)系分析方法,得到了一定的關(guān)聯(lián)性結(jié)果。但上述文獻(xiàn)采用的分析算法主要是傳統(tǒng)的關(guān)聯(lián)分析方法,在大樣本量、高頻繁度中難以有較好的表現(xiàn),而且少有數(shù)據(jù)挖掘在電力調(diào)度通信系統(tǒng)中的應(yīng)用,沒(méi)有對(duì)其特點(diǎn)進(jìn)行細(xì)致研究與分析,難以滿足未來(lái)智能配網(wǎng)調(diào)度發(fā)展的需要。
FP-Growth 算法是頻繁模式挖掘上領(lǐng)先的算法,相比于數(shù)據(jù)挖掘傳統(tǒng)的Apriori 等方法有著極大的提升,也更適合在大規(guī)模的、復(fù)雜程度更高的系統(tǒng)中應(yīng)用。為此,本文首先分析了電力調(diào)度通信系統(tǒng)告警信息特點(diǎn),然后基于FP-Growth 算法提出了一種電力調(diào)度通信網(wǎng)告警信息關(guān)聯(lián)分析方法,建立基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘模型,并以某公司某段時(shí)間內(nèi)通信網(wǎng)絡(luò)告警數(shù)據(jù)為例,驗(yàn)證了該方法的高效性,可為電力調(diào)度通信網(wǎng)的故障排查及檢修規(guī)劃提供指導(dǎo)。
隨著數(shù)字化技術(shù)的不斷發(fā)展,電力調(diào)度通信網(wǎng)涵蓋工業(yè)以太交換網(wǎng)絡(luò)、電力載波網(wǎng)絡(luò)、電力無(wú)線專網(wǎng)和無(wú)線公網(wǎng)在內(nèi)的綜合性配網(wǎng)通信業(yè)務(wù)承載網(wǎng)絡(luò)。調(diào)度通信網(wǎng)的可靠運(yùn)行直接影響著各業(yè)務(wù)的高效開(kāi)展。
電力調(diào)度通信網(wǎng)中,各設(shè)備網(wǎng)元之間相互連接,相互影響,在實(shí)際運(yùn)行過(guò)程中,通常某一網(wǎng)元設(shè)備出現(xiàn)故障,就會(huì)引起其關(guān)聯(lián)的多個(gè)設(shè)備或承載系統(tǒng)出現(xiàn)告警,出現(xiàn)連鎖性故障的現(xiàn)象。然而,由于當(dāng)前配網(wǎng)通信設(shè)備與開(kāi)關(guān)、配電房等安裝在一起,數(shù)量眾多且地理位置分散,設(shè)備種類及廠家不一,給通信設(shè)備管理帶來(lái)巨大的挑戰(zhàn)。特別是隨著設(shè)備數(shù)量的不斷增加,整個(gè)通信網(wǎng)絡(luò)中的告警數(shù)量呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致難以準(zhǔn)確進(jìn)行故障定位、處理等操作。因此,十分有必要對(duì)產(chǎn)生的大量數(shù)據(jù)進(jìn)行有效分析與利用,以指導(dǎo)未來(lái)更加復(fù)雜的網(wǎng)絡(luò)下高效的故障分析、定位、檢修等工作。
電力調(diào)度通信網(wǎng)每天將會(huì)產(chǎn)生大量的告警信息,主要包含各類數(shù)據(jù)探針、傳輸光纖監(jiān)測(cè)設(shè)備、主機(jī)監(jiān)控設(shè)備等產(chǎn)生的告警,此外還有網(wǎng)絡(luò)內(nèi)部鏈路、數(shù)據(jù)庫(kù)、機(jī)房環(huán)境、電力設(shè)備通信異常等告警。電力調(diào)度通信網(wǎng)告警信息產(chǎn)生及處理流程如圖1 所示,告警信息有如下特點(diǎn)。
圖1 電力調(diào)度通信網(wǎng)告警信息處理基本流程
(1)字段多。一般網(wǎng)絡(luò)告警信息可能包含多個(gè)字段,而真正有較強(qiáng)關(guān)聯(lián)關(guān)系的字段有限,主要有產(chǎn)生時(shí)間、設(shè)備編號(hào)、告警類別等,繁雜的告警信息會(huì)給管理人員帶來(lái)較大的管理辨別難度。
(2)關(guān)聯(lián)性。電力調(diào)度通信網(wǎng)各設(shè)備之間聯(lián)系較為緊密,網(wǎng)絡(luò)中某一網(wǎng)元設(shè)備出現(xiàn)告警,與其相互連接的多個(gè)鏈路或信號(hào)均可能在相近的時(shí)間內(nèi)發(fā)出類似告警,呈現(xiàn)連鎖性、傳播性與關(guān)聯(lián)性等特點(diǎn)。同時(shí),若相近時(shí)間產(chǎn)生大量告警,不同告警級(jí)別的信息可能疊加到一起,容易忽略較為嚴(yán)重的告警信息。
(3)突發(fā)性。電力調(diào)度通信網(wǎng)絡(luò)中發(fā)生故障或告警,一般呈突發(fā)性,如施工不當(dāng)、維護(hù)不到位、突發(fā)性數(shù)據(jù)訪問(wèn)、硬件意外故障等,常常難以預(yù)測(cè),突發(fā)性、隨機(jī)性較強(qiáng)。
(4)時(shí)序性。在整個(gè)調(diào)度通信網(wǎng)中,各監(jiān)控部分的時(shí)間需要時(shí)刻同步,保證整個(gè)告警信息的時(shí)序連貫。此外,由于網(wǎng)絡(luò)及設(shè)備之間存在較強(qiáng)的關(guān)聯(lián)關(guān)系,告警信息的出現(xiàn)與上報(bào)有較強(qiáng)的時(shí)序性。
關(guān)聯(lián)規(guī)則能夠反映事物與事物之間的相互依存性和關(guān)聯(lián)性。如果通過(guò)數(shù)據(jù)挖掘能夠反映兩個(gè)或多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,將有助于進(jìn)一步分析事物間的關(guān)聯(lián)機(jī)理,甚至可以通過(guò)其中一項(xiàng)事物的發(fā)生去預(yù)測(cè)其他事物的發(fā)生[3]。
告警信息數(shù)據(jù)挖掘需要從大量的告警數(shù)據(jù)中發(fā)掘相互之間實(shí)際存在的某種關(guān)聯(lián)性,進(jìn)而形成一個(gè)關(guān)聯(lián)規(guī)則,每一個(gè)關(guān)聯(lián)規(guī)則所涉及的一個(gè)事物被稱為一個(gè)項(xiàng)目,由不同的項(xiàng)目構(gòu)成的集合稱為項(xiàng)集I(Itemset),其元素個(gè)數(shù)稱為項(xiàng)集的長(zhǎng)度,長(zhǎng)度為k的項(xiàng)集稱為k-項(xiàng)集(k-Itemset)。被用于關(guān)聯(lián)規(guī)則挖掘的樣本集Y 是項(xiàng)集的一個(gè)子集,即Y ∈I,樣本的全體構(gòu)成了樣本數(shù)據(jù)庫(kù)D[2,7-8]。
評(píng)價(jià)一條關(guān)聯(lián)規(guī)則的好壞有兩個(gè)關(guān)鍵指標(biāo):支持度(Support)和置信度(Confidence)[8]。支持度表示某關(guān)聯(lián)規(guī)則發(fā)生可能性的大小,置信度表示某關(guān)聯(lián)規(guī)則值得信賴程度的高低。對(duì)于一個(gè)項(xiàng)集I 的2個(gè)子項(xiàng)集A 和B(B ∈I,A ∈I,且A ∩B = ? )而言,兩者的關(guān)聯(lián)規(guī)則R 可以表示為:
用count(A)表示樣本集Y 中包含A 的樣本數(shù)量,用count(B)表示樣本集Y 中包含B 的樣本數(shù)量,則項(xiàng)集A 的支持度為:
規(guī)則R 的支持度為:
規(guī)則R 的置信度為:
關(guān)聯(lián)規(guī)則的最小支持度記為Smin,用于衡量規(guī)則需要滿足的最低重要性;關(guān)聯(lián)規(guī)則的最小置信度記為Cmin,表示關(guān)聯(lián)規(guī)則需要滿足的最低可靠性。如果規(guī)則R 滿足S(R)≥Smin且C(R)≥Cmin,稱關(guān)聯(lián)規(guī)則R 為強(qiáng)關(guān)聯(lián)規(guī)則,強(qiáng)關(guān)聯(lián)規(guī)則對(duì)于指導(dǎo)實(shí)際決策具有建設(shè)性的意義。
FP-Growth 算法是由Han 等[1]提出的一種基于FP-Tree 結(jié)構(gòu)的頻繁項(xiàng)集生成算法,相較于Apriori 算法通過(guò)枚舉的方式進(jìn)行關(guān)聯(lián)規(guī)則挖掘,當(dāng)事務(wù)數(shù)較多或頻繁項(xiàng)集數(shù)較大時(shí)難以有效處理,F(xiàn)P-Growth 方法以FP-Tree 為基礎(chǔ),通過(guò)樹(shù)干、樹(shù)枝等樹(shù)模型來(lái)進(jìn)行數(shù)據(jù)存儲(chǔ)與分析,將同前綴的項(xiàng)歸于同一類樹(shù)結(jié)構(gòu),可極大減少數(shù)據(jù)處理復(fù)雜度,提升處理效率,對(duì)龐大的數(shù)據(jù)項(xiàng)集也可高效處理[2,7]。該算法的主要流程如圖2 所示。
圖2 基于FP-Growth 算法的關(guān)聯(lián)分析流程
(1)遍歷樣本數(shù)據(jù)庫(kù)D,統(tǒng)計(jì)D 中全部數(shù)據(jù)項(xiàng)的頻數(shù),根據(jù)規(guī)則排除不滿足最小支持度Smin要求的事務(wù),將得到的頻繁項(xiàng)集按遞減方式排序。
(2)在前述結(jié)果基礎(chǔ)上,創(chuàng)建根節(jié)點(diǎn)(NULL),依次讀入事務(wù),按照頻繁項(xiàng)階數(shù)添加到整個(gè)樹(shù)結(jié)構(gòu)中。
(3)重復(fù)以上過(guò)程,直到滿足置信度和支持度的整個(gè)事務(wù)全部插入到樹(shù)結(jié)構(gòu)中,形成最終的FPTree 結(jié)構(gòu)。
應(yīng)用FP-Growth 算法進(jìn)行關(guān)聯(lián)分析時(shí),算法的最小支持度Smin和最小置信度Cmin需根據(jù)實(shí)際數(shù)據(jù)庫(kù)進(jìn)行合理設(shè)置,過(guò)大可能排除一些頻繁項(xiàng)集,過(guò)小則會(huì)出現(xiàn)一些關(guān)聯(lián)性不強(qiáng)的結(jié)果。
為對(duì)比FP-Growth 與Apriori 算法的性能,分別采用兩種算法在云服務(wù)器上進(jìn)行數(shù)據(jù)分析試驗(yàn),采用的云服務(wù)器配置為Intel Xeon E3 CPU、32GB DDR4、Windows Server 2012 系統(tǒng)。
以某電廠電力調(diào)度通信系統(tǒng)某月產(chǎn)生的部分原始告警數(shù)據(jù)5 萬(wàn)余條為基礎(chǔ)樣本,在進(jìn)行消除不完整數(shù)據(jù)、壓縮與歸一化等降低冗余和不一致性等預(yù)處理后[9-10],分別采用Apriori 和FP-Growth 兩種算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,所耗費(fèi)的時(shí)間見(jiàn)圖3。可以看出,隨著算法支持度的不斷提高,兩種算法的計(jì)算時(shí)間都不斷迅速減小,這是因?yàn)殡S著支持度要求的不斷提高,其滿足支持度要求的規(guī)則越來(lái)越少。但在同等支持度下,F(xiàn)P-Growth 算法耗時(shí)比Apriori 算法節(jié)約50%以上??芍葪l件下,F(xiàn)P-Growth 算法的關(guān)聯(lián)關(guān)系挖掘效率更高,而Apriori 算法在樣本量、頻繁項(xiàng)階數(shù)較大的情況下,難以高效完成關(guān)聯(lián)關(guān)系挖掘工作。
采用FP-Growth 算法對(duì)電力調(diào)度通信網(wǎng)的告警信息進(jìn)行關(guān)聯(lián)規(guī)則分析,可幫助通信系統(tǒng)運(yùn)維管理人員快速分析定位故障原因。從圖3 可以看出,算法的支持度過(guò)小將極大影響關(guān)聯(lián)關(guān)系結(jié)果的挖掘時(shí)間。考慮到總樣本量以及重點(diǎn)發(fā)掘關(guān)鍵的關(guān)聯(lián)關(guān)系,設(shè)置FP-Growth 算法的Smin為85%,Cmin為65%,最終得到的頻繁項(xiàng)集數(shù)為31 條,最大階數(shù)為5,部分強(qiáng)關(guān)聯(lián)規(guī)則如表1 所示,部分電力調(diào)度通信網(wǎng)告警信息關(guān)聯(lián)關(guān)系見(jiàn)圖4。
圖3 Apriori 和FP-Growth 算法性能對(duì)比
圖4 告警信息關(guān)聯(lián)關(guān)系
從表1 可以看出,空調(diào)狀態(tài)異常導(dǎo)致機(jī)房的動(dòng)態(tài)環(huán)境的溫度、濕度限值越界的概率很高,置信度為96%。此外,路由器、交換機(jī)等網(wǎng)口協(xié)商失敗可能導(dǎo)致以太網(wǎng)連接錯(cuò)誤,負(fù)載過(guò)流連續(xù)告警可能導(dǎo)致電源電壓過(guò)低等故障告警信息。
表1 部分強(qiáng)關(guān)聯(lián)規(guī)則
在日常的電力調(diào)度通信網(wǎng)的運(yùn)維中,找到故障并解決修復(fù)相對(duì)容易,而及時(shí)有效地發(fā)現(xiàn)故障卻較為困難。本文針對(duì)日常運(yùn)行中的基礎(chǔ)告警信息分析得出的告警信息關(guān)聯(lián)關(guān)系,能夠?yàn)橄嚓P(guān)電力企業(yè)的電力調(diào)度通信網(wǎng)運(yùn)維、檢修提供一種更加有針對(duì)性的快速溯源、告警故障高效處理的新思路。隨著電力調(diào)度通信系統(tǒng)的建設(shè)加快,調(diào)度通信網(wǎng)具有更廣泛的監(jiān)測(cè)能力、更豐富的數(shù)據(jù)屬性,必然使得告警信息量爆發(fā)式增長(zhǎng),僅僅依靠傳統(tǒng)的人工方式篩選學(xué)習(xí)難以勝任。針對(duì)更復(fù)雜的關(guān)聯(lián)和數(shù)據(jù)量的樣本,可依據(jù)本文的分析思路與方法,進(jìn)行高效挖掘分析,幫助相關(guān)工作人員快速分析定位出故障源頭,有效提升運(yùn)維效率,降低運(yùn)維成本。
針對(duì)電力調(diào)度通信網(wǎng)規(guī)模不斷增大、告警信息難以有效發(fā)掘的問(wèn)題,采用FP-Growth 算法對(duì)電力調(diào)度通信網(wǎng)告警信息進(jìn)行關(guān)聯(lián)關(guān)系挖掘,得到如下結(jié)論:
(1)電力調(diào)度通信網(wǎng)的告警信息具有字段多、關(guān)聯(lián)性強(qiáng)、突發(fā)性、時(shí)序性等特點(diǎn)。
(2)采用FP-Growth 算法對(duì)大容量的數(shù)據(jù)樣本進(jìn)行關(guān)聯(lián)關(guān)系分析時(shí),比采用Apriori 算法時(shí)的效率更高。
(3)通過(guò)對(duì)電力調(diào)度通信網(wǎng)告警信息關(guān)聯(lián)分析,可以深入了解不同設(shè)備、不同字段時(shí)間的關(guān)聯(lián)關(guān)系,為通信網(wǎng)的運(yùn)維及檢修提供指導(dǎo)。