吳季樺,朱鵬宇,吳子辰,顧彬,洪濤,郭波,王晶,王敬宇
基于無(wú)監(jiān)督聚類(lèi)和頻繁子圖挖掘的電力通信網(wǎng)缺陷診斷與自動(dòng)派單
吳季樺1,朱鵬宇2,吳子辰3,顧彬3,洪濤3,郭波3,王晶1,王敬宇1
(1. 北京郵電大學(xué)網(wǎng)絡(luò)與交換國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876;2. 國(guó)網(wǎng)電力科學(xué)研究院有限公司,江蘇 南京 210012;3. 國(guó)網(wǎng)江蘇省電力有限公司信息通信分公司,江蘇 南京 210024)
缺陷診斷一直是電力通信領(lǐng)域研究的難點(diǎn)之一?;谌斯ひ?guī)則的缺陷診斷已經(jīng)無(wú)法應(yīng)對(duì)告警數(shù)據(jù)的海量增長(zhǎng)。基于有監(jiān)督學(xué)習(xí)的智能方法需要大量的標(biāo)注數(shù)據(jù)和較長(zhǎng)的系統(tǒng)構(gòu)建時(shí)間,且大多面向指標(biāo)性數(shù)據(jù),實(shí)現(xiàn)部署缺乏可行性。面向告警數(shù)據(jù),提出一種基于無(wú)監(jiān)督聚類(lèi)和頻繁子圖挖掘?qū)崿F(xiàn)告警歸并和缺陷模式發(fā)現(xiàn)的自學(xué)習(xí)算法,設(shè)計(jì)了一個(gè)自動(dòng)化完成缺陷診斷及處置的架構(gòu)。該架構(gòu)具有良好的可擴(kuò)展性和迭代更新能力,并部署于實(shí)際缺陷自動(dòng)派單系統(tǒng)中。通過(guò)真實(shí)場(chǎng)景數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示出良好的性能表現(xiàn),實(shí)現(xiàn)了對(duì)缺陷的及時(shí)發(fā)現(xiàn)及精準(zhǔn)派單維護(hù)。
電力通信;缺陷診斷;無(wú)監(jiān)督聚類(lèi);頻繁子圖挖掘
電力通信網(wǎng)中的海量告警數(shù)據(jù)顯示了網(wǎng)元設(shè)備的健康狀態(tài)以及網(wǎng)元設(shè)備間的交互情況。面向告警的缺陷診斷方法先對(duì)告警進(jìn)行告警歸并,基于得到的告警歸并集合,進(jìn)一步進(jìn)行缺陷檢測(cè)和缺陷定位。
目前國(guó)內(nèi)外主要使用基于規(guī)則匹配的方法進(jìn)行告警歸并[1]。隨著告警數(shù)據(jù)的海量增長(zhǎng),基于規(guī)則匹配的方法及其相關(guān)改進(jìn)方法難以適應(yīng)當(dāng)前的數(shù)據(jù)環(huán)境。Madziarz[2]在移動(dòng)通信網(wǎng)領(lǐng)域提出了基于-means聚類(lèi)的告警聚類(lèi)方法,嘗試引入無(wú)監(jiān)督聚類(lèi)以擺脫對(duì)規(guī)則的依賴。雖然該方法無(wú)須大量人力資源的投入,但實(shí)際歸并效果不理想,且需要業(yè)務(wù)專家參與預(yù)測(cè)缺陷的數(shù)量,有著極大的局限性。
缺陷診斷分為事件檢測(cè)和定位。事件檢測(cè)和定位則基于事件分類(lèi)?;谌斯そ?jīng)驗(yàn)的缺陷診斷方法,主觀因素影響較大,并且難以應(yīng)對(duì)指數(shù)級(jí)增長(zhǎng)的海量告警信息。已經(jīng)有許多研究將人工智能技術(shù)運(yùn)用到電力通信網(wǎng)事件分類(lèi)和缺陷診斷領(lǐng)域中以擺脫對(duì)規(guī)則的依賴。人工智能技術(shù)應(yīng)用到缺陷診斷領(lǐng)域時(shí),常針對(duì)的是信號(hào)等指標(biāo)性數(shù)據(jù),如Wen等[3]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取信號(hào)的特征,Xiao等[4]利用貝葉斯神經(jīng)網(wǎng)絡(luò)以建筑管理系統(tǒng)的測(cè)量和人工測(cè)試指標(biāo)作為輸入依據(jù),進(jìn)行變風(fēng)量通風(fēng)空調(diào)系統(tǒng)的缺陷診斷。這些方法都在各自的數(shù)據(jù)集上取得了較好的成果。但是電力通信領(lǐng)域缺少大量完整標(biāo)注的數(shù)據(jù),同時(shí),實(shí)際的缺陷診斷的主要依據(jù)不是指標(biāo)性的信號(hào)數(shù)據(jù),而是各個(gè)網(wǎng)元上非結(jié)構(gòu)化的告警數(shù)據(jù)。電力通信網(wǎng)中基于告警完成缺陷診斷的缺陷信息隱藏在告警數(shù)據(jù)以及其時(shí)空關(guān)聯(lián)關(guān)系中。
本文在自適應(yīng)標(biāo)記篩選及再學(xué)習(xí)[5]和基于拓?fù)湫畔⒔鉀Q時(shí)間序列數(shù)據(jù)異常檢測(cè)問(wèn)題[6]的工作基礎(chǔ)上,提出了一種基于密度聚類(lèi)(density-based spatial clustering of applications with noise,DBSCAN)實(shí)現(xiàn)告警歸并,并且基于頻繁子圖挖掘(frequent subgraph mining,F(xiàn)SM)完成缺陷模式發(fā)現(xiàn)的自學(xué)習(xí)算法,并設(shè)計(jì)了一個(gè)面向電力通信網(wǎng)告警數(shù)據(jù),盡力擺脫對(duì)規(guī)則的依賴,減輕人力資源投入的自動(dòng)化缺陷診斷及派單的架構(gòu)。如圖1所示,該算法主要應(yīng)用于告警歸并、缺陷診斷以及自動(dòng)派單模塊,模塊間松耦合,具有良好的可擴(kuò)展性。該算法展現(xiàn)出良好的穩(wěn)健性,具備迭代更新能力,減少缺陷診斷過(guò)程對(duì)于人工規(guī)則的依賴,并在實(shí)驗(yàn)中呈現(xiàn)出良好的結(jié)果。
本文的貢獻(xiàn)總結(jié)如下。
(1)提出了面向告警數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,基于無(wú)監(jiān)督聚類(lèi)和頻繁子圖挖掘算法完成告警歸并以及缺陷診斷,智能化完成缺陷模式發(fā)現(xiàn)及識(shí)別,自動(dòng)化完成派單檢修,具備迭代更新的自學(xué)習(xí)能力架構(gòu),部署在自動(dòng)派單系統(tǒng)中,以減輕運(yùn)維壓力,實(shí)現(xiàn)對(duì)缺陷的及時(shí)發(fā)現(xiàn)和處置。
(2)考慮基于規(guī)則的缺陷診斷方法受到人為因素的制約,基于有監(jiān)督的學(xué)習(xí)方法受到缺少大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的制約,提出一個(gè)基于無(wú)監(jiān)督學(xué)習(xí)以及數(shù)據(jù)挖掘的模型,在只有少量標(biāo)注的情況下實(shí)現(xiàn)對(duì)缺陷模式的及時(shí)發(fā)現(xiàn)。
(3)考慮告警歸并集合內(nèi)告警存在時(shí)空相關(guān),提出了將告警的文本信息向量化映射到向量空間的方法,使得具有相關(guān)關(guān)系的告警在向量空間之中彼此接近,并使用無(wú)監(jiān)督聚類(lèi)方法完成告警歸并。
(4)考慮網(wǎng)絡(luò)場(chǎng)景中發(fā)生告警的節(jié)點(diǎn)之間的拓?fù)潢P(guān)系,提出了對(duì)告警及其所處節(jié)點(diǎn)的拓?fù)潢P(guān)系進(jìn)行模式挖掘,利用頻繁子圖挖掘方法完成缺陷模式發(fā)現(xiàn)。
圖1 電力通信網(wǎng)的缺陷診斷和自動(dòng)派單架構(gòu)
(5)在真實(shí)場(chǎng)景數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明基于無(wú)監(jiān)督聚類(lèi)和頻繁子圖挖掘的缺陷診斷方法取得了良好的性能表現(xiàn)。
告警歸并是一個(gè)概念性的解釋:將某些告警根據(jù)某種意義相關(guān)聯(lián)。告警歸并是以下幾種網(wǎng)絡(luò)管理任務(wù)中的一種通用方法[7]:壓縮、計(jì)數(shù)、抑制。電力通信網(wǎng)中的告警歸并是為了后續(xù)的缺陷診斷服務(wù)的。因此本文場(chǎng)景中的告警歸并旨在將可能由同一個(gè)缺陷導(dǎo)致或者衍生的告警歸并在同一個(gè)集合當(dāng)中。在電力通信的生產(chǎn)場(chǎng)景中,運(yùn)維人員依靠人工經(jīng)驗(yàn)的積累梳理出告警衍生關(guān)系,并以此為依據(jù)完成告警歸并。但是這意味著,基于規(guī)則完成的告警歸并主觀成分較大,整理的告警衍生關(guān)系也可能不完備。
告警歸并任務(wù)的目標(biāo)是將可能由同一個(gè)缺陷引起的告警關(guān)聯(lián)在一起。同時(shí),在一段連續(xù)時(shí)間內(nèi),一個(gè)缺陷可能會(huì)引起一個(gè)或多個(gè)設(shè)備持續(xù)輸出相似告警?;谶@兩個(gè)前提,本文使用無(wú)監(jiān)督學(xué)習(xí)來(lái)協(xié)助完成告警歸并,采用基于密度的DBSCAN聚類(lèi)捕獲告警簇。
DBSCAN算法作為經(jīng)典的密度聚類(lèi)算法,其在無(wú)監(jiān)督密度聚類(lèi)中的得到了廣泛的應(yīng)用。算法將點(diǎn)分類(lèi)為核心點(diǎn)和非核心點(diǎn),定義1~定義6描述了該算法[8]。
定義2(直接密度可達(dá)(directly density- reachable))點(diǎn)被稱為從點(diǎn)直接密度可達(dá),當(dāng)且僅當(dāng):
其中,MinPts為給定的使成為核心點(diǎn)的鄰域內(nèi)最小點(diǎn)數(shù)。
定義4(密度相連(density-connected))如果點(diǎn)和點(diǎn)都從點(diǎn)密度可達(dá),則稱點(diǎn)和點(diǎn)密度相連。
定義5(簇(cluster))對(duì)于集合,簇是的一個(gè)滿足以下條件的子集。
具體而言,在劃分簇時(shí),對(duì)于給定的邊界距離Eps、最小核心節(jié)點(diǎn)數(shù)MinPts和非空節(jié)點(diǎn)集,簇構(gòu)建時(shí)首先檢測(cè)其密度直達(dá)性。首先將核心點(diǎn)中具有密度直達(dá)關(guān)系的點(diǎn)分類(lèi)給簇,之后檢測(cè)相連性,對(duì)剩下的點(diǎn)檢測(cè)其與簇內(nèi)任意一點(diǎn)的密度相連性,如果密度相連則歸入簇。
在分類(lèi)完成后,對(duì)于不屬于任何簇的孤立點(diǎn),將其視為噪聲[9]。
DBSCAN是基于密度的算法,意味著輸入的特征應(yīng)當(dāng)是對(duì)應(yīng)空間的坐標(biāo)點(diǎn),或者是點(diǎn)之間的距離矩陣。在實(shí)際背景當(dāng)中告警是連續(xù)的文本信息,因此告警的向量化過(guò)程應(yīng)該體現(xiàn)為特征提取和特征向量之間的權(quán)重分配。
本文告警歸并的目標(biāo)對(duì)象應(yīng)當(dāng)是在時(shí)間上相近以及發(fā)生設(shè)備間有關(guān)聯(lián)關(guān)系或者本身其他屬性相近的一組告警,也就是DBSCAN聚類(lèi)的目標(biāo)是將擁有這些特性的屬于同一缺陷的告警聚為一個(gè)簇。對(duì)告警而言,有兩方面的信息較為重要:告警本身的相關(guān)參數(shù)(如告警種類(lèi)、發(fā)生位置、設(shè)備類(lèi)型、設(shè)備位置等)以及告警時(shí)間。
其中,告警本身的相關(guān)參數(shù)反映了告警之間的相關(guān)程度以及告警在空間上的相近程度,告警時(shí)間是當(dāng)前告警產(chǎn)生的時(shí)間,蘊(yùn)含了缺陷發(fā)生的時(shí)間信息。對(duì)于告警本身的相關(guān)參數(shù),使用One-Hot方法[10]將其映射為特征向量,對(duì)于沒(méi)有制定權(quán)重的One-Hot來(lái)說(shuō),告警之間任意一個(gè)特征的差距映射在空間上面距離相同,在DBSCAN算法當(dāng)中作用相同,而通過(guò)調(diào)整各個(gè)特征的權(quán)重可以反映不同特征的重要性。
進(jìn)一步,可以得到:
不同樣本的距離綜合考慮了告警本身相關(guān)參數(shù)距離和時(shí)間距離。以此對(duì)所有告警進(jìn)行聚類(lèi),則最后得到的聚類(lèi)結(jié)果應(yīng)該是使得時(shí)間上較為聚集的相似告警或者時(shí)間上極為聚集的較相似告警成為同個(gè)簇。
基于無(wú)監(jiān)督聚類(lèi)告警歸并模塊的流程如圖2所示,其中告警的文本化數(shù)據(jù)的向量化和空間映射過(guò)程在以上討論中已經(jīng)得到論述。上文證明了在時(shí)間上接近以及其他特征接近的告警數(shù)據(jù)會(huì)在向量空間中接近,DBSCAN算法會(huì)將向量空間中接近的告警聚為一個(gè)簇,從而完成告警歸并的目標(biāo)。進(jìn)一步,告警歸并的結(jié)果將會(huì)基于人工審核的缺陷單數(shù)據(jù)進(jìn)行有效性評(píng)估,以此來(lái)調(diào)整算法的參數(shù)以及評(píng)價(jià)算法效果。
大型通信網(wǎng)絡(luò)中的缺陷診斷流程可以被分解為3個(gè)步驟[10]:故障檢測(cè)、故障定位、故障診斷。應(yīng)用于電力通信網(wǎng)的缺陷診斷的技術(shù)方法主要有專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、優(yōu)化技術(shù)、Petri網(wǎng)絡(luò)、粗糙集理論、模糊集理論、貝葉斯網(wǎng)絡(luò)、多Agent技術(shù)等[11]。
對(duì)于由同一種缺陷原因引發(fā)的缺陷,應(yīng)當(dāng)在設(shè)備類(lèi)型、設(shè)備數(shù)量、拓?fù)溥B接等方面存在相似。類(lèi)似于將無(wú)監(jiān)督聚類(lèi)方法應(yīng)用于告警歸并中的前提,數(shù)據(jù)分布中的相似性給予了人工智能技術(shù)發(fā)揮其長(zhǎng)處的可能。具體地,缺陷診斷任務(wù)中數(shù)據(jù)的相似性體現(xiàn)在拓?fù)浣Y(jié)構(gòu)上的相似性。對(duì)于電力通信網(wǎng)絡(luò)的缺陷相關(guān)告警數(shù)據(jù)的研究發(fā)現(xiàn),與某一缺陷相關(guān)的告警所發(fā)生的設(shè)備通常具有物理相連關(guān)系或者邏輯相連關(guān)系。設(shè)備及其之上的告警,以及設(shè)備間的關(guān)聯(lián)關(guān)系可以構(gòu)成基本圖結(jié)構(gòu)。屬于同一類(lèi)缺陷的圖結(jié)構(gòu)之間經(jīng)常存在子圖結(jié)構(gòu)的相似甚至相同。因此本文將電力通信的缺陷模式發(fā)現(xiàn)問(wèn)題轉(zhuǎn)化為基于圖的模式發(fā)現(xiàn)問(wèn)題進(jìn)行解決。
圖2 基于無(wú)監(jiān)督聚類(lèi)告警歸并模塊流程
其中,頻繁子圖挖掘算法中g(shù)Span(graph- based substructure pattern mining)由于其在時(shí)間復(fù)雜度以及空間復(fù)雜度的優(yōu)秀表現(xiàn),在頻繁子圖挖掘領(lǐng)域中得到了廣泛的應(yīng)用。gSpan的關(guān)鍵流程包括從規(guī)模為的頻繁子圖集合生成規(guī)模為+1的頻繁子圖候選集,以及檢查候選集中的子圖是否為同構(gòu)子圖以此修剪冗余部分。
檢查子圖同構(gòu)問(wèn)題是一個(gè)NP完全問(wèn)題[13],因此在gSpan中利用最小DFS編碼和DFS字典樹(shù)解決子圖同構(gòu)的檢查。
gSpan是一個(gè)較為復(fù)雜的算法,關(guān)鍵的DFS編碼依據(jù)定義7~定義10[14]。
定義10(DFS編碼樹(shù))在DFS編碼樹(shù)中,每一個(gè)節(jié)點(diǎn)代表了一個(gè)DFS編碼。父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的關(guān)系遵循以下的描述。
給定標(biāo)記集合,DFS編碼樹(shù)應(yīng)當(dāng)包含無(wú)窮的圖。因?yàn)楸疚闹豢紤]有限集中的頻繁子圖,DFS編碼樹(shù)的規(guī)模也是有限的。DFS編碼樹(shù)中第層的節(jié)點(diǎn)包含(?1)條邊的圖的DFS編碼。通過(guò)DFS編碼樹(shù)的深度優(yōu)先遍歷,所有的具有最小DFS編碼的頻繁子圖都能被發(fā)現(xiàn)。特別地,如果節(jié)點(diǎn)中包含具有不同的DFS編碼的重復(fù)的圖,例如和表示同一個(gè)圖但是具有更小的DFS編碼,那么不是最小的DFS編碼,將會(huì)被剪枝。
算法1和算法2描述了gSpan算法的偽代碼。其中,表示圖數(shù)據(jù)庫(kù),包含了挖掘結(jié)果。更多算法細(xì)節(jié)參考文獻(xiàn)[14]。
算法1 GraphSet_Projection(D,S)
根據(jù)支持度對(duì)中的標(biāo)記進(jìn)行排序
移除不頻繁的頂點(diǎn)和邊
重新標(biāo)記剩下的頂點(diǎn)和邊
用e初始化s,用包含e的圖設(shè)置s
break
算法2 Subgraph_Mining(D,S,s)
return
枚舉每個(gè)圖中的并且對(duì)其子節(jié)點(diǎn)計(jì)數(shù)
for 每個(gè),屬于的子節(jié)點(diǎn) do
針對(duì)網(wǎng)絡(luò)拓?fù)渲写笠?guī)模KPI異常檢測(cè)的場(chǎng)景,文獻(xiàn)[6]提出了一種基于圖的門(mén)控卷積編解碼異常檢測(cè)(graph-based gated convolution codec for anomaly detection,GAD)模型,通過(guò)提取節(jié)點(diǎn)間的空間特征,以挖掘詳細(xì)的節(jié)點(diǎn)連接狀態(tài)信息。GAD運(yùn)用到大規(guī)模網(wǎng)絡(luò)中獲得了良好的表現(xiàn)效果。因此,本文考慮結(jié)合時(shí)空關(guān)系完成電力通信網(wǎng)的缺陷診斷。但是電力通信網(wǎng)場(chǎng)景中某一缺陷所關(guān)聯(lián)的告警往往局限于一個(gè)小而準(zhǔn)確的范圍,需要捕捉到準(zhǔn)確的缺陷模式。因此本文采用頻繁子圖挖掘方法對(duì)于缺陷模式進(jìn)行捕捉。
將頻繁子圖挖掘方法應(yīng)用到告警歸并集合數(shù)據(jù)分析領(lǐng)域的首要任務(wù)是將歸并集合轉(zhuǎn)化成圖數(shù)據(jù)。本文將通信網(wǎng)絡(luò)中的網(wǎng)元轉(zhuǎn)化成圖中的頂點(diǎn),將網(wǎng)元之間的物理聯(lián)系(如經(jīng)過(guò)光纜相連)以及網(wǎng)元之間的邏輯聯(lián)系(如網(wǎng)元與網(wǎng)管之間保持的通信)轉(zhuǎn)化為圖中的邊,網(wǎng)元上發(fā)生的告警轉(zhuǎn)化為圖中的標(biāo)記。由于網(wǎng)元之間的聯(lián)系是雙向的,因此頂點(diǎn)之間的邊為無(wú)向邊?;谝陨嫌懻?,本文將告警歸并集合轉(zhuǎn)化為頂點(diǎn)帶標(biāo)記的無(wú)向連通圖,并對(duì)此進(jìn)行頻繁子圖挖掘。
特別地,在電力通信網(wǎng)的缺陷診斷的場(chǎng)景下,本文可以對(duì)gSpan得到的頻繁子圖模式進(jìn)行進(jìn)一步剪枝,對(duì)滿足以下任一條件的子圖,本文不視作可能存在的缺陷模式。
● 只有一個(gè)頂點(diǎn)的子圖。
● 頂點(diǎn)數(shù)大于2且度為1的節(jié)點(diǎn)上沒(méi)有告警發(fā)生的子圖。
這是因?yàn)閷?shí)際電力通信場(chǎng)景中的缺陷通??蓺w類(lèi)為單網(wǎng)元不衍射到其他網(wǎng)元故障,或者是單網(wǎng)元可衍射到其他網(wǎng)元故障以及網(wǎng)元間介質(zhì)故障。對(duì)于單網(wǎng)元故障,告警應(yīng)當(dāng)被網(wǎng)元及其從屬的網(wǎng)管采集,至少存在兩個(gè)頂點(diǎn);對(duì)于單網(wǎng)元可衍射到其他網(wǎng)元故障及網(wǎng)元間介質(zhì)故障,缺陷模式的最遠(yuǎn)點(diǎn)應(yīng)當(dāng)是故障影響范圍的末端,也就是對(duì)應(yīng)最遠(yuǎn)上報(bào)告警的網(wǎng)元。
基于以往面向區(qū)間異常檢測(cè)進(jìn)行自適應(yīng)標(biāo)記篩選和再學(xué)習(xí)[5]的工作基礎(chǔ),本文利用標(biāo)記篩選以及基于歷史數(shù)據(jù)實(shí)現(xiàn)訓(xùn)練和預(yù)測(cè)并行的思想,設(shè)計(jì)了缺陷模式發(fā)現(xiàn)以及缺陷診斷及自動(dòng)派單流程。在模式標(biāo)注前后,歷史缺陷單數(shù)據(jù)將與對(duì)應(yīng)出現(xiàn)的模式進(jìn)行關(guān)聯(lián),使得模式之間的差異能被準(zhǔn)確檢測(cè)到。
基于頻繁子圖挖掘的缺陷模式發(fā)現(xiàn)流程如圖3所示。經(jīng)過(guò)以上討論的圖數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),各個(gè)頂點(diǎn)上的告警經(jīng)過(guò)告警編碼,由告警歸并模塊得到的歸并集合完成拓?fù)渖?,得到帶?biāo)記的無(wú)向連通圖。由告警歸并集合得到的帶標(biāo)記的無(wú)向連通圖集合經(jīng)過(guò)子圖挖掘并且經(jīng)過(guò)剪枝保留頻繁子圖模式,再一次進(jìn)行告警解碼后成為待標(biāo)記的可能缺陷模式。待標(biāo)記的可能缺陷模式在經(jīng)過(guò)專家標(biāo)注之后存入知識(shí)庫(kù),完成缺陷模式的發(fā)現(xiàn)。兩個(gè)發(fā)生R_LOS告警的端口存在物理關(guān)聯(lián)關(guān)系(端口分別從屬的站點(diǎn)間存在光纜連接關(guān)系)和邏輯關(guān)聯(lián)關(guān)系(端口分別從屬的網(wǎng)管間存在通道關(guān)系)。告警編碼時(shí),假設(shè)告警集合大小為9,則告警編碼序列長(zhǎng)度為9,若R_LOS所處位置為0,則只發(fā)生R_LOS的告警編碼對(duì)應(yīng)為100 000 000,沒(méi)有發(fā)生任何告警的告警編碼對(duì)應(yīng)為000 000 000。在子圖挖掘并完成剪枝之后得到兩個(gè)子圖,經(jīng)過(guò)告警解碼后,子圖重新還原為具有高可讀性的可能缺陷模式,方便等待人工進(jìn)行標(biāo)注。
圖3 基于頻繁子圖挖掘的缺陷模式發(fā)現(xiàn)流程
圖4 缺陷診斷和自動(dòng)派單模塊流程4實(shí)驗(yàn)結(jié)果分析
缺陷診斷和自動(dòng)派單模塊流程如圖4所示。當(dāng)新的歸并集合到達(dá),得到拓?fù)渖蓤D,使用知識(shí)庫(kù)中已標(biāo)記的缺陷模式進(jìn)行模式識(shí)別。具體而言,若在圖中識(shí)別到了缺陷模式,則根據(jù)識(shí)別出的模式在圖中的映射位置完成缺陷定位,根據(jù)知識(shí)庫(kù)中該模式對(duì)應(yīng)的專家標(biāo)注完成缺陷分類(lèi),從而完成缺陷診斷,并基于缺陷定位定級(jí)、業(yè)務(wù)影響分析完成缺陷單派發(fā)。若未在圖中識(shí)別到知識(shí)庫(kù)中的模式,則使圖進(jìn)入模式發(fā)現(xiàn)流程,記為新的待定模式??梢?jiàn)本文所提供的缺陷診斷架構(gòu)具有強(qiáng)大的容錯(cuò)能力并且擁有迭代更新的能力。
歸并結(jié)果的有效性驗(yàn)證[16]借鑒了聚類(lèi)方法的評(píng)估指標(biāo),聚類(lèi)方法的評(píng)價(jià)指標(biāo)[17]分為外部指標(biāo)和內(nèi)部指標(biāo),內(nèi)部評(píng)價(jià)聚類(lèi)的估計(jì)趨勢(shì),體現(xiàn)數(shù)據(jù)的非均勻分布程度。在電力通信系統(tǒng)中,與數(shù)據(jù)的非均勻程度相比更加關(guān)注告警與實(shí)際場(chǎng)景的一致性(告警歸并結(jié)果直接影響后續(xù)缺陷處理),因此借助缺陷和告警簇的分布情況通過(guò)外部指標(biāo)來(lái)評(píng)價(jià)歸并結(jié)果是否準(zhǔn)確且完備。
根據(jù)以上的討論,本文中告警歸并任務(wù)要求將可能由同一個(gè)缺陷引起的告警關(guān)聯(lián)在一起。本文使用的數(shù)據(jù)包括缺陷單數(shù)據(jù)和告警數(shù)據(jù),經(jīng)過(guò)告警流水號(hào)進(jìn)行數(shù)據(jù)關(guān)聯(lián)。這意味著,同一缺陷單關(guān)聯(lián)的告警應(yīng)當(dāng)被歸并在一起,且不同缺陷單關(guān)聯(lián)的告警不應(yīng)被歸并在一起。告警歸并的評(píng)估應(yīng)該建立在歸并集合以及實(shí)際缺陷單相關(guān)告警數(shù)據(jù)的一致性評(píng)估基礎(chǔ)上。本文選擇了V-measure[18]方法進(jìn)行有效性評(píng)估。
表1 不同告警歸并方法的特性和效果對(duì)比
h-score、c-score和v-score分別表明了歸并結(jié)果的同質(zhì)性、完整性和同質(zhì)性與完整性的調(diào)和平均值,取值為0到1,取值為1時(shí)為最理想結(jié)果。
可以直觀地看出,幾種方法在信息熵上的表現(xiàn)都能夠有效消除不確定性。其中在同質(zhì)性表現(xiàn)上,規(guī)則匹配和DBSCAN方法表現(xiàn)最佳,在完整性表現(xiàn)上,DBSCAN方法表現(xiàn)最佳,綜合考慮同質(zhì)性與完整性的表現(xiàn),DBSCAN方法表現(xiàn)最佳且性能表現(xiàn)具有可解釋性。-means方法在缺陷具有突發(fā)性的前提中并不適用,因此性能表現(xiàn)都不太理想。規(guī)則匹配方法得到的歸并結(jié)果基于人工經(jīng)驗(yàn),因此歸并的結(jié)果同質(zhì)性較高,但是對(duì)于規(guī)則以外的模式無(wú)法進(jìn)行捕獲因此完整性欠缺。本文基于無(wú)監(jiān)督聚類(lèi)的告警歸并方法在消除不確定性上表現(xiàn)更強(qiáng),具有自學(xué)習(xí)能力,不需要預(yù)先人為預(yù)測(cè)缺陷數(shù)目。
基于規(guī)則匹配、-means、DBSCAN的告警歸并方法的缺陷一致性對(duì)比見(jiàn)表2。
(1)歸并與缺陷一對(duì)一
表明歸并集合中僅包含一個(gè)缺陷且一個(gè)缺陷對(duì)應(yīng)的告警被歸并到了同一個(gè)集合中。歸并與缺陷一對(duì)一表明告警被正確歸并,顯然本文所采用的DBSCAN方法顯著優(yōu)于其他方法。
表2 不同告警歸并方法的缺陷一致性對(duì)比
(2)歸并與缺陷一對(duì)多
表明歸并集合中包含多個(gè)缺陷但一個(gè)缺陷對(duì)應(yīng)的告警被歸并到了同一個(gè)集合中。歸并與缺陷一對(duì)多表明部分集合被劃分得過(guò)大,可以通過(guò)細(xì)化集合來(lái)降低該比例。
(3)歸并與缺陷多對(duì)一
表明歸并集合中僅包含一個(gè)缺陷但一個(gè)缺陷對(duì)應(yīng)的告警被歸并到了多個(gè)集合中。可見(jiàn)DBSCAN方法比起單純的規(guī)則匹配降低了更多歸并與缺陷多對(duì)一比例,提高了歸并與缺陷一對(duì)一比例。
(4)歸并與缺陷多對(duì)多
表明歸并集合中包含多個(gè)缺陷且一個(gè)缺陷對(duì)應(yīng)的告警被歸并到了多個(gè)集合中。本DBSCAN方法在歸并與缺陷多對(duì)多上占比最小,表現(xiàn)最優(yōu)。
集合數(shù)目對(duì)應(yīng)著歸并告警集合數(shù),也就是對(duì)應(yīng)方法預(yù)測(cè)的缺陷數(shù)目。在集合的數(shù)目上,-means算法需要提前預(yù)設(shè)集合數(shù)目才能運(yùn)行,預(yù)設(shè)集合數(shù)目設(shè)置為缺陷單數(shù)目146,因此生成集合的數(shù)目與缺陷總數(shù)保持一致,而其他方法生成集合的數(shù)目與實(shí)際缺陷數(shù)目有偏差。除了-means方法之外,其他方法不需要設(shè)定集合數(shù)目,因此集合的數(shù)目與實(shí)際缺陷數(shù)目的一致性部分顯示了歸并方法的準(zhǔn)確性。
評(píng)估使用了146個(gè)缺陷單數(shù)據(jù),其中12個(gè)缺陷單數(shù)據(jù)存在重復(fù)派單的現(xiàn)象,因此歸并與缺陷一對(duì)多的比例較高。評(píng)估數(shù)據(jù)中的重復(fù)派單現(xiàn)象主要來(lái)源于:(1)實(shí)際環(huán)境中缺陷沒(méi)有得到及時(shí)發(fā)現(xiàn)和消缺導(dǎo)致一段時(shí)間后告警再次產(chǎn)生,由于告警之間時(shí)間間隔較長(zhǎng),單一缺陷被歸為多個(gè)缺陷單;(2)多個(gè)站點(diǎn)的共享線路或設(shè)備發(fā)生缺陷,基于人工或者規(guī)則的缺陷診斷將其判斷為多個(gè)缺陷歸檔。本系統(tǒng)的自動(dòng)派單會(huì)將算法得到的缺陷單向前歸并到已產(chǎn)生但未處理完畢的缺陷單當(dāng)中,遏制(1)導(dǎo)致的重復(fù)派單;相近時(shí)間內(nèi)具有共享線路或設(shè)備的多站點(diǎn)缺陷會(huì)被歸并到同一缺陷中,定位缺陷為該共享線路或設(shè)備,遏制(2)導(dǎo)致的重復(fù)派單。人工復(fù)查證明了算法結(jié)果有效核驗(yàn)了原始缺陷單數(shù)據(jù),發(fā)現(xiàn)了原始缺陷單數(shù)據(jù)中的重復(fù)派單數(shù)據(jù)。綜上,本文提出的基于DBSCAN的告警歸并方法在歸并與缺陷一致性表現(xiàn)上更強(qiáng),不需要預(yù)設(shè)集合數(shù)目且生成集合與實(shí)際缺陷數(shù)目較為一致。
頻繁子圖挖掘得到的待標(biāo)記模式和缺陷類(lèi)型的相關(guān)程度如圖5所示,基于146個(gè)缺陷單及其相關(guān)告警數(shù)據(jù)基于DBSCAN完成告警歸并后,對(duì)于歸并集合進(jìn)行頻繁子圖挖掘得到的待標(biāo)記的缺陷模式集合與實(shí)際缺陷單數(shù)據(jù)之間的分布一致性結(jié)果。驗(yàn)證實(shí)驗(yàn)中制定了4種缺陷類(lèi)型,fiber breaking、power interruption、card abnormal以及power abnormal,分別對(duì)應(yīng)的物理意義為光纜類(lèi)故障、供電設(shè)備中斷、板卡類(lèi)故障以及供電設(shè)備故障。圖5(a)~(d)給出了子圖模式分別與4種缺陷類(lèi)型的相關(guān)程度。其中,峰值表示該模式與對(duì)應(yīng)缺陷類(lèi)型之間存在強(qiáng)相關(guān)性。其中圖5(a)和圖5(b)出現(xiàn)了多個(gè)峰值,相關(guān)程度在0%~100%,說(shuō)明fiber_breaking和power_ interruption與多種模式相關(guān),且模式較為復(fù)雜,模式間可能存在交叉;圖5(c)出現(xiàn)了多個(gè)峰值,相關(guān)程度基本只分布在0%和100%兩個(gè)點(diǎn),說(shuō)明card_abnormal模式簡(jiǎn)單,但是存在多種模式;圖5(d)只出現(xiàn)了單峰值,說(shuō)明power_abnormal只與單一模式高度相關(guān),其結(jié)果與實(shí)際環(huán)境一致。其中,具有強(qiáng)相關(guān)性(圖中相關(guān)度為100%)的待標(biāo)記的缺陷模式在經(jīng)過(guò)人工審核之后往往是對(duì)應(yīng)缺陷類(lèi)型下的關(guān)鍵模式。這意味著在沒(méi)有人工參與的情況下,本文所提供的算法既可以自動(dòng)化發(fā)現(xiàn)可能存在的缺陷模式,同時(shí)也可以給予人工標(biāo)注建議,能夠準(zhǔn)確捕捉數(shù)據(jù)之間的相關(guān)性,并且可以準(zhǔn)確區(qū)分不同類(lèi)型數(shù)據(jù)。
圖5 頻繁子圖挖掘得到的待標(biāo)記模式和缺陷類(lèi)型的相關(guān)程度
本文提出的架構(gòu)已經(jīng)實(shí)際部署在缺陷診斷及自動(dòng)化派單系統(tǒng)中,基于gSpan挖掘得到頻繁子圖并且經(jīng)過(guò)人工標(biāo)注選出關(guān)鍵模式之后進(jìn)行圖匹配得到的缺陷診斷混淆矩陣見(jiàn)表3。混淆矩陣的每一列代表了真實(shí)類(lèi)別,每一列的總數(shù)表示預(yù)測(cè)為該類(lèi)別數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的預(yù)測(cè)歸屬類(lèi)別,每一行的數(shù)據(jù)總數(shù)表示該類(lèi)別數(shù)據(jù)實(shí)例的數(shù)目。缺陷種類(lèi)分為card abnormal、fiber breaking、power abnormal、power interruption。其中,card abnormal和power abnormal預(yù)測(cè)結(jié)果和真實(shí)結(jié)果完全一致,有兩個(gè)fiber breaking被預(yù)測(cè)為power interruption,一個(gè)power interruption被預(yù)測(cè)為fiber breaking。也就是在card abnormal以及power abnormal的缺陷診斷任務(wù)上準(zhǔn)確率為100%,fiber breaking類(lèi)別中62個(gè)缺陷中有2個(gè)缺陷診斷錯(cuò)誤,準(zhǔn)確率為96.8%,power interruption類(lèi)別中14個(gè)缺陷有1個(gè)缺陷診斷錯(cuò)誤,準(zhǔn)確率為92.9%。實(shí)驗(yàn)結(jié)果表明本文提出的缺陷診斷方法能夠獲得較高的準(zhǔn)確性。
本文提出的面向電力通信網(wǎng)的缺陷檢測(cè)和自動(dòng)派單方法,基于無(wú)監(jiān)督聚類(lèi)和頻繁子圖挖掘算法,提供了一個(gè)具有自學(xué)習(xí)和迭代更新能力的架構(gòu)。該架構(gòu)為將無(wú)監(jiān)督學(xué)習(xí)和數(shù)據(jù)挖掘等人工智能技術(shù)引入電力通信領(lǐng)域,減輕了運(yùn)維壓力,降低了人力資源投入,提升了系統(tǒng)安全性和可靠性。架構(gòu)重點(diǎn)在于告警歸并和缺陷診斷及自動(dòng)派單模塊,模塊間功能清晰、相互獨(dú)立,提供向外暴露的接口,具有良好的可擴(kuò)展性,允許擴(kuò)展為其他可行算法。本文中兩大模塊分別基于無(wú)監(jiān)督聚類(lèi)算法DBSCAN和頻繁子圖挖掘算法gSpan,擺脫了傳統(tǒng)缺陷診斷方法對(duì)于人工規(guī)則的依賴,并在實(shí)驗(yàn)中取得了良好的性能表現(xiàn)。實(shí)驗(yàn)結(jié)果證明了該架構(gòu)及其基礎(chǔ)算法的可實(shí)施性和可部署性,對(duì)電力通信網(wǎng)絡(luò)的智能化進(jìn)程有一定的理論指導(dǎo)意義。
表3 缺陷診斷混淆矩陣
[1] GARDNER R D, HARLE D A. Methods and systems for alarm correlation[C]//Proceedings of Proceedings of GLOBECOM'96. 1996 IEEE Global Telecommunications Conference. Piscataway: IEEE Press, 1996: 136-140.
[2] MAZDZIARZ A. Alarm correlation in mobile telecommunications networks based on k-means cluster analysis method[J]. Journal of Telecommunications and Information Technology, 2018(2): 95-102.
[3] WEN L, LI X Y, GAO L, et al. A new convolutional neural network-based data-driven fault diagnosis method[J]. IEEE Transactions on Industrial Electronics, 2018, 65(7): 5990-5998.
[4] XIAO F, ZHAO Y, WEN J, et al. Bayesian network based FDD strategy for variable air volume terminals[J]. Automation in Construction, 2014(41): 106-118.
[5] WANG J Y, JING Y H, QI Q, et al. ALSR: an adaptive label screening and relearning approach for interval-oriented anomaly detection[J]. Expert Systems With Applications, 2019(136): 94-104.
[6] QI Q, SHEN R Y, WANG J Y, et al. Spatial-temporal learning-based artificial intelligence for IT operations in the edge network[J]. IEEE Network, 2021, 35(1): 197-203.
[7] JAKOBSON G, WEISSMAN M. Alarm correlation[J]. IEEE Network, 1993, 7(6): 52-59.
[8] SCHUBERT E, SANDER J, ESTER M, et al. DBSCAN revisited, revisited[J]. ACM Transactions on Database Systems, 2017, 42(3): 1-21.
[9] YANG Y C, WANG Y P, WEI Y. Adaptive density peak clustering for determinging cluster center[C]//Proceedings of 2019 15th International Conference on Computational Intelligence and Security (CIS). Piscataway: IEEE Press, 2019: 182-186.
[10] BOULOUTAS A T, CALO S, FINKEL A. Alarm correlation and fault identification in communication networks[J]. IEEE Transactions on Communications, 1994, 42(234): 523-533.
[11] YOUSUF H, ZAINAL A Y, ALSHURIDEH M, et al. Artificial intelligence models in power system analysis[M]//Artificial Intelligence for Sustainable Development: Theory, Practice and Future Applications. Cham: Springer International Publishing, 2020: 231-242.
[12] DARRAB S, ERGENC B. Vertical pattern mining algorithm for multiple support thresholds[J]. Procedia Computer Science, 2017(112): 417-426.
[13] HARTMANIS J. Computers and Intractability[EB]. SIAM Review, 1982.
[14] YAN X F, HAN J W. gSpan: graph-based substructure pattern mining[C]//Proceedings of 2002 IEEE International Conference on Data Mining. Piscataway: IEEE Press, 2002: 721-724.
[15] YAN X F, HAN J W. gSpan: graph-based substructure pattern mining[C]//Proceedings of 2002 IEEE International Conference on Data Mining. Piscataway: IEEE Press, 2002: 721-724.
[16] XIONG H, LI Z M. Clustering validation measures[M]//Data Clustering: Chapman and Hall/CRC, 2018: 571-606.
[17] HOU J, LIU W X. Evaluating the density parameter in density peak based clustering[C]//Proceedings of 2016 Seventh International Conference on Intelligent Control and Information Processing (ICICIP). Piscataway: IEEE Press, 2016: 68-72.
[18] NOWOSAD J, STEPINSKI T F. Spatial association between regionalizations using the information-theoretical V-measure[J]. International Journal of Geographical Information Science, 2018, 32(12): 2386-2401.
Fault diagnosis and auto dispatchin of power communication network based on unsupervised clustering and frequent subgraph mining
WU Jihua1, ZHU Pengyu2, WU Zichen3, GU Bin3, HONG Tao3, GUO Bo3, WANG Jing1, WANG Jingyu1
1. State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China 2. State Grid Electric Power Research Institute Co., Ltd, Nanjing 210012, China 3. Information and Communication Branch of State Grid Jiangsu Electric Power Co., Ltd., Nanjing 210024, China
Fault diagnosis is one of the most challenging tasks in power communication. The fault diagnosis based on rules can no longer meet the demand of massive alarms processing. The existing approaches based on the supervised learning need large sets of the labeled data and sufficient time to train models for processing continuous data instead of alarms, which are far behind the feasibility of deployment. As for alarm correlation and fault pattern discovery, a self-learning algorithm based on the density-based clustering and frequent subgraph mining was proposed. A novel approach for automatic fault diagnosis and dispatch were also introduced, which provided the scalable and self-renewing ability and had been deployed to the automatic fault dispatch system. Experiments in the real-world datasets authorized the effectiveness for timely fault discovery and targeted fault dispatch.
power communication, fault diagnosis, unsupervised clustering, frequent subgraph mining
TP393
A
10.11959/j.issn.1000?0801.2021253
吳季樺(1998?),女,北京郵電大學(xué)計(jì)算機(jī)學(xué)院碩士生,主要研究方向?yàn)樵圃⒅R(shí)圖譜、子圖挖掘。
朱鵬宇(1992?),男,國(guó)網(wǎng)電力科學(xué)研究院有限公司工程師,主要研究方向?yàn)殡娏νㄐ?、人工智能、知識(shí)圖譜。
吳子辰(1988?),男,國(guó)網(wǎng)江蘇省電力有限公司信息通信分公司高級(jí)工程師、信通調(diào)控中心副主任,主要研究方向?yàn)殡娏νㄐ偶夹g(shù)。
顧彬(1983?),男,博士,國(guó)網(wǎng)江蘇省電力有限公司信息通信分公司高級(jí)工程師,主要研究方向?yàn)殡娏νㄐ偶夹g(shù)。
洪濤(1994?),男,國(guó)網(wǎng)江蘇省電力有限公司信息通信分公司工程師,主要研究方向?yàn)殡娏饫w通信、計(jì)算機(jī)網(wǎng)絡(luò)安全、人工智能技術(shù)等。
郭波(1977?),男,國(guó)網(wǎng)江蘇省電力有限公司信息通信分公司高級(jí)工程師、副總工程師,主要研究方向?yàn)殡娏π畔⑼ㄐ偶夹g(shù)。
王晶(1974?),女,北京郵電大學(xué)計(jì)算機(jī)學(xué)院副教授,主要研究方向?yàn)闃I(yè)務(wù)網(wǎng)絡(luò)、云網(wǎng)絡(luò)、網(wǎng)絡(luò)智能等。
王敬宇(1978?),男,博士,北京郵電大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,主要研究方向?yàn)橹悄芫W(wǎng)絡(luò)、智能運(yùn)維、邊緣計(jì)算等。
Science and Technology Project of State Grid Corporation (No.5700-202040367A-0-0-00)
2021?05?31;
2021?11?15
王晶,wangjing@ebupt.com
國(guó)家電網(wǎng)公司科技項(xiàng)目(No.5700-202040367A-0-0-00)