管 荑,謝小川,胡 琳,尚 鵬,黎 明
(1.國網(wǎng)山東省電力公司,山東 濟(jì)南 250001;2.四川師范大學(xué) 計算機(jī)科學(xué)學(xué)院,四川 成都 610101;3.國網(wǎng)山東省電力公司建設(shè)公司,山東 濟(jì)南 250001)
近年來,智能電網(wǎng)(smart electrical grid,SEG)快速發(fā)展,電網(wǎng)承載的業(yè)務(wù)數(shù)據(jù)快速增長,業(yè)務(wù)數(shù)據(jù)中蘊(yùn)含大量高價值信息和異常數(shù)據(jù)未得到挖掘和利用,存在數(shù)據(jù)量大而信息匱乏的現(xiàn)象。大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,一方面,使得SEG能快速、高效地處理和挖掘業(yè)務(wù)數(shù)據(jù)中的高價值信息和異常數(shù)據(jù);另一方面,由于SEG數(shù)據(jù)具有多源異構(gòu)性、高維度和先驗性等,對SEG進(jìn)行監(jiān)控時,須挖掘和提取高質(zhì)量的SEG運(yùn)行數(shù)據(jù),并整合SEG外部環(huán)境數(shù)據(jù)進(jìn)行有效的監(jiān)控和異常數(shù)據(jù)檢測,以實現(xiàn)由單一監(jiān)視向大數(shù)據(jù)監(jiān)控發(fā)展[1-2]。對SEG基于數(shù)據(jù)標(biāo)簽的監(jiān)控和異常數(shù)據(jù)檢測進(jìn)行研究,旨在減少電網(wǎng)異常發(fā)生和提高SEG運(yùn)行效率。
SEG系統(tǒng)中,由于設(shè)備故障和性能下降導(dǎo)致用戶數(shù)據(jù)異常,在設(shè)備工況檢測、故障監(jiān)測、設(shè)備監(jiān)控等多方面需要實時數(shù)據(jù)監(jiān)控與分析。另外,因SEG數(shù)據(jù)源類型多、數(shù)據(jù)量大、數(shù)據(jù)復(fù)雜度高、數(shù)據(jù)維度和實時性高,使得異常數(shù)據(jù)檢測時開銷大、容易漏判錯判,進(jìn)而導(dǎo)致檢測的準(zhǔn)確性和效率等受到影響,難以滿足大區(qū)域電網(wǎng)對異常檢測精度、效率和實時性等要求。
綜上,針對SEG監(jiān)控存在的數(shù)據(jù)傳輸協(xié)議的不一致性、業(yè)務(wù)數(shù)據(jù)定義的不規(guī)范性、數(shù)據(jù)計算與處理的效率和實時性不足等問題,利用數(shù)據(jù)標(biāo)簽對數(shù)據(jù)進(jìn)行抽象與規(guī)范,將各種數(shù)據(jù)傳輸協(xié)議定義的數(shù)據(jù)源統(tǒng)一以數(shù)據(jù)標(biāo)簽化進(jìn)行規(guī)范,提升數(shù)據(jù)多源匯聚效率和規(guī)范性,并對數(shù)據(jù)標(biāo)簽進(jìn)行全使用周期的監(jiān)控;同時,對數(shù)據(jù)標(biāo)簽的異常檢測流程、稀疏化與精簡算法和檢測算法等進(jìn)行設(shè)計。
關(guān)于SEG監(jiān)控,研究者們已在提高電網(wǎng)智能化、數(shù)據(jù)實時性、數(shù)據(jù)利用率和用戶滿意度等方面取得較好效果,但仍然存在一些問題和不足[3-4],主要為:1)傳輸協(xié)議不一致。電網(wǎng)數(shù)據(jù)產(chǎn)生量巨大,所使用的通信協(xié)議有IEC608705-101協(xié)議、IEC60870-5-104協(xié)議、IEC61850協(xié)議和循環(huán)遠(yuǎn)動協(xié)議等,這就使得在分層分類存儲數(shù)據(jù)時不規(guī)范,無法提高監(jiān)控主站效率和高速數(shù)據(jù)互聯(lián)互通等[5-7]。2)業(yè)務(wù)數(shù)據(jù)不一致。缺乏面向全電網(wǎng)的業(yè)務(wù)數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),使得全電網(wǎng)在建設(shè)和管理數(shù)據(jù)粒度上存在差異;并且在多源數(shù)據(jù)描述和表達(dá)上,亦具有數(shù)據(jù)異構(gòu)性和多樣性,嚴(yán)重影響對全電網(wǎng)數(shù)據(jù)需求的規(guī)范描述與表達(dá)[8-10]。3)數(shù)據(jù)處理和計算效率不高。電網(wǎng)監(jiān)控數(shù)據(jù)分析未從業(yè)務(wù)應(yīng)用角度挖掘和處理累積的各種數(shù)據(jù),使得業(yè)務(wù)數(shù)據(jù)的處理和計算無法滿足毫秒級、微秒級的實時性要求[11-13]。4)電網(wǎng)監(jiān)控異常數(shù)據(jù)檢測存在不足。SEG監(jiān)控的異常檢測在檢測架構(gòu)[14]、實時數(shù)據(jù)檢測[15]、電網(wǎng)內(nèi)部的異常行為檢測[16]和異常數(shù)據(jù)檢測[17]、電網(wǎng)外部的信息入侵檢測[18]和虛假攻擊檢測[19]等方面存在問題,使得異常數(shù)據(jù)檢測[20]和異常流量數(shù)據(jù)檢測[21]在實時性和準(zhǔn)確性等方面仍存在不足之處。
針對智能電網(wǎng)數(shù)據(jù)異常檢測,國內(nèi)外研究者進(jìn)行了相應(yīng)的研究,主要分為基于統(tǒng)計分析和基于機(jī)器學(xué)習(xí)算法的檢測方法。其中,基于統(tǒng)計的異常檢修方法,通過假設(shè)正常數(shù)據(jù)服從同一概率分布,異常數(shù)據(jù)的概率分布與正常數(shù)據(jù)概率分布存在差異而實現(xiàn)異常數(shù)據(jù)檢測;該方法不能檢測到局部異常數(shù)據(jù),特別是小范圍、單點單域的異常無法檢測[22]。關(guān)于基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方面的異常檢測,Jiang等[23]進(jìn)行了綜述,并指出了各種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法在異常數(shù)據(jù)檢測方面的優(yōu)缺點。Chahla等[24]將聚類與預(yù)測結(jié)合,提出了一種新的無監(jiān)督深度學(xué)習(xí)檢測功耗異常數(shù)據(jù)算法,并對算法進(jìn)行實驗驗證;但算法運(yùn)行時間復(fù)雜度未明顯提高。在基于機(jī)器的異常檢測方面,有研究者采用神經(jīng)網(wǎng)絡(luò)算法、Markov理論和時序等進(jìn)行研究,如:Tsukada等[25]利用神經(jīng)網(wǎng)絡(luò)進(jìn)行邊緣設(shè)備的異常檢測研究;Wu等[26]利用雙隱馬爾可夫模型對無線終端非信任環(huán)境下的異常檢測進(jìn)行研究;Cook等[27]綜述了物聯(lián)網(wǎng)時序異常數(shù)據(jù)檢測的研究現(xiàn)狀及未來潛在的機(jī)會等。如上所述,這些研究能有效應(yīng)用于各種檢測任務(wù),但每種檢測方法都有其優(yōu)缺點,對SEG的異常檢測提供了有益參考。
雖然研究者對SEG監(jiān)控和異常檢測進(jìn)行了諸多研究,但仍存在難以準(zhǔn)確發(fā)現(xiàn)監(jiān)控時的異常數(shù)據(jù)的問題,特別是在多維異構(gòu)特性下,其異常數(shù)據(jù)挖掘難度更大。因此,本文利用數(shù)據(jù)標(biāo)簽實現(xiàn)SEG監(jiān)控,在監(jiān)控中利用異常數(shù)據(jù)檢測算法實現(xiàn)SEG數(shù)據(jù)標(biāo)簽監(jiān)控異常數(shù)據(jù)檢測,并提出了相應(yīng)的流程和算法。
在提出的SEG數(shù)據(jù)標(biāo)簽監(jiān)控系統(tǒng)中,針對各種協(xié)議的原始數(shù)據(jù)輸入,首先,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)源命名、設(shè)備信息數(shù)據(jù)和數(shù)據(jù)結(jié)構(gòu)等規(guī)格化處理;然后,按照規(guī)格化后的統(tǒng)一格式傳輸?shù)綌?shù)據(jù)標(biāo)簽化處理中。數(shù)據(jù)標(biāo)簽化處理過程中,對各類數(shù)據(jù)進(jìn)行標(biāo)簽化處理,如監(jiān)控運(yùn)行數(shù)據(jù)、檢修數(shù)據(jù)和用戶數(shù)據(jù)等。將經(jīng)過標(biāo)簽化處理的監(jiān)控數(shù)據(jù)輸入到后端進(jìn)行數(shù)據(jù)集標(biāo)簽提取與分析,即進(jìn)行數(shù)據(jù)標(biāo)簽語義提取、可交互監(jiān)控數(shù)據(jù)標(biāo)簽集提取和數(shù)據(jù)文本語義提取等,這一過程在SEG監(jiān)控大數(shù)據(jù)處理與分析中完成[28]。具體框架如圖1所示。
圖1 SEG監(jiān)控數(shù)據(jù)標(biāo)簽與異常檢測框架Fig.1 SEG monitoring data-tag and anomaly detection framework
如圖1所示,經(jīng)過標(biāo)簽提取后,將數(shù)據(jù)發(fā)布到計算分析部分,進(jìn)行數(shù)據(jù)標(biāo)簽的關(guān)聯(lián)性分析、數(shù)據(jù)稀疏化、精簡關(guān)聯(lián)數(shù)據(jù)集生成和異常檢測等處理,得到SEG數(shù)據(jù)標(biāo)簽監(jiān)控的正常數(shù)據(jù)和異常數(shù)據(jù),以便進(jìn)行各種實時處理和管理決策。
原始數(shù)據(jù)來源于5個方面:1)電網(wǎng)原先的監(jiān)控系統(tǒng)采集而得到的數(shù)據(jù);2)現(xiàn)有監(jiān)控的遙測、遙感、遙調(diào)和遙控數(shù)據(jù);3)發(fā)電端輸入電網(wǎng)的輸變電在線采集、檢測的實時數(shù)據(jù),以及二次側(cè)在線錄波數(shù)據(jù)和各種占用及電網(wǎng)設(shè)備采集數(shù)據(jù)與運(yùn)行數(shù)據(jù);4)SEG各種子系統(tǒng)的設(shè)備檢修、故障、缺陷和臺賬等基礎(chǔ)管理數(shù)據(jù);5)各種SEG相關(guān)輔助子系統(tǒng)的各種輔助數(shù)據(jù),如氣象、工作票、雷電監(jiān)測、視頻、地理信息系統(tǒng)等。依據(jù)數(shù)據(jù)源的差異和特征,對圖1進(jìn)行層次化和模塊化抽象,得到SEG標(biāo)簽數(shù)據(jù)監(jiān)控架構(gòu),如圖2所示。
圖2 SEG數(shù)據(jù)標(biāo)簽監(jiān)控架構(gòu)Fig.2 SEG data-tag monitoring architecture
圖2中,虛線框內(nèi)的數(shù)據(jù)層,即圖1的規(guī)格化數(shù)據(jù)接入部分,在此僅對其進(jìn)行了細(xì)化,如輸電線路組成,即各種輸電線路傳感器、無線感知設(shè)備、設(shè)備識別標(biāo)簽、攝像頭等感知監(jiān)控數(shù)據(jù),經(jīng)過規(guī)格化處理后,通過傳輸通道進(jìn)入下一個數(shù)據(jù)處理層。在標(biāo)簽層,對規(guī)格化數(shù)據(jù)按照標(biāo)簽化處理,得到感知數(shù)據(jù)集的數(shù)值語義標(biāo)簽和時序文本語義標(biāo)簽;感知數(shù)據(jù)集的數(shù)值語義標(biāo)簽和時序文本語義標(biāo)簽在次層依據(jù)關(guān)聯(lián)規(guī)則進(jìn)行關(guān)聯(lián)。服務(wù)層包括信息平臺標(biāo)簽數(shù)據(jù)庫、各種專業(yè)服務(wù)器和客戶監(jiān)控終端等,在服務(wù)器中設(shè)置專用標(biāo)簽提取與分析算法,并將標(biāo)簽提取與分析分析結(jié)果輸出到應(yīng)用層。應(yīng)用層主要進(jìn)行各種監(jiān)控數(shù)據(jù)狀態(tài)分析及應(yīng)用,包括監(jiān)控數(shù)據(jù)標(biāo)簽提取后的呈現(xiàn)形式、表示方法和結(jié)果反饋等。
數(shù)據(jù)標(biāo)簽采用非手工標(biāo)簽生成方式,即依據(jù)業(yè)務(wù)規(guī)則構(gòu)建標(biāo)簽,主要包括屬性標(biāo)簽、事實標(biāo)簽、模型標(biāo)簽和復(fù)合標(biāo)簽等。SEG的各種數(shù)據(jù),需要建立數(shù)據(jù)標(biāo)簽化規(guī)則,即:對各類設(shè)備的標(biāo)簽,建立分類分級、應(yīng)用場景、組織對象、供應(yīng)商和所屬員工等屬性,以便進(jìn)行標(biāo)簽對屬性關(guān)聯(lián)[29]。
SEG運(yùn)行時各種監(jiān)控感知數(shù)據(jù)和運(yùn)行數(shù)據(jù)均為單一數(shù)值構(gòu)成的集合,稱集合為感知數(shù)據(jù)集。感知數(shù)據(jù)集為具有同一屬性且在連續(xù)時間段內(nèi)的數(shù)值序列,即:
式中,pi為在某時刻感知數(shù)據(jù)集pdsObj設(shè)備vi收集的值,i=1,2,···,n,n為 感知層設(shè)備數(shù)量。對pdsObj的數(shù)據(jù)集賦予一個數(shù)據(jù)對象和數(shù)值 λ,構(gòu)成數(shù)據(jù)集的數(shù)值語義標(biāo)簽numSL,即:
式中,λ為數(shù)據(jù)對象的影響因子。
感知數(shù)據(jù)文本與感知數(shù)據(jù)集語義相關(guān)聯(lián),感知數(shù)據(jù)文本txtObj是感知數(shù)據(jù)集對應(yīng)標(biāo)簽的一份文本數(shù)據(jù),即:
式中,wi為txtObj中設(shè)備vi的權(quán)重。
主體詞庫keyTwl為主體詞的集合,包括語料庫中所有感知文本數(shù)據(jù)的語義標(biāo)簽,用以限定語料庫的語義范圍,即:
式中,keyi為主體詞庫中設(shè)備vi的主體詞。
主體詞表示文本語義或具有一定辨識度的詞或短語,每個主體詞對應(yīng)一個權(quán)值的概率,即:
式中,wvi為 主體詞keyi取權(quán)值wi的概率。
屬性詞是經(jīng)由分詞標(biāo)注處理后的詞或短語,是實際語義的載體。屬性詞aW為一個與主體詞關(guān)聯(lián)的權(quán)值概率序列,即:
式中,pvi為 屬性詞aW的主體詞keyi的權(quán)值概率。
由此,原始感知數(shù)據(jù)集由原數(shù)值型數(shù)據(jù)轉(zhuǎn)換為具有標(biāo)簽特性的感知數(shù)據(jù)文本sdlObj,且感知數(shù)據(jù)集與感知數(shù)據(jù)文本具有關(guān)聯(lián)關(guān)系,即:
對sdlObj添加時間分量,使得感知數(shù)據(jù)集與感知數(shù)據(jù)文本關(guān)聯(lián)的同時,具有時序關(guān)聯(lián)特性,即:
式中,timeObj為感知數(shù)據(jù)集的時序關(guān)聯(lián)特征值序列,即:
式中,ts表示感知數(shù)據(jù)集pdsObj在 時刻s的時序值。
由此,利用式(1)~(9),即可建立SEG監(jiān)控感知數(shù)據(jù)集的時序文本關(guān)聯(lián)數(shù)據(jù)標(biāo)簽。
SEG監(jiān)控狀態(tài)判斷采用潮流計算模型,即用極坐標(biāo)方式描述數(shù)據(jù)[30]。其描述的極坐標(biāo)形式為:
式中:ξ ∈Eψ,Eψ為和節(jié)點 ψ 相聯(lián)的節(jié)點集合;Uψ為檢測節(jié)點 ψ的電壓幅值;θψζ為節(jié)點 ψ 和 ζ 的相角;Pψ、Qψ為節(jié)點 ψ的有功和無功功率;Gψζ、Bψζ為節(jié)點 ψ 和 ζ相聯(lián)的自導(dǎo)電和自電納。
利用式(10)對SEG節(jié)點 ψ的運(yùn)行狀態(tài)進(jìn)行判斷時,依據(jù)Pψ、Qψ、Uψ、θψζ中的任意兩個參數(shù)值,以及約束條件,求解另外兩個參數(shù)[31]。若式(10)的節(jié)點 ψ數(shù)目較多,則式(10)的計算量巨大;為了在給定時間內(nèi)計算得到SEG的狀態(tài)值,利用潮流計算得到結(jié)果,從而滿足電網(wǎng)需求。
依據(jù)數(shù)據(jù)標(biāo)簽的SEG監(jiān)控和式(10)計算量,采用主從模式進(jìn)行任務(wù)劃分。假設(shè)節(jié)點 ψ 與 ζ相聯(lián)異常,將該異常進(jìn)行細(xì)分,在MapReduce大數(shù)據(jù)處理中用Map代表若干細(xì)分,所有Map為串行潮流計算,即可得到節(jié)點 ψ運(yùn)行狀態(tài)。Map等價于MapReduce中的子任務(wù),即采用該方式對SEG數(shù)據(jù)標(biāo)簽監(jiān)控進(jìn)行任務(wù)劃分,但SEG的節(jié)點 ψ 與節(jié)點 ζ相聯(lián)不一定導(dǎo)致異常,故需要對數(shù)據(jù)標(biāo)簽SEG監(jiān)控的異常數(shù)據(jù)進(jìn)行映射,并將各映射與異常數(shù)據(jù)檢測算法進(jìn)行歸納,以輸出異常數(shù)據(jù)檢測算法的結(jié)果。對圖1的計算分析部分,進(jìn)行基于MapReduce的SEG數(shù)據(jù)標(biāo)簽任務(wù)劃分,得到任務(wù)劃分模型如圖3所示。
圖3 SEG監(jiān)控大數(shù)據(jù)任務(wù)劃分Fig.3 SEG monitoring big data task division
依據(jù)第2節(jié)論述和SEG數(shù)據(jù)特征,以及SEG監(jiān)控大數(shù)據(jù)系統(tǒng)對鏈路延遲、網(wǎng)絡(luò)吞吐率和存儲使用率等對時序的要求,對數(shù)據(jù)標(biāo)簽增加時序關(guān)聯(lián),以進(jìn)行數(shù)據(jù)標(biāo)簽的異常檢測[32]。
定義1 設(shè)SEG由多個設(shè)備節(jié)點構(gòu)成的時序關(guān)聯(lián)無權(quán)圖G(V,E),其中:V表示SEG節(jié)點集合,|V|=n為設(shè)備節(jié)點數(shù)量;E為網(wǎng)絡(luò)中邊的集合。
根據(jù)定義1,設(shè)di(t) 為 設(shè)備節(jié)點i在t時刻的時序關(guān)聯(lián)數(shù)據(jù),即為數(shù)據(jù)關(guān)聯(lián)時序,則:
式中,D(t) 為 SEG中所有節(jié)點在t時刻的時序關(guān)聯(lián)數(shù)據(jù)集。
由此,將SEG數(shù)據(jù)標(biāo)簽監(jiān)控的異常數(shù)據(jù)檢測轉(zhuǎn)化為數(shù)據(jù)標(biāo)簽化后的時序關(guān)聯(lián),用給定時間序列對所有時刻的時序關(guān)聯(lián)數(shù)據(jù)集D進(jìn)行時序檢測,以檢測是否存在時序異常的數(shù)據(jù)。因此,對時序關(guān)聯(lián)數(shù)據(jù)集D依據(jù)如圖1所示的計算分析步驟,即進(jìn)行時序關(guān)聯(lián)數(shù)據(jù)生成、時序關(guān)聯(lián)分析、異常數(shù)據(jù)檢測和數(shù)據(jù)輸出,細(xì)化流程如圖4所示。
圖4 SEG數(shù)據(jù)標(biāo)簽異常檢測流程圖Fig.4 SEG data-tag anomaly detection flowchart
由圖4可知,異常檢測時,先進(jìn)行時序關(guān)聯(lián),并依據(jù)關(guān)聯(lián)分析得到的屬性進(jìn)行時序關(guān)聯(lián)稀疏矩陣和時序關(guān)聯(lián)系數(shù)矩陣的密度矩陣計算。異常數(shù)據(jù)檢測包括預(yù)處理、時序關(guān)聯(lián)計算和異常檢測等步驟。其中:預(yù)處理先對SEG數(shù)據(jù)標(biāo)簽的時序關(guān)聯(lián)數(shù)據(jù)進(jìn)行時序?qū)R和時序缺失填充等處理;時序關(guān)聯(lián)計算是對是預(yù)處理后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)和時序關(guān)聯(lián)處理,生成時序關(guān)聯(lián)矩陣,并依據(jù)矩陣中元素值建立時序關(guān)聯(lián)圖,再對時序關(guān)聯(lián)圖按照關(guān)聯(lián)性閾值劃分時序關(guān)聯(lián)團(tuán);異常檢測將檢測結(jié)果輸出為正常數(shù)據(jù)和異常數(shù)據(jù)。
依據(jù)圖1和4,對得到的數(shù)據(jù)標(biāo)簽時序數(shù)據(jù)進(jìn)行稀疏化處理,得到精簡數(shù)據(jù)集,并設(shè)計稀疏和精簡算法[33]。
定義2 設(shè)a為指定的一組屬性,則定義A為包含屬性a的p維數(shù)據(jù)集,即:
定義3 設(shè)dij為大小為p×n的時序關(guān)聯(lián)數(shù)據(jù)集D的元素,dij為 設(shè)備vi(i=1,2,···,n)在屬性Aj(j=1,2,···,p)上的取值,di為 設(shè)備節(jié)點vi收集的數(shù)據(jù)集合。
由定義2和定義3可知,若給定Aj上對vi的di j值,得到dij稀疏度SMDij為:
式中:x為dij的k近鄰集中的設(shè)備節(jié)點的隨機(jī)感知值;y(dij)為dij的k近鄰集,y(dij)=Knns(dij),|y(dij)|=k+1,Knns(di j) 為 點vi在 維 度 為Aj上 的k階 近 鄰 集;cvij為y(dij)的中心值,其表達(dá)式為:
若SMDi j的值比較大,則dij在稀疏區(qū)域下;否則,dij在稠密區(qū)域中,且位于時序關(guān)聯(lián)數(shù)據(jù)集D的每個維度。
又因k階近鄰使時序關(guān)聯(lián)數(shù)據(jù)集為D的數(shù)據(jù)量急劇增加,為降低數(shù)據(jù)量,設(shè)計算法1生成精簡時序關(guān)聯(lián)數(shù)據(jù)集。
算法1中:首先,對D中數(shù)據(jù)按照每個數(shù)據(jù)的維度值進(jìn)行升序排列,并按照1維k近鄰在排序后的數(shù)據(jù)集Ds中搜索,依據(jù)式(13)計算D中的每個數(shù)據(jù)的稀疏度SMDij,且將稀疏度SMDij存儲于稀疏矩陣B的元素bij中。然后,在給定稀疏度閾值 ξ下,對B進(jìn)行稀疏區(qū)和稠密區(qū)的識別,得到稀疏密度矩陣C,cij為C的元素。若bij<ξ ,則cij=1,即dij位于稠密區(qū);否則,cij=0,即dij在稀疏區(qū)。最后,對C中的值進(jìn)行剪枝,得到精簡數(shù)據(jù)集Cdsv。
對Cdsv數(shù)據(jù)集進(jìn)行逆向逐段聚集均值處理,以使數(shù)據(jù)集進(jìn)一步減少而降低運(yùn)算復(fù)雜度,且有利于對各時序數(shù)據(jù)集的屬性進(jìn)行提取[34],設(shè)hi為 節(jié)點vi在數(shù)據(jù)集Cdsv中對應(yīng)的數(shù)據(jù)點。
定義4 設(shè)數(shù)據(jù)點hi的 最近鄰節(jié)點hm總 數(shù)為K,m=1,2,···,K。hi的擴(kuò)展鄰域Ekd(hi)包括3類節(jié)點的集合,與3類節(jié)點關(guān)系如下:
式中,Ekd(hi)為hi所有近鄰點的集合,knn(hi) 為hi的k正則最近鄰點的集合,krnn(hi) 為與hi的k-共享最近鄰點個數(shù)為0的點的集合,ksnn(hi) 為 與hi的k-共享最近鄰點個數(shù)為1個或多個的點的集合。
定義5 數(shù)據(jù)點vi的k近鄰擴(kuò)展可用帶控制因子的高斯核函數(shù)kEdf(hi)描述,為:
式中,Rpaa(hi)為hi的滑動平均分段聚合近似值,Eud(hi,hm)為hi、hm的歐幾里得距離。
根據(jù)定義4和定義5,hi密度與局部k近鄰間的差異度Dlknd(hi)為:
定義1對G(V,E) 進(jìn)行時序關(guān)聯(lián)初始化,即Gr=(V,E);若Dlknd(hi)≥α ,α為設(shè)定的關(guān)聯(lián)差異度值,則對Gr=(V,E) 的所有V頂點進(jìn)行遍歷;對遍歷所得到的圖再進(jìn)行處理,其處理流程為:
1)設(shè)置時序關(guān)聯(lián)差異度 α,用算法1 對Gr=(V,E)每個頂點初始化,得到稀疏度矩陣B。
2)i從1到n,l從i+1到n,若Dlknd(hi)≥α ,則Gr中加入邊eil=(vi,vl)。
3)得到Gr即為時序關(guān)聯(lián)圖。
定義6 對時序關(guān)聯(lián)圖Gr=(V,E) ,假設(shè)Vtag為定義1確定的頂點集合,即Vtag={v1,v2,···,vn},當(dāng)n≥2時,dov(vi) 為 頂點的度,woe(eil) 為 邊eil的 權(quán)值。若Vtag滿足:
1)?vi∈Vtag,有vi∈V(Gr),V(Gr)為圖Gr的頂點集合;
2)?vi∈Vtag,有dov(vi)≥|Vtag|/2;
3)給定 α,?vi、vl∈Vtag,有woe(eil)≥α;
4)Vtag為Gr上滿足條件1)、條件2)的最大頂點集。則稱Vtag為時序關(guān)聯(lián)圖Gr上的一個時序關(guān)聯(lián)團(tuán)。
依據(jù)定義4~定義7,利用算法1得到的精簡數(shù)據(jù)集Cdsv,將Cdsv作為算法2輸入,得到異常數(shù)據(jù)集OutlierDS。在算法2中:先將異常數(shù)據(jù)集OutlierDS設(shè)置為空集和時序關(guān)聯(lián)圖Gr;然后,利用算法1輸出的精簡數(shù)據(jù)集Cdsv進(jìn)行時序關(guān)聯(lián)圖的時序關(guān)聯(lián)團(tuán)構(gòu)建,再進(jìn)行時序關(guān)聯(lián)團(tuán)內(nèi)和團(tuán)間的異常數(shù)據(jù)檢查;最后,輸出異常數(shù)據(jù)集OutlierDS。其具體算法過程為:
由算法2可知,其時間消耗于精簡時序數(shù)據(jù)集Cdsv的稀疏度計算、時序關(guān)聯(lián)圖構(gòu)建和求解最小覆蓋與計算異常時序關(guān)聯(lián)數(shù)據(jù)。算法2中,求解最小覆蓋時使用匈牙利算法,求解和計算異常時序關(guān)聯(lián)數(shù)據(jù)時使用禁忌搜索算法,在此不再描述。
算法1的時間復(fù)雜度為O(n×p),最壞情況為O(n2) 。而算法2給定Cdsv數(shù)據(jù)集按照式(17)計算Dlknd(vi) 的時間復(fù)雜度為O(n2),計算時序關(guān)聯(lián)圖的時間復(fù)雜度為O(n×p),但求解最小覆蓋與計算異常數(shù)據(jù)的最壞情況時間復(fù)雜度為O(n3)。
依據(jù)設(shè)計的框架,以電壓為500~220、220~35 kV的主變電站為實驗數(shù)據(jù),進(jìn)行近3個月的數(shù)據(jù)感知與存儲,采集數(shù)據(jù)頻率為每秒記錄2次。利用所提出的算法1和算法2,對SEG數(shù)據(jù)標(biāo)簽異常監(jiān)控與異常數(shù)據(jù)檢測實驗。
如圖5所示,在主變電站的500~220 kV主變壓器、220~35 kV變壓器、電容器組、主變壓器抵抗、站用變和各種母線、刀閘等,使用標(biāo)簽和相應(yīng)的傳感器進(jìn)行監(jiān)控,采集到變電站監(jiān)控數(shù)據(jù)、調(diào)度信息、雷電信息和輸電監(jiān)控等數(shù)據(jù),將數(shù)據(jù)遷移到大數(shù)據(jù)系統(tǒng)中。其中,數(shù)據(jù)表2 000多張,數(shù)據(jù)10億多條,非結(jié)構(gòu)化數(shù)據(jù)100萬個文件以上,總數(shù)據(jù)量達(dá)到30 TB。
圖5 主變電站監(jiān)控智能分析結(jié)構(gòu)Fig.5 Main substation monitoring intelligent analysis structure
首先,對采集到的原始數(shù)據(jù)進(jìn)行標(biāo)簽化處理;然后,依據(jù)采集時間進(jìn)行時序關(guān)聯(lián);最后,利用本文算法進(jìn)行異常數(shù)據(jù)檢測。得到異常數(shù)據(jù)后,對異常數(shù)據(jù)依據(jù)數(shù)據(jù)標(biāo)簽進(jìn)行反析定位,得到2#號主變壓器保護(hù)RC12屏的35 kV電壓偏移異常后,須立即進(jìn)行應(yīng)急處理。
上級調(diào)度依據(jù)監(jiān)控智能分析得到的異常數(shù)據(jù),立即通知變電站所,對2#號主變壓器異常信息的位置、信息歸類歸檔,現(xiàn)場進(jìn)行查驗核對,檢查2#號主變壓器保護(hù)RC12屏35 kV電壓偏移、35 kV母線電壓,并做好現(xiàn)場防護(hù)與保護(hù)。經(jīng)過細(xì)致查驗,未發(fā)現(xiàn)現(xiàn)場異常,匯報上級調(diào)度,申請試分合322、323開關(guān)。現(xiàn)場斷開322開關(guān),異常信號仍然存在;拉開323開關(guān),異常信號消失;合上322開關(guān)后正常,無異常信號。
處理完現(xiàn)場異常立即匯報上級調(diào)度,即將電容器組323有接地的情況予以記錄并匯報,上級調(diào)度將異常匯報給相關(guān)決策者,決策者授權(quán)于上級調(diào)度,并下達(dá)對2#主變壓器的3#電容器組進(jìn)行檢修的工作票。
采用Matlab軟件進(jìn)行算法仿真,并結(jié)合Spark和Storm大數(shù)據(jù)分析系統(tǒng),利用第4.1節(jié)采集到的30 TB數(shù)據(jù),進(jìn)行仿真與分析。
待檢測數(shù)據(jù)均為正常數(shù)據(jù),通過算法1和算法2檢測后,得到異常數(shù)據(jù)[35]。設(shè)定正常數(shù)據(jù)經(jīng)檢測成為異常數(shù)據(jù)稱為Nd2od,異常數(shù)據(jù)經(jīng)檢測成為異常數(shù)據(jù)稱為Od2od,正常數(shù)據(jù)經(jīng)檢測為正常數(shù)據(jù)稱為Nd2nd,異常數(shù)據(jù)檢測為正常數(shù)據(jù)稱為Od2nd,算法的準(zhǔn)確率Dda和召回率Drr的指標(biāo)分別表示為:
實驗選取30 000個時刻、每個時刻96列數(shù)據(jù)。首先,對數(shù)據(jù)進(jìn)行標(biāo)簽化處理;然后,進(jìn)行時序關(guān)聯(lián)處理;最后,用本文算法和參比算法,進(jìn)行實驗與仿真對比。其中,參比算法為獨(dú)立同分布分類異常檢測[36]、統(tǒng)計聚類異常檢測[37]和機(jī)器學(xué)習(xí)異常檢測[38]的算法,亦是異常檢測領(lǐng)域較為先進(jìn)的算法。實驗時,對不同時序關(guān)聯(lián)數(shù)據(jù)量、維度總數(shù)和異常數(shù)據(jù)量下中的算法性能進(jìn)行對比實驗,且設(shè)置Dda和Drr的基準(zhǔn)值均為0.8,得到本文算法與參比算法在異常數(shù)據(jù)檢測性能方面的對比曲線。不同數(shù)據(jù)量下的Dda和Drr如圖6所示。
圖6 不同實驗數(shù)據(jù)量下的算法準(zhǔn)確率和召回率對比曲線Fig.6 Algorithm accuracy and recall comparison curves under different experimental data volume
由圖6(a)可以看出:隨著測試數(shù)據(jù)量的不斷遞增,當(dāng)數(shù)據(jù)量在0到20組之間時,文獻(xiàn)[36]、文獻(xiàn)[37]和文獻(xiàn)[38]的算法準(zhǔn)確率呈現(xiàn)急劇下降的趨勢;然后,文獻(xiàn)[38]算法準(zhǔn)確率呈現(xiàn)震蕩上升,文獻(xiàn)[37]算法準(zhǔn)確率在上升到一定值后,緩慢下降而趨于平穩(wěn)。但本文算法,隨著數(shù)據(jù)量遞增,其準(zhǔn)確率呈現(xiàn)緩慢遞增而逐步趨于平穩(wěn)。由圖6(b)可知:當(dāng)數(shù)據(jù)量增加時,3個參比算法召回率伴以波動遞減;本文算法的召回率總趨勢為遞減,但遞減幅度較參比算法小,且曲線呈緩慢下降,其召回率在數(shù)值上維持在大于80%。
圖7為數(shù)據(jù)量相同時,在不同數(shù)據(jù)的維度p下,本文算法與參比算法準(zhǔn)確率和召回率曲線的比較。圖7(a)中:隨著數(shù)據(jù)維度p從3到45不斷遞增,文獻(xiàn)[37]算法準(zhǔn)確率在波動中平緩下降,而文獻(xiàn)[36]算法準(zhǔn)確率在50%到68%之間波動且下降梯度較大;本文算法在維度數(shù)較低時,準(zhǔn)確率為93%,當(dāng)維度數(shù)增加時,起初呈現(xiàn)下降趨勢,但當(dāng)維度數(shù)達(dá)到9以后,呈現(xiàn)平穩(wěn)上升趨勢,其上升幅度在5%以內(nèi);文獻(xiàn)[38]算法表現(xiàn)較為平穩(wěn),但其準(zhǔn)確率不高,僅在75%到78%之間。圖7(b)中,本文算法的召回率在85%到90%之間,且隨著維度數(shù)的增加而呈現(xiàn)緩慢上升趨勢,上升幅度在4%以內(nèi);參比算法在數(shù)據(jù)量增加時,召回率總的趨勢為下降。
圖7 不同時序數(shù)據(jù)維度數(shù)下的算法準(zhǔn)確率和召回率對比曲線Fig.7 Algorithm accuracy and recall comparison curves under different time series data dimensions
圖8為不同測試數(shù)據(jù)異常數(shù)據(jù)量下,本文算法和參比算法性能變化曲線。仿真采用的數(shù)據(jù)集為750組,數(shù)據(jù)集的維度設(shè)置為30。由圖8可知:當(dāng)異常數(shù)據(jù)量的增加時,本文算法準(zhǔn)確率總的趨勢表現(xiàn)為遞減,但其準(zhǔn)確度在仿真時均保持在82%以上;參比算法的準(zhǔn)確率遞減下降,且下降趨勢較為明顯。本文算法的召回率先是緩慢增加,然后緩慢下降,其值維持在90%以上;參比算法召回率在數(shù)據(jù)量增加時,總的趨勢呈波動下降。
圖8 不同異常數(shù)據(jù)量的算法準(zhǔn)確率和召回率曲線Fig.8 Algorithm precision and recall curves under different abnormal data volume
綜上,本文算法與參比算法相比,在準(zhǔn)確率和召回率上均具有一定優(yōu)越性,其原因是本文算法先按照算法1對原始數(shù)據(jù)進(jìn)行了稀疏化和精簡處理,使得在執(zhí)行算法2進(jìn)行異常數(shù)據(jù)檢測時的運(yùn)算復(fù)雜度明顯下降。
采用不同數(shù)據(jù)量的測試數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)檢測時,本文算法和參比算法運(yùn)行時間比較結(jié)果如圖9所示。
圖9 測試數(shù)據(jù)集的算法運(yùn)行時間比較曲線Fig.9 Algorithm runtime comparison curves for the test dataset
由圖9可知:隨著測試數(shù)據(jù)集數(shù)量的增加,本文算法和參比算法的運(yùn)行時間均增加。在數(shù)據(jù)集較少時,文獻(xiàn)[37]算法運(yùn)行時間呈線性遞增趨勢;當(dāng)數(shù)據(jù)量達(dá)到80以后,其運(yùn)行時間增長平緩。其他參比算法運(yùn)行時間呈現(xiàn)波動。本文算法的總體運(yùn)行時間比參比算法少2.0~3.0 s,這是因為在測試時先按照算法1對數(shù)據(jù)進(jìn)行處理,使得算法2的數(shù)據(jù)量比參比算法少,故其運(yùn)行時間增加量較少。
通過實驗和仿真對比分析可知,本文算法在不同數(shù)據(jù)源下,準(zhǔn)確率維持在80%以上,召回率維持在85%以上。因此,本文算法有效性得到提高;同時,本文算法在相同數(shù)據(jù)量下的運(yùn)行時間也較低,與參比算法比較,本文算法執(zhí)行效率較高。
針對智能電網(wǎng)監(jiān)控在局部傳輸協(xié)議不一致、效率較低和異常數(shù)據(jù)檢測存在不足等問題,提出一種基于數(shù)據(jù)標(biāo)簽的SEG監(jiān)控架構(gòu)和異常數(shù)據(jù)檢測算法。首先,對SEG數(shù)據(jù)標(biāo)簽監(jiān)控與異常檢測的框架、大數(shù)據(jù)監(jiān)控分析架構(gòu)、數(shù)據(jù)標(biāo)簽化和系統(tǒng)任務(wù)劃分等進(jìn)行設(shè)計;然后,提出系統(tǒng)異常檢測流程、數(shù)據(jù)標(biāo)簽稀疏化與精簡算法和異常數(shù)據(jù)檢測算法;最后,對所設(shè)計的SEG數(shù)據(jù)標(biāo)簽監(jiān)控架構(gòu)進(jìn)行電網(wǎng)實例分析,同時對提出的算法與參比算法在準(zhǔn)確率、召回率和運(yùn)行時間等方面進(jìn)行對比仿真實驗。可知:本文所設(shè)計的SEG數(shù)據(jù)標(biāo)簽監(jiān)控系統(tǒng)能有效分析數(shù)據(jù)異常;與參比算法相比,本文算法在異常數(shù)據(jù)檢測的準(zhǔn)確率、召回率和運(yùn)行時間等方面,有一定的改進(jìn)和提高。
當(dāng)然,本文所提出的SEG數(shù)據(jù)標(biāo)簽監(jiān)控與異常檢測算法仍存在優(yōu)化空間,提出的算法仍然需要進(jìn)一步提高準(zhǔn)確率和召回率。下一步,將進(jìn)一步對SEG數(shù)據(jù)標(biāo)簽監(jiān)控體系結(jié)構(gòu)進(jìn)行改進(jìn);并對異常檢測算法進(jìn)行深入研究,提出更加有效的算法,以便更好地為電網(wǎng)服務(wù)。